[Evaluation of ChatGPT's responses to symptom-oriented questions in otolaryngology]

Orv Hetil. 2025 Oct 19;166(42):1666-1674. doi: 10.1556/650.2025.33395. Print 2025 Oct 19.
[Article in Hungarian]

Abstract

Introduction: Chat Generative Pre-Trained Transformer (ChatGPT) is a recently developed artificial intelligence (AI)-based language model that has become an increasingly common source of health-related information due to its accessibility. However, there is limited evidence regarding the accuracy and reliability of its responses. Objective: This study aimed to assess ChatGPT’s usability in otolaryngology by analyzing its answers to common patient questions. Method: 24 patient-oriented questions were created across 10 otolaryngological disease categories and submitted sequentially to ChatGPT version 4.0. The generated responses were evaluated from a linguistic perspective and 6 board-certified otolaryngologists using a three-point scale: incorrect (1), correct but incomplete (2), and correct (3). Results: Language evaluations indicated that the responses were generally clear, well-structured, and of good quality for further medical evaluations. ChatGPT’s medical accuracy scores ranged from 2.00 to 2.83. Three specific questions (Q4, Q9, Q24) received significantly lower ratings. Four raters (R1, R2, R4, R6) showed strong agreement in their evaluations, while significant differences emerged between the scores of R3 and R5 (p<0.001). Conclusion: ChatGPT’s responses in otolaryngology were coherent and well-structured, but the accuracy of medical content varied by topic. While the tool may be beneficial for basic patient education, it is not currently reliable enough to support clinical decision-making. Future development of validated, specialty-specific artificial intelligence systems based on trustworthy medical sources will be crucial for safe implementation in healthcare. Orv Hetil. 2025; 166(42): 1666–1674.

Bevezetés: A Chat Generative Pre-Trained Transformer (ChatGPT) egy újonnan kifejlesztett mesterségesintelligencia-alapú nyelvi modell, amely a betegek számára nyújtott könnyű hozzáférhetősége révén egyre gyakrabban jelenik meg egészségügyi információforrásként, azonban válaszainak szakmai pontosságáról és megbízhatóságáról jelenleg korlátozott mennyiségű evidencia áll rendelkezésre. Célkitűzés: A jelen tanulmány célja az volt, hogy megállapítsuk a ChatGPT használhatóságát fül-orr-gégészeti panaszokra adott válaszai alapján. Módszer: 10 fül-orr-gégészeti témakörben, a betegek tünetei alapján összesen 24 kérdést fogalmaztunk meg. A kérdéseket egymás után adtuk meg a ChatGPT 4.0 verziójának, amely minden esetben szöveges választ generált. Nyelvi értékelést követően a válaszokat 6 fül-orr-gégész szakorvos értékelte háromfokozatú skálán: helytelen (1 pont), helyes, de hiányos (2 pont), teljes mértékben elfogadható (3 pont). Eredmények: A nyelvi értékelések alapján a generált válaszok közérthetősége, logikai felépítése és nyelvi szerkezete megfelelőnek bizonyult. A ChatGPT fül-orr-gégészeti kérdésekre adott válaszainak szakmai helyessége 2,00 és 2,83 közötti átlagértékeket mutatott a háromfokozatú skálán. Három kérdés (K4, K9 és K24) esetében azonban szignifikánsan gyengébb lett az eredmény. Négy szakorvos (R1, R2, R4 és R6) pontszámai jól korreláltak egymással, míg R3 és R5 válaszai között statisztikailag szignifikáns eltérés mutatkozott (p<0,001). Következtetés: A ChatGPT által adott válaszok fül-orr-gégészeti témákban nyelvi szempontból alkalmasnak bizonyultak a további orvosszakmai értékelésre, ugyanakkor a szakmai tartalom helyessége változó képet mutatott. Eredményeink alapján a ChatGPT potenciálisan alkalmas lehet laikus felhasználók alapvető tájékoztatására, azonban jelenlegi formájában nem alkalmas a klinikai döntéshozatal támogatására. A jövőben elengedhetetlen a szakterület-specifikus, transzparens és validált mesterségesintelligencia-rendszerek fejlesztése, amelyek megbízható orvosszakmai forrásokon alapulnak, és biztonságosan integrálhatók az egészségügyi ellátórendszerbe. Orv Hetil. 2025; 166(42): 1666–1674.

Keywords: ChatGPT; artificial intelligence in healthcare; egészségügyi kommunikáció; fül-orr-gégészet; health communication; medical accuracy; mesterséges intelligencia az egészségügyben; orvosszakmai helyesség; otolaryngology.

MeSH terms

  • Artificial Intelligence*
  • Generative Artificial Intelligence
  • Humans
  • Otolaryngology*
  • Otorhinolaryngologic Diseases* / diagnosis
  • Reproducibility of Results
  • Surveys and Questionnaires