ChatGPT taugt (noch) nicht zur Selbstdiagnose
Die Wissenschaftler aus Japan und den USA resümieren, dass die Genauigkeit der ChatGPT-Diagnosen und der Grad der Empfehlung eines Arztbesuchs noch weiter verbessert werden müssen.
In der Studie untersuchte das von der Tokyo Medical and Dental University (TMDU) geleitete Team die Genauigkeit (Prozentsatz der richtigen Antworten) und Präzision der ChatGPT-Antworten am Beispiel von fünf häufigen orthopädischen Erkrankungen: Karpaltunnelsyndrom, zervikale Myelopathie, lumbale Spinalkanalstenose, Knie- und Hüftarthrose. Diese wurden ausgewählt, weil orthopädische Beschwerden in der klinischen Praxis sehr häufig vorkommen und bis zu 26 Prozent der Gründe ausmachen, warum Patienten einen Arzt aufsuchen.
Über einen mehrtägigen Zeitraum stellten Forschende immer wieder die gleichen Fragen an ChatGPT. Die Reproduzierbarkeit zwischen den einzelnen Tagen und Personen wurde ebenfalls berechnet, und die Stärke der Empfehlung, dass der Patient einen Arzt aufsuchen sollte, wurde bewertet.
Von fast perfekt bis schlecht ist alles dabei
„Wir haben festgestellt, dass die Genauigkeit und Reproduzierbarkeit der ChatGPT-Diagnose bei den fünf Erkrankungen nicht einheitlich sind. Die ChatGPT-Diagnose stimmte zu 100 Prozent für das Karpaltunnelsyndrom, aber nur zu 4 Prozent für die zervikale Myelopathie“, sagt der Hauptautor Tomoyuki Kuroiwa. Darüber hinaus schwankte die Reproduzierbarkeit zwischen den Tagen und den Forschenden bei den fünf Erkrankungen zwischen „schlecht“ und „fast perfekt“, obwohl die Wissenschaftlerinnen jedes Mal die gleichen Fragen eingaben.
ChatGPT war auch uneinheitlich bei der Empfehlung eines Arztbesuchs. Obwohl fast 80 Prozent der ChatGPT-Antworten eine ärztliche Konsultation empfahlen, enthielten nur 12,8 Prozent eine starke Empfehlung, wie sie in den Studienstandards festgelegt war. „Ohne direkte Ansprache besteht ds Risiko, dass der Patient nach der Selbstdiagnose verwirrt zurückbleibt oder, schlimmer noch, durch eine Fehldiagnose Schaden nimmt“, sagt Kuroiwa.
„In seiner derzeitigen Form ist ChatGPT sowohl in Bezug auf die Genauigkeit als auch auf die Präzision, mit der es Patienten bei der Diagnose ihrer Krankheit hilft, inkonsistent“, bilanziert Haupptautor Koji Fujita. „Angesichts des Risikos von Fehlern und potenziellen Schäden durch Fehldiagnosen ist es wichtig, dass jedes Diagnosetool eine klare Sprache enthält, die die Patienten darauf hinweist, zur Bestätigung einer Krankheit eine medizinische Expertenmeinung einzuholen.“
Die Forscher weisen auch auf einige Einschränkungen der Studie hin, darunter die Verwendung von Fragen, die vom Forschungsteam simuliert wurden und nicht von Patienten stammten, die Konzentration auf nur fünf orthopädische Krankheiten und die Verwendung von nur ChatGPT. Es sei zwar noch zu früh, um KI-Intelligenz für die Selbstdiagnose einzusetzen, aber das Training von ChatGPT auf Krankheiten von Interesse könnte dies ändern. Zukünftige Studien können dazu beitragen, die Rolle der KI als Diagnoseinstrument zu erhellen.
Kuroiwa T, Sarcon A, Ibara T, Yamada E, Yamamoto A, Tsukamoto K, Fujita K. The Potential of ChatGPT as a Self-Diagnostic Tool in Common Orthopedic Diseases: Exploratory Study. J Med Internet Res. 2023 Sep 15;25:e47621. doi: 10.2196/47621. PMID: 37713254; PMCID: PMC10541638.