Sie wurden erfolgreich abgemeldet!

ChatGPT-Empfehlungen bei Gesundheitsfragen

Kann KI auch Patientensteuerung?

nb
Gesellschaft
Angesichts der aktuellen gesundheitspolitischen Diskussionen um digitale Patientensteuerung und Primärversorgungssysteme in Deutschland haben Forschende der Technischen Universität Berlin untersucht, ob sich KI-Sprachmodelle für eine digitale Ersteinschätzung und eine eigenständige Patientensteuerung eignen.

In einer neuen Studie haben Arbeitswissenschaftler der TU Berlin analysiert, wie genau ChatGPT in verschiedenen Modellversionen gesundheitliche Beschwerden einordnet, wie sich die Leistung im Zeitverlauf verändert hat und ob identische Eingaben konsistente Empfehlungen erzeugen.

Das Team um Marvin Kopka untersuchte insgesamt 22 Modellversionen. Grundlage bildeten 45 reale Patientenfälle mit unterschiedlichen Beschwerdebildern – von leichten Beeinträchtigungen wie kurzfristiger muskulärer Überlastung bis hin zu akuten gesundheitlichen Problemen. Jeder Fall wurde pro Modell 10-mal eingegeben, so dass insgesamt 9.900 Einzelbewertungen entstanden. Die Modelle sollten entscheiden, ob es sich um einen Notfall, einen Fall für ärztliche Abklärung oder um Selbstversorgung handelt.

Nur begrenzte Fortschritte trotz neuer Modelle

„Der Hauptunterschied zu unseren früheren Studien ist die längsschnittliche Analyse. Bisher wurden nur ein oder zwei Modelle untersucht. Nun haben wir alle Modelle, die über die Zeit verfügbar waren, getestet und analysiert, wie sie sich tatsächlich verändert haben“, sagt Studienleiter Kopka. „Das war uns auch deshalb wichtig, weil es immer wieder Meldungen gibt, nach denen neue Modelle in ärztlichen Zulassungsprüfungen oder Wissenstests nahezu perfekte Ergebnisse erreichen. Daraus wird dann schnell geschlossen, dass sie auch für Patientinnen und Patienten verlässliche medizinische Empfehlungen geben.“

Die Ergebnisse zeigen: Die Genauigkeit stieg mit den ersten Modellversionen zunächst deutlich an. Seit der dritten Modellgeneration (GPT-4) gab es jedoch nur noch geringfügige Verbesserungen. Das beste getestete Modell erreichte eine Treffergenauigkeit von 74 Prozent.

Die größten Schwächen gab es bei harmlosen Beschwerden

Besonders gut waren die getesteten Modelle darin, behandlungsbedürftige Fälle zu erkennen. Die meisten Fehler traten dagegen bei Fällen auf, in denen Selbstversorgung ausreichend gewesen wäre: 70 Prozent aller Fehler entfielen auf diese Gruppe. Kein einziger der 13 Selbstversorgungsfälle wurde von allen Modellen in allen Durchläufen korrekt gelöst.

Nur einzelne Modelle, etwa o4, o3 oder GPT 5, empfahlen überhaupt jemals Selbstversorgung. Bei allen anderen getesteten Modellen wurde durchgängig zur ärztlichen Abklärung geraten.

Die Modelle tendieren damit laut Forschenden zu einem „konservativen Triagierungsverhalten“, was bedeutet, dass sie Beschwerden häufig als behandlungsbedürftiger einstufen, als medizinisch notwendig wäre. Diese systematische Übervorsicht führe dazu, dass die Modelle zwar selten riskante Untertriagierungen vornehmen, gleichzeitig aber kaum echte Entscheidungshilfe bieten.

Inkonsistente Empfehlungen bei identischen Eingaben

Hinzu kommt laut den Forscherinnen und Forschern ein weiteres Problem: Die Modelle antworten nicht durchgängig konsistent. Selbst bei identischen Eingaben variieren die Empfehlungen teils erheblich. Besonders bei neueren Modellen zeigte sich, dass identische Fälle unterschiedlich bewertet wurden. So waren bei GPT 5 in 42 Prozent aller Fälle die Empfehlungen bei mehrfacher Eingabe desselben Falls mal richtig und mal falsch – – ein Umstand, der die Verlässlichkeit im praktischen Einsatz zusätzlich einschränkt.

„Wenn ein System bei sehr vielen Beschwerden vorsorglich zur medizinischen Abklärung rät, wirkt das zunächst sicher für Nutzerinnen und Nutzer – es bietet aber faktisch keine echte Entscheidungshilfe mehr, wenn die Empfehlung fast immer gleich ausfällt.“

Studienautor Dr. Marvin Kopka

Begrenzter Nutzen für die Patientensteuerung

Aus Sicht der Forschenden liegt die zentrale Schwäche damit weniger in einzelnen Fehlentscheidungen als im fehlenden praktischen Nutzen. „Wenn ein System in der Praxis überwiegend zur ärztlichen Abklärung rät, entsteht kaum ein echter Steuerungseffekt – unnötige ärztliche Inanspruchnahme kann dann sogar zunehmen“, schlussfolgern die Forschenden.

Jeder dritte junge Mensch nutzt KI als Psycho-Coach

Immer mehr jüngere Menschen mit Depression greifen auf Künstliche Intelligenz (KI) als Gesprächspartner zurück. Laut einer aktuellen, repräsentativen Befragung der Stiftung Deutsche Depressionshilfe und Suizidprävention unter 2.500 Personen im Alter von 16 bis 39 Jahren nutzt etwa jeder Dritte KI, um über seine Erkrankung zu sprechen. Rund 10 Prozent führen dabei längere, dialogische Gespräche – ähnlich wie mit einem menschlichen Gegenüber. Die am häufigsten genutzten KI-Modelle waren ChatGPT (77 Prozent), Gemini (14 Prozent) und Microsoft Copilot (4 Prozent).

Die Motive sind vielfältig: Über die Hälfte der Betroffenen (56 Prozent) gibt an, einfach „mit jemandem“ über ihre Probleme sprechen zu wollen. 46 Prozent erhoffen sich zudem, ihre Symptome besser selbst bewältigen zu können. 41 Prozent gaben an, gezielt nach Aufmunterung und Zuspruch zu suchen. Ähnlich viele Befragte (40 Prozent) informieren sich mithilfe von KI über Behandlungs- und Therapiemöglichkeiten.

Entsprechend positiv fallen die Rückmeldungen aus: Die große Mehrheit (85 Prozent) empfindet die KI als verständnisvoll (92 Prozent) und respektvoll (89 Prozent), viele berichten von einem gestärkten Gefühl nach den Gesprächen (75 Prozent).

Gleichzeitig zeigen die Ergebnisse auch, dass mehr als die Hälfte der Befragten (57 Prozent) es als belastend empfand, mit einem nicht-menschlichen Gegenüber zu kommunizieren. Besonders alarmierend sei laut der Stiftung, dass 53 Prozent der Befragten nach der Nutzung vermehrt Gedanken an Selbstverletzung oder Suizid angab.

Besonders kritisch sehen die Experten, dass 62 Prozent der Befragten KI als Alternative zu einer Behandlung wahrnehmen und warnen eindringlich vor einer solchen Fehleinschätzung. „KI ersetzt weder eine professionelle Diagnostik – etwa mit Laboruntersuchungen zum Ausschluss einer Schilddrüsenüberfunktion – noch stellt sie eine leitliniengerechte Behandlung dar. Die antidepressive Wirksamkeit und mögliche unerwünschte Folgen sind kaum erforscht“, sagt Prof. Ulrich Hegerl, Vorstandsvorsitzender der Stiftung Deutsche Depressionshilfe. „Depression ist eine schwere, oft lebensbedrohliche Erkrankung. Betroffene sollten sich unbedingt weiterhin an Hausärzte, Psychiater oder Psychologische Psychotherapeuten wenden.“

Sie weisen zugleich daraufhin, dass der Fokus dieser Studie auf Bevölkerungsrepräsentativität lag. Da echte Notfälle im Alltag selten sind und dementsprechend auch seltener bei der Nutzung von ChatGPT auftreten, enthielt auch der Datensatz nur wenige Notfälle und untersuchte hauptsächlich Entscheidungen für oder gegen das Aufsuchen von ärztlicher Hilfe. Die Genauigkeit bei der Erkennung von echten Notfällen sollte in weiteren Studien untersucht werden.

Kopka, M., He, L. & Feufel, M.A., Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice. Commun Medicine (2026). https://www.nature.com/articles/s43856-026-01466-0

Melden Sie sich hier zum zm Online-Newsletter an

Die aktuellen Nachrichten direkt in Ihren Posteingang

zm Online-Newsletter


Sie interessieren sich für einen unserer anderen Newsletter?
Hier geht zu den Anmeldungen zm starter-Newsletter und zm Heft-Newsletter.