Sie wurden erfolgreich abgemeldet!

KI-Anwendung zeigt erhebliche Mängel

ChatGPT Health übersieht die Hälfte an Hochrisikonotfällen

LL
Medizin
Forschende aus New York warnen, dass das KI-Tool zum Teil Hochrisikonotfälle unterschätzt, weil es Gesundheitsfragen unzureichend bewerte. Auch würden Schutzmechanismen bei Suizidgefahren nicht einheitlich aktiviert.

Mit „ChatGPT Health“ stellt das US-Unternehmens OpenAI seit Anfang des Jahres ein Gesundheits-Tool zur Verfügung, das Millionen von Menschen nutzen. Über fünf Prozent der weltweiten ChatGPT-Nachrichten würden sich laut OpenAI auf gesunheitliche Aspekte beziehen. Im Durchschnitt gäbe es mehreren Milliarden Nachrichten pro Woche. Von über 800 Millionen regelmäßigen Nutzern stelle rund jeder vierte eine Gesundheitsanfrage pro Woche. Mehr als 40 Millionen wenden sich täglich mit Gesundheitsfragen an das ChatGPT Health.

Dieses wurde auch dafür entwickelt, Empfehlungen zu geben, wie notwendig und schnell eine Nachuntersuchung bei einem Mediziner erfolgen sollte. Es kann als erste Anlaufstelle für die Symptomberatung von Patienten dienen. Jedoch können dabei Fehler hinsichtlich der Triage auftreten – vor allem, da kein medizinisches Fachpersonal dazwischengeschaltet ist.

Tatsächlich weist die KI-Anwendung ChatGPT Health erhebliche Lücken auf, da sie die Dringlichkeit bei Notfällen falsch einschätzt. Zu den Erkenntnissen kam das Forschungsteam um Ashwin Ramaswamy von der Icahn School of Medicine at Mount Sinai and Mount Sinai Health System, New York, kürzlich in seiner Studie. Demnach übersehe das KI-Tool Hochrisikonotfälle bei Gesundheitsfragen teilweise. In der in Nature Medicine publizierten Arbeit äußern sie daher Sicherheitsbedenken hinsichtlich eines Einsatzes der KI.

Keine Notaufnahme bei diabetischer Ketoazidose empfohlen

Die Forschenden führten einen strukturierten Stresstest der Triage-Empfehlungen von ChatGPT Health durch. Dafür verwendeten sie 60 von Klinikärzten kurzgefasste Fallbeschreibungen aus 21 klinischen Bereichen unter 16 faktoriellen Bedingungen. Die Basis umfasste somit insgesamt 960 Antworten.

Unter den Goldstandard der Notfall-Detektion sortierte das KI-System 52 Prozent als zu wenig dringlich ein. Die KI empfahl Patienten mit diabetischer Ketoazidose und drohendem Atemversagen etwa eine Abklärung innerhalb von ein bis zwei Tagen, anstatt den direkten Gang in eine Notaufnahme. Typische Notfälle wie Schlaganfall und Anaphylaxie wurden korrekt triagiert richtig.

Beinahe 65 Prozent der nicht dringlichen medizinischen Fälle wurden als zu hoch triagiert. Allerdings wurde keiner davon an die Notaufnahme verwiesen. Enthielt die Anfrage an die KI die Information, dass Familienangehörige oder Freunde die Symptome als nicht sonderlich schwerwiegend einschätzen, verschoben sich die Empfehlungen der Triage in medizinischen Grenzfällen noch einmal deutlich (OR 11,7):  Die Mehrheit davon mit der Tendenz einer weniger dringlichen Versorgung. Die ethnische Zugehörigkeit, das Geschlecht der Patientinnen und Patienten sowie Zugangsbarrieren zur Versorgung zeigten keine signifikanten Effekte.

Externe Sicherheitsvalidierung vor Markteinführung erforderlich

Die nicht korrekt detektierten Notfälle wirken sich unmittelbar auf die Patientensicherheit aus, warnen die Forschenden. Sie fordern daher unabhängige Sicherheitsprüfungen vor der Markteinführung von KI-Anwendungen für Verbraucher im Gesundheitsbereich. Etwa wie solche für die Anforderungen für medizinische Geräte. Die Anwendungen sollten in jedem Fall vor der Einführung für die Maße eine externe Sicherheitsvalidierung für Notfallsituationen nachweisen können.

Erstautor Ramaswamy erklärte dazu im Journal BMJ: „Wir haben diese Studie nicht durchgeführt, um zu sagen, dass diese Tools nicht existieren sollten. Unser Team nutzt es selbst ständig. Aber sie brauchen eine unabhängige Bewertung, bevor sie in großem Maßstab für die Bevölkerung eingesetzt werden – so wie wir es bei jeder Intervention erwarten würden, die verändert, wie Millionen von Menschen mit dem Gesundheitssystem interagieren.“ Diese Bewertung gäbe es aktuell noch nicht.

Ramaswamy, A., Tyagi, A., Hugo, H. et al. ChatGPT Health performance in a structured test of triage recommendations. Nat Med (2026). https://doi.org/10.1038/s41591-026-04297-7

Melden Sie sich hier zum zm Online-Newsletter an

Die aktuellen Nachrichten direkt in Ihren Posteingang

zm Online-Newsletter


Sie interessieren sich für einen unserer anderen Newsletter?
Hier geht zu den Anmeldungen zm starter-Newsletter und zm Heft-Newsletter.