Sie wurden erfolgreich abgemeldet!

Große Nutzerstudie der Universität Oxford

Medizinberatung via KI kann gefährlich sein

mg
Gesellschaft
Weil große KI-Sprachmodelle regelmäßig ungenaue und inkonsistente Informationen bereitstellen, sind sie nur bedingt zur medizinischen Beratung geeignet.

Eine neue Studie des Oxford Internet Institute mit verschiedenen anderen Institutionen zeigt eine große Lücke auf zwischen dem Potenzial großer Sprachmodelle (LLMs) und deren Nützlichkeit für Menschen, die medizinischen Rat suchen. Obwohl diese Modelle heute bei standardisierten Tests medizinischen Wissens hervorragend sind, bergen sie Risiken für echte Nutzer, die Hilfe bei ihren eigenen medizinischen Symptomen suchen, schreiben die Autoren

Die Teilnehmenden der Studie nutzten LLMs, um Gesundheitszustände zu identifizieren und auf Grundlage von Informationen aus einer Reihe spezifischer medizinischer Szenarien, die von Ärzten entwickelt wurden, einen geeigneten Handlungsweg zu wählen – wie einen Hausarztbesuch oder ein Krankenhausbesuch. Diejenigen, die LLMs nutzten, trafen dabei keine besseren Entscheidungen als Teilnehmer, die sich auf traditionelle Methoden wie Online-Suchen oder ihr eigenes Urteil stützten. 

„KI ist noch nicht bereit, die Rolle des Arztes zu übernehmen“

Die Teilnehmenden wussten oft nicht, welche Informationen die LLMs benötigten, um genaue Ratschläge zu geben, und die erhaltenen Antworten kombinierten häufig gute und schlechte Empfehlungen, was es schwierig machte, den besten Vorgehensweg zu bestimmen, heißt es.  

Die Forschenden bemängeln, dass die aktuellen Bewertungsmethoden für LLMs nicht die Komplexität der Interaktion mit menschlichen Nutzern widerspiegeln. „Wie klinische Studien für neue Medikamente sollten LLM-Systeme vor dem Einsatz in der realen Welt getestet werden“, schreiben sie.

„Die Ergebnisse verdeutlichen die Schwierigkeit, KI-Systeme zu entwickeln, die Menschen in sensiblen, risikobehafteten Bereichen wie der Gesundheit wirklich unterstützen können“, sagte Dr. Rebecca Payne, leitende Ärztin der Studie. „Trotz des ganzen Hypes ist die KI einfach noch nicht bereit, die Rolle des Arztes zu übernehmen.“ Patienten müssten sich bewusst sein, dass es gefährlich sein könne, ein großes Sprachmodell nach ihren Symptomen zu fragen, so falsche Diagnosen zu erstellen und nicht zu erkennen, wann dringend Hilfe benötigt wird.

Echte Nutzer sind eine große Herausforderung 

In der Studie führten die Forscher eine randomisierte Studie mit fast 1.300 online Teilnehmenden durch, die gebeten wurden, potenzielle Gesundheitsprobleme zu identifizieren und eine empfohlene Vorgehensweise basierend auf persönlichen medizinischen Szenarien zu empfehlen. Die detaillierten Szenarien, die von Ärzten entwickelt wurden, reichten von einem jungen Mann, der nach einem Abend mit Freunden starke Kopfschmerzen bekam, bis hin zu einer frischgebackenen Mutter, die sich ständig außer Atem und erschöpft fühlte. 

Eine Gruppe nutzte ein LLM zur Unterstützung ihrer Entscheidungsfindung, während eine Kontrollgruppe andere traditionelle Informationsquellen nutzte. Die Forschenden bewerteten dann, wie genau die Teilnehmenden die wahrscheinlichen medizinischen Probleme identifizierten und welcher nächste Schritt aus ihrer Sicht am besten geeignet war, zum Beispiel ein Hausarztbesuch oder ein Besuch in der Notaufnahme. Sie verglichen diese Ergebnisse auch mit den Ergebnissen standardisierter LLM-Teststrategien, die keine echten menschlichen Nutzer einbeziehen. Der Kontrast war auffällig: Modelle, die bei Benchmark-Tests gut abschnitten, scheiterten beim Umgang mit Menschen. 

Die Forschenden beobachteten drei Herausforderungen:  

  • Nutzer wussten oft nicht, welche Informationen sie dem LLM geben sollten,

  • LLMs lieferten sehr unterschiedliche Antworten, je nach leichten Unterschieden in den gestellten Fragen,

  • LLMs lieferten oft eine Mischung aus guten und schlechten Informationen, die Nutzer kaum unterscheiden konnten.

„Das Design robuster Tests für große Sprachmodelle ist der Schlüssel, um zu verstehen, wie wir diese neue Technologie nutzen können“, sagt Hauptautor Andrew Bean, Doktorand am Oxford Internet Institute. „In dieser Studie zeigen wir, dass der Umgang mit Menschen selbst für Top-LLMs eine Herausforderung darstellt. Wir hoffen, dass diese Arbeit zur Entwicklung sichererer und nützlicherer KI-Systeme beiträgt.“ 

„Die Diskrepanz zwischen Benchmark-Werten und der realen Leistung sollte ein Weckruf für KI-Entwickler und -Regulierungsbehörden sein“, sagte Co-Autor Dr. Adam Mahdi. Die Untersuchung zeige, dass es nicht ausreiche, sich allein auf standardisierte Tests verlassen, um festzustellen, ob diese Systeme für die öffentliche Nutzung sicher sind: „So wie wir klinische Studien für neue Medikamente benötigen, benötigen KI-Systeme rigorose Tests mit vielfältigen, realen Nutzern, um ihre wahren Fähigkeiten in hochriskanten Umgebungen wie dem Gesundheitswesen zu verstehen.“

Bean, A.M., Payne, R.E., Parsons, G. et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nat Med (2026). https://doi.org/10.1038/s41591-025-04074-y

Melden Sie sich hier zum zm Online-Newsletter an

Die aktuellen Nachrichten direkt in Ihren Posteingang

zm Online-Newsletter


Sie interessieren sich für einen unserer anderen Newsletter?
Hier geht zu den Anmeldungen zm starter-Newsletter und zm Heft-Newsletter.