Studie des Max-Planck-Instituts für Bildungsforschung in Berlin

Mensch-KI-Kollektive stellen die besseren Diagnosen

mg
Medizin
Künstliche Intelligenz (KI) kann Ärztinnen und Ärzte bei der Diagnosefindung wirksam unterstützen. Sie macht andere Fehler als Menschen – und diese Komplementarität stellt eine bislang ungenutzte Stärke dar, zeigt eine Studie.

Diagnosefehler haben mit die schwersten Folgen im medizinischen Alltag. KI-Systeme – insbesondere sogenannte große Sprachmodelle (Large Language Models) wie ChatGPT-4, Gemini oder Claude 3 – eröffnen neue Möglichkeiten, medizinische Diagnosen effizient zu unterstützen, schreiben die Forschenden in ihrer internationalen Studie. „Diese Systeme bergen jedoch auch erhebliche Risiken – beispielsweise können sie ,halluzinieren' und falsche Informationen generieren. Zudem reproduzieren sie bestehende gesellschaftliche oder medizinische Vorurteile (Bias) und machen Fehler, die für den Menschen oft nicht nachvollziehbar sind.“

Das internationale Forschungsteam unter der Leitung des Max-Planck-Instituts für Bildungsforschung in Berlin hat gemeinsam mit Partnern vom Human Diagnosis Project (San Francisco) und dem Institute for Cognitive Sciences and Technologies des italienischen Nationalen Forschungsrats (CNR-ISTC, Rom) untersucht, wie Mensch und KI optimal zusammenarbeiten können.

Das Ergebnis: Hybride Diagnose-Kollektive – Gruppen aus menschlichen Fachkräften und KI-Systemen – sind viel genauer als nur menschliche Kollektive oder reine KI-Kollektive. Dies gilt auch dann, wenn es nicht um einfache Ja-Nein-Entscheidungen geht, sondern um komplexe diagnostische Fragestellungen mit einer Vielzahl möglicher Lösungen. „Unsere Ergebnisse zeigen, dass die Zusammenarbeit zwischen Menschen und KI-Modellen ein großes Potenzial zur Verbesserung der Patientensicherheit hat“, sagt Erstautor Nikolas Zöller.

Mensch und KI machen systematisch unterschiedliche Fehler

Die Forschenden griffen auf Daten des Human Diagnosis Project zurück, das klinische Fallvignetten – das sind kurze Beschreibungen realitätsnaher Patientenbeschwerden – und die zugehörigen korrekten Diagnosen bereitstellt. In der Studie wurden mehr als 2.100 dieser Vignetten genutzt und die Diagnosen von medizinischen Fachkräften mit jenen von fünf führenden KI-Modellen verglichen. Im zentralen Experiment wurden verschiedene Diagnosekollektive simuliert: Einzelpersonen, menschliche Kollektive, KI-Modelle, Kollektive von KI-Modellen und gemischte Mensch-KI-Kollektive. Insgesamt analysierten die Forschenden mehr als 40.000 Diagnosen. Jede wurde nach internationalen medizinischen Standards (SNOMED CT) klassifiziert und bewertet. 

Die Studie zeigt: Wenn mehrere KI-Modelle kombiniert wurden, erhöhte sich die Diagnosequalität. Das KI-Kollektiv lag im Durchschnitt über dem Niveau von 85 Prozent der menschlichen Diagnostikerinnen und Diagnostiker. Es gab jedoch zahlreiche Fälle, in denen Menschen besser abschnitten. Interessanterweise kannten Menschen oft die richtige Diagnose, wenn die KI versagte.

Wenn die KI versagte, konnte ein Mensch den Fehler ausgleichen – und umgekehrt!

Die größte Überraschung: Die Kombination beider Welten führte zu einer deutlichen Steigerung der Genauigkeit. Selbst das Hinzufügen eines einzelnen KI-Modells zu einer Gruppe von Diagnostikerinnen und Diagnostikern – oder umgekehrt – verbesserte das Ergebnis erheblich. Die zuverlässigsten Ergebnisse wurden durch kollektive Entscheidungen erzielt, an denen mehrere Menschen und mehrere KIs beteiligt waren. 

Die Erklärung ist, dass Mensch und KI systematisch unterschiedliche Fehler machen. Wenn die KI in manchen Fällen versagte, konnte eine menschliche Fachkraft den Fehler ausgleichen – und umgekehrt. Diese sogenannte Fehlerkomplementarität macht hybride Kollektive so leistungsstark, sind die Forschenden überzeugt.

„Es geht nicht darum, den Menschen durch Maschinen zu ersetzen. Vielmehr sollten wir Künstliche Intelligenz als ergänzendes Werkzeug begreifen, das in der kollektiven Entscheidungsfindung sein volles Potenzial entfaltet“, sagt Co-Autor Stefan Herzog.

Ob sich die Ergebnisse auf die Praxis übertragen lassen?

Die Forschenden betonen jedoch auch die Grenzen ihrer Arbeit. So wurden ausschließlich textbasierte Fallvignetten untersucht, nicht jedoch echte Patientinnen und Patienten in realen klinischen Situationen. Ob sich die Ergebnisse direkt auf die Praxis übertragen lassen, müssen Folgestudien zeigen. Ebenso konzentrierte sich die Studie ausschließlich auf die Diagnose, nicht auf die Behandlung, und eine korrekte Diagnose garantiert nicht unbedingt eine optimale Behandlung. 

Zudem bleibt die Frage offen, wie KI-basierte Unterstützungssysteme in der Praxis von medizinischem Personal und von Patienten angenommen werden. Die potenziellen Risiken von Voreingenommenheit (Bias) und Diskriminierung durch KI sowie durch menschliche Fachkräfte, insbesondere in Bezug auf ethnische, soziale oder geschlechtsspezifische Unterschiede, bedürfen weiterer Forschung. 

Die Forschenden sehen besonderes Potenzial in Regionen mit eingeschränktem Zugang zu medizinischer Versorgung. Hybride Mensch-KI-Kollektive könnten in solchen Gebieten einen entscheidenden Beitrag zu mehr Gerechtigkeit im Gesundheitswesen leisten. 

„Der Ansatz lässt sich auch auf andere kritische Bereiche übertragen – wie das Rechtssystem, die Katastrophenhilfe oder die Klimapolitik –, also überall dort, wo komplexe, risikoreiche Entscheidungen getroffen werden müssen“, sagt Vito Trianni, Mitautor.

N. Zöller,J. Berger,I. Lin,N. Fu,J. Komarneni,G. Barabucci,K. Laskowski,V. Shia,B. Harack,E.A. Chu,V. Trianni,R.H.J.M. Kurvers,& S.M. Herzog,  Human–AI collectives most accurately diagnose clinical vignettes, Proc. Natl. Acad. Sci. U.S.A. 122 (24) e2426153122, https://doi.org/10.1073/pnas.2426153122 (2025).

Melden Sie sich hier zum zm Online-Newsletter an

Die aktuellen Nachrichten direkt in Ihren Posteingang

zm Online-Newsletter


Sie interessieren sich für einen unserer anderen Newsletter?
Hier geht zu den Anmeldungen zm starter-Newsletter und zm Heft-Newsletter.