Wissenstest: KI schlägt Fachmediziner
Das Team um Dr. Philipp Russie hat untersucht, wie gut 13 der bekanntesten öffentlich verfügbaren KI-Sprachmodelle klinisches Wissen zur akuten Nierenschädigung in einer standardisierten Testsituation abrufen und anwenden können.
Konkret wurden folgende LLMs bewertet: ChatGPT 4o, ChatGPT 40-mini, ChatGPT 4.5, ChatGPT 4, ChatGPT o3-mini-high und ChatGPT o3-mini, Claude 3.7 Sonett, Gemini 2.0 Flash, Gemini 2.5 Pro Experimental, Mistral Small 3.1, DeepSeek V3-0324, DeepSeek R1, und Grok-3. Alle Modelle waren zum Zeitpunkt der Datenerhebung öffentlich verfügbar.
Dafür verglichen die Wissenschaftler diese Modelle mit 123 freiwilligen Teilnehmenden, darunter Medizinstudierende sowie Ärztinnen und Ärzte aus dem Bereich der Inneren Medizin. Die ärztlichen Probanden waren Teilnehmende des 131. Jahreskongress der Deutschen Gesellschaft für Innere Medizin (DGIM), der im Mai 2025 in Wiesbaden stattfand.
90 zu 49 Prozent
Beide Gruppen bearbeiteten denselben deutschsprachigen Wissenstest zu Nierenschädigungen mit zwei realistischen Patientenfällen und 15 Multiple-Choice-Fragen. Das Ergebnis fiel eindeutig aus: Die getesteten Sprachmodelle beantworteten im Mittel 90 Prozent der Fragen korrekt, die Fachkongressteilnehmenden im Vergleich dazu nur 49 Prozent. Mehrere Modelle beantworteten sämtliche Fragen korrekt und benötigten dafür nur einen Bruchteil der Zeit, die die Teilnehmenden brauchten.
Als anschauliches Beispiel absolvierte ChatGPT-4o den Test in etwa 0,5 Minuten, während Menschen im Schnitt 7,3 Minuten benötigten.
Aber: Menschliches Urteilsvermögen bleibt entscheidend
„Die Studie zeigt damit, dass große Sprachmodelle leitlinienkonformes medizinisches Fachwissen in standardisierten Fragesituationen inzwischen sehr zuverlässig wiedergeben können“, schreiben die Autoren. Zugleich weisen sie darauf hin, dass ein gutes Abschneiden im Wissenstest nicht bedeute, dass diese Systeme eigenständig klinische Entscheidungen treffen können oder gar sollten.
„Menschliches Urteilsvermögen und klinische Erfahrung bleiben entscheidend. Die Letztverantwortung für die Versorgung von Patientinnen und Patienten liegt weiterhin klar bei den behandelnden Ärztinnen und Ärzten“, unterstreicht der Marburger Nephrologe und KI-Experte Prof. Dr. Ivica Grgic.
Eine Chance für den klinischen Alltag
„Große Sprachmodelle können medizinisches Faktenwissen sehr schnell bereitstellen. Das ist eine Chance für den klinischen Alltag", sagte Studienleiter Russ.
"Gleichzeitig haben sie klare Grenzen: Sie können unter anderem fehlerhafte Inhalte erzeugen, den Menschen nicht in seiner ganzen Komplexität erfassen und keine Empathie empfinden. Ein Sprachmodell sieht nicht, hört nicht und spürt nicht, worum es einem Menschen wirklich geht. Genau deshalb kann es ärztliches Handeln und klinisches Urteil nicht ersetzen. Richtig eingesetzt könnte es uns aber mehr Zeit für das geben, was Patientinnen und Patienten besonders brauchen: Aufmerksamkeit, Zuwendung und menschliche Nähe.“
Was sind die Perspektiven?
Aus Sicht der Studienautoren erscheint KI im klinischen Kontext aus heutiger Perspektive in erster Linie als unterstützendes Werkzeug. Gleichzeitig entziehe sich ihre weitere Entwicklung angesichts der hohen Innovationsdynamik einer verlässlichen Prognose. Für viele Einsatzbereiche ist die empirische Grundlage bislang noch begrenzt.
Offen bleibe, ob und in welchem Umfang zukünftige Systeme autonomere Funktionen übernehmen werden und inwieweit eine solche Entwicklung gesellschaftlich gewünscht und akzeptiert ist. Die Integration in die klinische Praxis ist daher als schrittweiser Prozess zu verstehen, der einer kontinuierlichen fachlichen, regulatorischen und ethischen Reflexion bedarf.
Russ, P., Bedenbender, S., Einloft, J. et al. Potential of large language models for rapid clinical information support: evidence from acute kidney injury knowledge testing. Sci Rep 16, 11224 (2026). https://doi.org/10.1038/s41598-026-46846-7


169
169

