Wissenstest: KI schlägt Fachmediziner

(v.l.n.r): Ivica Grgic, Martin Hirsch und Philipp Russ — Ivica Grgic, Martin Hirsch und Philipp Russ untersuchen Chancen und Risiken von KI in der Medizin. Thomas Stoll_Peter Michael Mros

23.04.2026

Medizin

Sind KI-Systeme bereits in der Lage, medizinisches Fachwissen besser abzurufen als Ärztinnen und Ärzte? Das wollten Forschende der Universität Marburg und des Universitätsklinikums Gießen und Marburg wissen.

Das Team um Dr. Philipp Russie hat untersucht, wie gut 13 der bekanntesten öffentlich verfügbaren KI-Sprachmodelle klinisches Wissen zur akuten Nierenschädigung in einer standardisierten Testsituation abrufen und anwenden können.

Konkret wurden folgende LLMs bewertet: ChatGPT 4o, ChatGPT 40-mini, ChatGPT 4.5, ChatGPT 4, ChatGPT o3-mini-high und ChatGPT o3-mini, Claude 3.7 Sonett, Gemini 2.0 Flash, Gemini 2.5 Pro Experimental, Mistral Small 3.1, DeepSeek V3-0324, DeepSeek R1, und Grok-3. Alle Modelle waren zum Zeitpunkt der Datenerhebung öffentlich verfügbar.

Artificial intelligence concept image showing a transparent robotic human head with visible brain and electronic circuits, suggesting the integration between human mind and technology

KI in der Zahnmedizin – Teil 5

Künstliche Intelligenz in der Ausbildung

01.03.2026

Dafür verglichen die Wissenschaftler diese Modelle mit 123 freiwilligen Teilnehmenden, darunter Medizinstudierende sowie Ärztinnen und Ärzte aus dem Bereich der Inneren Medizin. Die ärztlichen Probanden waren Teilnehmende des 131. Jahreskongress der Deutschen Gesellschaft für Innere Medizin (DGIM), der im Mai 2025 in Wiesbaden stattfand.

90 zu 49 Prozent

Beide Gruppen bearbeiteten denselben deutschsprachigen Wissenstest zu Nierenschädigungen mit zwei realistischen Patientenfällen und 15 Multiple-Choice-Fragen. Das Ergebnis fiel eindeutig aus: Die getesteten Sprachmodelle beantworteten im Mittel 90 Prozent der Fragen korrekt, die Fachkongressteilnehmenden im Vergleich dazu nur 49 Prozent. Mehrere Modelle beantworteten sämtliche Fragen korrekt und benötigten dafür nur einen Bruchteil der Zeit, die die Teilnehmenden brauchten.

Als anschauliches Beispiel absolvierte ChatGPT-4o den Test in etwa 0,5 Minuten, während Menschen im Schnitt 7,3 Minuten benötigten.

Aber: Menschliches Urteilsvermögen bleibt entscheidend

„Die Studie zeigt damit, dass große Sprachmodelle leitlinienkonformes medizinisches Fachwissen in standardisierten Fragesituationen inzwischen sehr zuverlässig wiedergeben können“, schreiben die Autoren. Zugleich weisen sie darauf hin, dass ein gutes Abschneiden im Wissenstest nicht bedeute, dass diese Systeme eigenständig klinische Entscheidungen treffen können oder gar sollten.

„Menschliches Urteilsvermögen und klinische Erfahrung bleiben entscheidend. Die Letztverantwortung für die Versorgung von Patientinnen und Patienten liegt weiterhin klar bei den behandelnden Ärztinnen und Ärzten“, unterstreicht der Marburger Nephrologe und KI-Experte Prof. Dr. Ivica Grgic.

Eine Chance für den klinischen Alltag

„Große Sprachmodelle können medizinisches Faktenwissen sehr schnell bereitstellen. Das ist eine Chance für den klinischen Alltag", sagte Studienleiter Russ.

Chancen, Risiken und Verantwortlichkeiten

Welche Folgen hat KI für die zahnmedizinische Forschung?

04.11.2025

"Gleichzeitig haben sie klare Grenzen: Sie können unter anderem fehlerhafte Inhalte erzeugen, den Menschen nicht in seiner ganzen Komplexität erfassen und keine Empathie empfinden. Ein Sprachmodell sieht nicht, hört nicht und spürt nicht, worum es einem Menschen wirklich geht. Genau deshalb kann es ärztliches Handeln und klinisches Urteil nicht ersetzen. Richtig eingesetzt könnte es uns aber mehr Zeit für das geben, was Patientinnen und Patienten besonders brauchen: Aufmerksamkeit, Zuwendung und menschliche Nähe.“

Was sind die Perspektiven?

Aus Sicht der Studienautoren erscheint KI im klinischen Kontext aus heutiger Perspektive in erster Linie als unterstützendes Werkzeug. Gleichzeitig entziehe sich ihre weitere Entwicklung angesichts der hohen Innovationsdynamik einer verlässlichen Prognose. Für viele Einsatzbereiche ist die empirische Grundlage bislang noch begrenzt.

Offen bleibe, ob und in welchem Umfang zukünftige Systeme autonomere Funktionen übernehmen werden und inwieweit eine solche Entwicklung gesellschaftlich gewünscht und akzeptiert ist. Die Integration in die klinische Praxis ist daher als schrittweiser Prozess zu verstehen, der einer kontinuierlichen fachlichen, regulatorischen und ethischen Reflexion bedarf.

Russ, P., Bedenbender, S., Einloft, J. et al. Potential of large language models for rapid clinical information support: evidence from acute kidney injury knowledge testing. Sci Rep 16, 11224 (2026). https://doi.org/10.1038/s41598-026-46846-7

Wissenstest: KI schlägt Fachmediziner

Künstliche Intelligenz in der Ausbildung

90 zu 49 Prozent

Aber: Menschliches Urteilsvermögen bleibt entscheidend

Eine Chance für den klinischen Alltag

Welche Folgen hat KI für die zahnmedizinische Forschung?

Was sind die Perspektiven?

Warum arbeiten Sie angestellt – oder freiberuflich?

Spenden Sie jetzt!

Meistgelesene Beiträge

Wissenstest: KI schlägt Fachmediziner

Künstliche Intelligenz in der Ausbildung

90 zu 49 Prozent

Aber: Menschliches Urteilsvermögen bleibt entscheidend

Eine Chance für den klinischen Alltag

Welche Folgen hat KI für die zahnmedizinische Forschung?

Was sind die Perspektiven?

Warum arbeiten Sie angestellt – oder freiberuflich?

Spenden Sie jetzt!

Meistgelesene Beiträge

Geplante GKV-Regelungen bedrohen zahnärztliche Versorgung

Unnötiger und verfassungswidriger Eingriff in die zahnmedizinische Versorgung

Syrerinnen und Syrer würden auch in den Zahnarztpraxen fehlen

Mehr als 5,5 Millionen eZahnbonushefte sind in der ePA gespeichert

Was passiert, wenn es Chips zum Kinderfilm gibt?

Die aktuellen Nachrichten direkt in Ihren Posteingang