Sie wurden erfolgreich abgemeldet!

Aus der Wissenschaft

Wie präzise beantworten Chatbots Examensfragen?

Elmar Hellwig
Zahnmedizin
Je weiter KI in den zahnmedizinischen Arbeitsalltag vordringt, desto dringlicher stellt sich die Frage nach den Konsequenzen für die heutigen Strukturen und Arbeitsweisen. Auch in der Lehre haben Chatbots inzwischen einen Stand erreicht, dass sie Prüfungsfragen auf einem bemerkenswert hohen Niveau beantworten. Das zeigt stellvertretend für andere Studien diese Untersuchung aus der Türkei.

Die KI entwickelt computerbasierte Systeme, die genau wie Menschen lernen, argumentieren, Entscheidungen treffen und Probleme lösen können. In den vergangenen zwei Jahrzehnten haben dabei große Fortschritte in der Computerleistung, bei der Big-Data-Analyse und der Deep-Learning-Modelle die Integration von KI in die Diagnostik und klinische Bewertung beschleunigt. In der Folge sind intelligente Werkzeuge entstanden, die zunehmend die Art und Weise verändern, wie medizinisches Fachpersonal klinische Kompetenz erlernt, praktiziert und bewertet.

Zu den am weitesten verbreiteten Anwendungen gehören KI-gestützte Konversationssysteme (Chatbots). Diese Systeme werden überwiegend von großen Sprachmodellen (LLM – Large Language Models) angetrieben, die auf umfangreichen Datensätzen trainiert werden, um komplexe Sprachverständnis- und Erzeugungsaufgaben auszuführen.

Die Chatbots sind in der Lage, die menschliche Sprache zu verstehen und zu erzeugen, so dass sie strukturierte Fragen (etwa Multiple-Choice-Fragen) mit bemerkenswerter Geschwindigkeit und Kohärenz beantworten können. Sie gewinnen in der medizinischen und zahnmedizinischen Ausbildung an Bedeutung, indem sie die Studierenden bei der Stärkung des theoretischen Wissens, der Durchführung von Selbstbewertungen und dem Zugriff auf evidenzbasierte Inhalte in Echtzeit unterstützen. Einige dieser Systeme bieten auch multimodale Eingabefunktionen (Annahme von Text, Sprache und Bildern) oder sind in weit verbreitete Schnittstellen integriert, wodurch sie gut zugänglich und benutzerfreundlich sind.

Dabei stellt sich allerdings die Frage, wie präzise diese Systeme Antworten auf Examensfragen liefern. Ziel der vorliegenden Studie war es, acht verschiedene KI-Chatbots (ChatGPT-3.5, ChatGPT-4o Free, ChatGPT-4o Plus, Claude Sonnet 4, Microsoft Copilot, DeepSeek, Gemini 1.5 und Gemini Advanced) hinsichtlich ihrer Genauigkeit, Antwortlänge und Antwortzeit zu vergleichen, um deren Stärken und Schwächen zu identifizieren.

Material und Methode

Als Basis der sehr detailliert angelegten Untersuchung dienten 188 Multiple-Choice-Fragen, die von 2012 bis 2025 in der „Zahnmedizinischen Spezialistenprüfung für Restaurative Zahnmedizin“ in der Türkei gestellt wurden. Die Fragen wurden nach Jahr, Themenbereich, Fragetyp (fallbasiert/wissensbasiert) und Format (textbasiert/bildbasiert) kategorisiert, um die Leistung der Chatbots in unterschiedlichen Kontexten zu bewerten.

Dabei wurden Fragen aus den theoretischen Kerndisziplinen Anatomie, Physiologie, Histologie und Embryologie, medizinische Biochemie, medizinische Mikrobiologie, medizinische Pathologie, medizinische Pharmakologie sowie medizinische Biologie und Genetik gestellt. Der klinische Bereich umfasste Kariesmanagement, Kavitätenpräparationsrichtlinien, Adhäsionsprotokolle, die Auswahl und Handhabung von restaurativen Materialien, Polymerisationstechniken, Farbabstimmung, Frontzahn- und Seitenzahnrestaurationen und die Behandlung postoperativer Komplikationen. Hier ist nicht nur sachliches Wissen gefordert, sondern auch fortgeschrittenes klinisches Denken und integrative Denkfähigkeiten, was ihn zu einem Schlüsselbereich für die Beurteilung der klinischen Kompetenz macht.

Der Formattyp wurde entweder textbasiert oder bildbasiert klassifiziert, letzterer mit Diagrammen und klinischen Fotografien. Dieses erweiterte Klassifizierungssystem ermöglichte detaillierte Untergruppenanalysen und erleichterte Leistungsvergleiche über verschiedene Bildungskonstrukte und Inputmodalitäten hinweg.

Alle Chatbot-Antworten wurden unabhängig voneinander von zwei akademischen Gutachtern mit mindestens fünf Jahren Berufserfahrung bewertet. Jede Antwort wurde gemäß einem offiziellen Antwortschlüssel als korrekt oder falsch eingestuft. Bezüglich der Identität des Chatbots waren die Prüfer verblindet. Alle Diskrepanzen wurden durch Konsens gelöst oder, wenn nötig, von einem dritten Experten entschieden.

Ausgewertet wurden drei wichtige Leistungsindikatoren: Genauigkeit, Reaktionslänge und Reaktionszeit. Genauigkeit wurde als Prozentsatz der richtigen Antworten zur Gesamtzahl der Fragen definiert. Die Antwortlänge wurde gemessen, indem jede Chatbot-Ausgabe einzeln in ein separates Textdokument kopiert und die Anzahl der Wörter mit der nativen Wortanzahlfunktion des Dokuments aufgezeichnet wurde. Die Reaktionszeit wurde unter Verwendung einer digitalen Stoppuhr bestimmt, durch Messung der Dauer von dem Moment an, wann die Eingabeaufforderung eingereicht wurde, bis zum Abschluss der Antwort.

Ergebnisse

Die Analyse ergab, dass sich die acht Chatbots hinsichtlich der Antwortgenauigkeit nicht signifikant unterschieden (p = 0,18). Im Unterschied dazu wurden wesentliche Unterschiede hinsichtlich Wortzahlen und Antwortzeiten (p = 0.000) identifiziert.

Gemini Advanced erreichte mit 96,28 Prozent die höchste Genauigkeit, gefolgt von ChatGPT-4o Plus mit 93,62 Prozent, während DeepSeek mit 86,70 Prozent die niedrigste Leistung zeigte. In Bezug auf die Antwortlänge produzierte Gemini 1.5 die umfangreichsten Ergebnisse, während ChatGPT-4o Plus die prägnantesten Antworten generierte. In Bezug auf die Ansprechgeschwindigkeit war Gemini 1.5 die schnellste, während DeepSeek die langsamste Leistung zeigte.

Die Genauigkeitsraten waren in textbasierten Fragen im Vergleich zu bildbasierten Fragen deutlich höher. Zum Beispiel erreichte Gemini Advanced in textbasierten Elementen eine Genauigkeit von 96,19 Prozent und ChatGPT-4o Plus 94,02 Prozent, während in bildbasierten Elementen nur Gemini Advanced und ChatGPT-3.5 eine vergleichbare Genauigkeit von 100 Prozent erreichten und die anderen Modelle weiter abgeschlagen in einer Größenordnung zwischen 50 und 75 Prozent richtig lagen.

Das antworteten Chatbots auf typische Prüfungsfragen

Unser Autor und wissenschaftlicher Beirat Prof. Dr. Elmar Hellwig hat zwei typische Fragen aus deutschen zahnmedizinischen Prüfungen an die KI-Chatbots ChatGPT und Microsoft Copilot gestellt. Die Qualität der Antworten bestätigt die Studienergebnisse des türkischen Teams: Sie liegen im oberen Bereich der Erwartungen und würden unter Berücksichtigung des Kontextes mit „gut“ oder „sehr gut“ bewertet werden.


Prüfungsfrage 1

Frage: Wann ist eine Pulpotomie bei nicht abgeschlossenem Wurzelwachstum indiziert?


Antwort ChatGPT:
Eine Pulpotomie bei nicht abgeschlossenem Wurzelwachstum (Apexogenese) ist indiziert, wenn bei einem bleibenden Zahn mit offenem Apex die radikuläre Pulpa vital und erhaltungsfähig ist.


Hauptindikation

  • tiefe Karies oder Trauma

  • eröffnete Pulpa

  • vitaler Zahn

  • kein Hinweis auf irreversible Pulpitis oder Nekrose

  • unvollständiges Wurzelwachstum (offener Apex)

Ziel der Pulpotomie (Apexogenese)

  • Erhalt der Vitalität der radikulären Pulpa

  • Fortsetzung des Wurzelwachstums

  • Ausbildung einer physiologischen Apexkontraktion

  • Verdickung der Wurzelwände


typische klinische Situationen

  • traumatische Pulpaeröffnung (etwa Frontzahntrauma)

  • tiefe Karies bei Jugendlichen

  • reversible oder frühe irreversible Pulpitis mit noch vitaler Wurzelpulpa


keine Indikation bei

  • nekrotischer Pulpa

  • ausgedehnter periapikaler Läsion

  • nicht stillbarer Blutung aus der Kanaleingangsebene

  • stark symptomatischer irreversibler Pulpitis mit Beteiligung der Wurzelpulpa


Vorgehen

  • Entfernung der koronalen Pulpa

  • Blutstillung

  • Überkappung etwa mit MTA oder Calciumhydroxid

  • dichte koronale Versorgung

Prüfungsfrage 2

Frage: Welche Präparationsrichtlinien gibt es für eine Teilkrone?


Antwort Microsoft Copilot:
Hier ist eine klare, gut strukturierte Übersicht der Präparationsrichtlinien für Teilkronen, basierend auf aktuellen fachlichen Empfehlungen und den gefundenen Quellen. Ich fasse die wichtigsten Punkte praxisnah zusammen und zeige dir, worauf es wirklich ankommt.


1. Grundprinzipien

Eine Teilkrone ist eine substanzschonende Alternative zur Vollkrone und eignet sich besonders bei ausgedehnten Defekten, wenn noch ausreichend Zahnhartsubstanz vorhanden ist. Moderne Konzepte setzen stark auf adhäsiv befestigte Keramikteilkronen, die hohe Ästhetik und Stabilität bieten.

2. Indikation

  • größere Defekte, die ein Inlay übersteigen

  • Erhalt möglichst viel gesunder Zahnhartsubstanz

  • ausreichende Schmelzanteile für adhäsive Befestigung

  • keine stark eingeschränkte Restzahnsubstanz (-> sonst Vollkrone)


3. Präparationsdesign

3.1 Allgemeine Anforderungen

  • Hohlkehlen- oder Stufenpräparation mit klar definierten Grenzen

  • Abrundung aller Innenkanten zur Spannungsreduktion in der Keramik

  • keine scharfen Kanten oder Retentionen, da Keramik druckstabil, aber zugempfindlich ist

  • Konvergenzwinkel: ca. 6–10° für ausreichende Einschubrichtung

  • mindestens 1 mm Materialstärke in okklusalen Bereichen (je nach Keramiktyp)


3.2 Okklusale Präparation

  • Reduktion um 1,5–2 mm für Keramikteilkronen

  • gleichmäßige Reduktion entlang der Höcker

  • funktionelle Höcker stärker reduzieren als nicht-funktionelle


3.3 Approximalbereiche

  • Boxen mit leicht divergierenden Wänden

  • keine scharfen Übergänge

  • möglichst schmelzbasierte Präparationsgrenzen für optimale Adhäsion


3.4 Kavitätenränder

  • supragingival, wenn möglich

  • glatte, gut polierbare Ränder

  • keine untersichgehenden Bereiche


4. Werkstoffabhängige Besonderheiten

Keramische Teilkronen erfordern ein besonders sorgfältiges Präparationsdesign, da Keramik spröde ist und Spannungsspitzen vermeiden muss.

  • Presskeramiken (zum Beispiel Lithiumdisilikat): höhere Festigkeit, aber dennoch abgerundete Formen notwendig

  • CAD/CAM-Keramiken: ähnliche Anforderungen, jedoch abhängig vom Material


5. Adhäsive Befestigung

  • Keramikteilkronen werden adhäsiv befestigt, was die Stabilität deutlich erhöht.

  • Voraussetzung:

    • trockene, gut zugängliche Präparationsgrenzen

    • ausreichend Schmelz für Schmelzätzung

    • Moderne Keramiken benötigen Silanisierung und Dualhärtende Komposite.


6. Häufige Fehler

  • unzureichende Materialstärke

  • scharfe Innenkanten

  • untersichgehende Bereiche

  • zu geringe okklusale Reduktion

  • subgingivale Ränder ohne Notwendigkeit


7. Fazit

Eine erfolgreiche Teilkronenpräparation folgt dem Prinzip: substanzschonend, glatt, abgerundet, klar definiert. Moderne Keramiken ermöglichen langlebige und ästhetische Ergebnisse – vorausgesetzt, die Präparation ist präzise und materialgerecht.

Dieses Ergebnis zeigt deutlich, dass die Fähigkeiten über alle Chatbots hinweg in der visuellen Analyse und Interpretation im Vergleich zu ihren Textverständnisfähigkeiten begrenzt bleiben. Die Antwortzeiten für bildbasierte Fragen waren heterogener; während Copilot und Gemini Advanced sehr schnell reagierten, erforderte ChatGPT-3.5 vergleichsweise längere Zeiten. In textbasierten Fragen lieferte Gemini 1.5 die schnellsten Antworten, während DeepSeek am meisten Zeit benötigte.

Diskussion

Diese Studie zeigt, dass KI-Chatbots ein erhebliches Potenzial bei der Beantwortung von Prüfungsfragen im Bereich „Restaurative Zahnmedizin“ besitzen. Die Ergebnisse deuten darauf hin, dass alle bewerteten Modelle eine hohe Leistung zeigen, wobei fortschrittliche KI-Chatbots wie Gemini Advanced und ChatGPT-4o Plus aufgrund ihrer überragenden Genauigkeitsraten herausragten. Insbesondere das Gemini-Advanced-Modell erreichte eine beeindruckende Genauigkeitsrate von 96,28 Prozent und unterstrich damit die Zuverlässigkeit solcher Werkzeuge im Rahmen der zahnärztlichen Ausbildung.

Die Studienergebnisse belegen nicht nur die Fähigkeit der Chatbots, sich an Informationen zu erinnern, sondern ebenso deren Kompetenz bei der Analyse klinischer Kontexte und der Erzeugung von breitem, inferenziellem Denken. Das trifft insbesondere für fall-/wissensbasierte Fragen zu und deckt sich mit den Ergebnissen aus der Literatur. Wenn es dagegen um visuelle Interpretationen, heterogene Fragetypen oder Inhalte mit geringer Informationsdichte geht, differieren die Leistungen der Chatbots deutlich – bei der Mehrzahl der derzeit verfügbaren Chatbots bleibt die visuelle analytische Kapazität begrenzt.

Eine Einschränkung der Studie könnte sein, dass die Fragen auf Türkisch präsentiert wurden. Das könnte zu Fehlinterpretationen oder Ungenauigkeiten geführt haben, insbesondere für Modelle, die überwiegend auf englischsprachigen Daten trainiert wurden. Zudem wurden die Fragen ausschließlich aus dem türkischen Lehrplan für Zahnmedizin abgeleitet, die Ergebnisse sind daher möglicherweise nicht vollständig auf andere Prüfungen oder Bildungssysteme verallgemeinerbar.

Weiter könnten Änderungen in den Trainingsdaten, in der Aktualisierungsfrequenz oder in der Modellarchitektur die Leistung beeinflussen und direkte Vergleiche über Systeme hinweg einschränken. Folglich sollten die Ergebnisse im Zusammenhang mit diesen Kategorien vorsichtig interpretiert und starke Verallgemeinerungen sollten vermieden werden. Da KI-Chatbots kontinuierlich aktualisiert werden, kann die Leistung aktualisierter Chatbots von den hier präsentierten Ergebnissen abweichen.

Sind Lehrbücher künftig überflüssig?

Studien wie diese sollten Anlass dafür sein, zu überlegen, wie KI zukünftig die theoretische Lehre, die Fortbildung und das Lernen in der Zahnmedizin beeinflussen wird und wie Universitäten und Fortbildungsanbieter darauf reagieren sollten. Welche neuen Lehrkonzepte sind beispielsweise notwendig? Benötigt man noch Hörsäle für Vorlesungen oder erhalten Studierende zu Semesterbeginn einen Themenkatalog, dessen Inhalte sie durch den Einsatz von KI selbst erarbeiten und die Ergebnisse dann in Videokonferenzen mit dem Lehrpersonal diskutieren? Braucht man noch Bücher, Artikel, Fortbildungen et cetera, wenn alles bereits im Netz vorhanden ist?

Zweifellos wird sich KI produktiv in die Lehre integrieren lassen. So könnten KI-Chatbots Schülern und Studenten beispielsweise ermöglichen, ihr Wissen wiederholt mit Fragen im Prüfungsstil zu testen. Bei vernünftiger Anwendung könnten diese Tools auch helfen, die kognitive Belastung zu bewältigen, indem sie während des selbstgesteuerten Lernens sofortiges Feedback und strukturierte Reaktionen geben. KI-Chatbots könnten als Ergänzungswerkzeuge für die Prüfungsvorbereitung, die formative Selbsteinschätzung und klinische Argumentationsübungen, insbesondere in präklinischen und frühen klinischen Trainingsphasen, in die Zahnmedizinausbildung integriert werden.

Bei jeder Anwendung der KI wird jedoch die Frage nach der Zuverlässigkeit der Auskünfte noch lange Zeit ein Thema bleiben. Wenn die KI heute für ihre Aussagen Quellen nennt, ist das zweifellos ein Fortschritt, denn damit wird eine Überprüfung möglich. Eine solche Überprüfung kann jedoch sinnvollerweise nur stichprobenartig erfolgen, so dass man beim Einsatz der KI um ein gewisses Vertrauen in deren Output nicht herumkommen wird. Damit bleibt eine vorerst nicht zu beseitigende Restunsicherheit erhalten, die einen kritischen Blick der humanen Intelligenz unverzichtbar macht.

Trotz teils brillant anmutender und fachlich mitunter erstaunlich differenziert daherkommender KI-Texte ist also ein blindes Vertrauen in die KI als quasi durch das Internet enzyklopädisch gebildete und noch dazu denkende Instanz auf absehbare Zeit nicht angebracht. Deshalb sollten KI-generierte Ergebnisse nicht als ausschließliche Quellen verwendet werden und müssen von Fakultätsrichtlinien, kritischen Bewertungsfähigkeiten und dem Bewusstsein der Anwender für potenzielle Fehlinformationen begleitet werden.

Schlussfolgerung

Die Autoren kommen zu dem Schluss, dass KI-Chatbots ein großes Potenzial als ergänzende Werkzeuge in der zahnmedizinischen Ausbildung und Prüfungsvorbereitung haben. Dennoch sollten sie nicht als alleinige Informationsquelle verwendet, sondern durch fachliche Anleitung und kritische Bewertung ergänzt werden.

Merve Haberaland Dilek Hançerlioğulları: Can artificial intelligence chatbots think like dentists? A comparative analysis based on dental specialty examination questions in restorative dentistry. BMC Oral Health 2026 6;26(1):231.

Prof. Dr. Elmar Hellwig

Univ.-Prof. (a.D.) Dr. med. dent. Elmar Hellwig

Erzherzogstr. 8, 79102 Freiburg
Melden Sie sich hier zum zm Online-Newsletter an

Die aktuellen Nachrichten direkt in Ihren Posteingang

zm Online-Newsletter


Sie interessieren sich für einen unserer anderen Newsletter?
Hier geht zu den Anmeldungen zm starter-Newsletter und zm Heft-Newsletter.