ChatGPT übertreibt bei Fachtexten
Das Team von Uwe Peters (Universität Utrecht) und Benjamin Chin-Yee (Western University, Kanada, und University of Cambridge, Großbritannien) testete die bekanntesten zehn KI-gestützten Sprachmodelle und analysierte Tausende von Chatbot-generierten wissenschaftlichen Zusammenfassungen. Dabei stellten die Forschenden fest, dass die meisten Modelle durchweg zu umfassenderen Schlussfolgerungen führten als die zusammengefassten Originaltexte. Überraschenderweise verstärkten Genauigkeitsanforderungen das Problem, und neuere LLMs schnitten schlechter ab als ältere.
Sechs von zehn Modellen übertrieben systematisch
In der Studie wurde untersucht, wie genau die zehn führenden KI-Sprachmodelle – darunter ChatGPT, DeepSeek, Claude und LLaMA – Abstracts und ausführliche Artikel aus den wichtigsten wissenschaftlichen und medizinischen Zeitschriften (wie Nature, Science und Lancet ) zusammenfassen. Die Forscher testeten die LLMs ein Jahr lang und sammelten 4.900 von LLMs erstellte Zusammenfassungen.
Sechs von zehn Modellen übertrieben systematisch Behauptungen aus den Originaltexten, oft auf subtile, aber wirkungsvolle Weise. So wurden zum Beispiel vorsichtige Behauptungen in der Vergangenheitsform wie „Die Behandlung war in dieser Studie wirksam“ in eine umfassendere Version in der Gegenwartsform wie „Die Behandlung ist wirksam“ geändert. Diese Änderungen könnten Leser zu der falschen Annahme verleiten, dass die Ergebnisse viel allgemeiner anwendbar sind, als dies tatsächlich der Fall ist, befürchten die Wissenschaftler.
Aufforderungen zu mehr Genauigkeit gingen nach hinten los
Bemerkenswerterweise produzierten die Modelle fast doppelt so häufig übergeneralisierte Schlussfolgerungen, wenn sie explizit aufgefordert wurden, Ungenauigkeiten zu vermeiden, als wenn sie nur eine einfachen Befehl zur Zusammenfassung erhielten. „Dieser Effekt ist besorgniserregend“, sagte Peters: „Studierende, Forschende und politische Entscheidungsträger gehen möglicherweise davon aus, dass sie eine zuverlässigere Zusammenfassung erhalten, wenn sie ChatGPT bitten, Ungenauigkeiten zu vermeiden. Unsere Ergebnisse beweisen das Gegenteil.“
Peters und Chin-Yee verglichen außerdem von Chatbots erstellte und von Menschen verfasste Zusammenfassungen derselben Artikel direkt. Unerwarteterweise produzierten Chatbots fast fünfmal häufiger allgemeine Aussagen als ihre menschlichen Kollegen. „Beunruhigenderweise schnitten neuere KI-Modelle wie ChatGPT-4o und DeepSeek schlechter ab als ältere", sagt Peters.
Neuere KI-Modelle sind schlechter als ältere
Warum kommt es zu diesen Übertreibungen? „Frühere Studien haben gezeigt, dass Übergeneralisierungen in wissenschaftlichen Texten häufig vorkommen. Daher ist es nicht überraschend, dass Modelle, die mit diesen Texten trainiert wurden, dieses Muster reproduzieren“, erklärt Chin-Yee. Da menschliche Nutzer zudem oft hilfreiche und allgemein anwendbare KI-Antworten bevorzugen, könnten die Modelle durch Interaktionen lernen, flüssige und allgemeine Aussagen der Präzision vorzuziehen, vermutet Peters.
Die Forscher empfehlen die Verwendung von KI-Sprachmodellen wie Claude, das den größten Hang zur Generalisierung aufwies, die Einstellung von Chatbots auf eine niedrigere „Temperatur“ – das ist der Parameter, der die „Kreativität“ eines Chatbots bestimmt – und die Verwendung von Eingabeaufforderungen, die eine indirekte Berichterstattung in der Vergangenheitsform in wissenschaftlichen Zusammenfassungen erzwingen. Schließlich: „Wenn wir wollen, dass KI die wissenschaftliche Bildung fördert, anstatt sie zu untergraben“, sagt Peters, „müssen wir diese Systeme im Kontext der Wissenschaftskommunikation stärker überwachen und testen.“