KI in der Wissenschaft

Es genügt eine Forschungsfrage – den Rest erledigt Chat-GPT

Gut ein Jahr nach Einführung von Chat-GPT ist Künstliche Intelligenz (KI) auf breiter Basis in Lehre und Wissenschaft angekommen. Im Juni 2023 nutzten laut einer Untersuchung knapp zwei Drittel aller Studierenden KI-Tools für Recherche, Datenaufbereitung und Texterstellung. Jetzt zeigt eine Studie, dass die Technik komplette Datensätze passend zu einer Forschungsfrage fälschen kann, die nur mit Mühe entlarvt werden können.

Als erste Arbeit überhaupt bildet eine Studie der Hochschule Darmstadt ab, wie verbreitet die KI-Nutzung im Studienbetrieb ist [Von Garrel et al., 2023]. Die Wissenschaftlerinnen und Wissenschaftler baten dazu Funktionsträger von 395 Hochschulen in Deutschland ihre Einladung zur Onlineumfrage an Studierende weiterzuleiten. Vom 15. Mai bis zum 5. Juni beteiligten sich 8.802 Personen, am Ende konnten 6.311 Fragebögen ausgewertet werden.

60,3 Prozent der in die Auswertung eingeschlossenen Teilnehmenden waren Frauen. Damit lag deren Anteil über der Grundgesamtheit (50,6 Prozent) der 2,92 Millionen Studierenden in Deutschland, die das Statistische Bundesamt für das Wintersemester 2022/2023 erfasst hat. Der Anteil der Teilnehmenden aus dem Bereich Humanmedizin/Gesundheitswissenschaften lag bei 7,9 Prozent (Anteil an der Grundgesamtheit 6,9 Prozent).

Genutzt werden vor allem Chat-GPT und DeepL

Ergebnis: 63,2 Prozent der Befragten gaben an, KI-Tools für ihre Arbeit an der Hochschule zu nutzen, 25,3 Prozent „(sehr) häufig“, 9,5 Prozent „gelegentlich“ und 28,4 Prozent „(sehr) selten“. Dies ist vor allem in Bachelor- und Masterstudiengängen der Fall (65,0 beziehungsweise 71,7 Prozent), seltener im Rahmen einer Promotion (51,9 Prozent). Mit Abstand am häufigsten genutzt wird Chat-GPT beziehungsweise GPT-4 (48,9 Prozent Prozent), gefolgt von DeepL (12,3 Prozent), DALL-E (3,6 Prozent), Midjourney (2,6 Prozent) und BingAI (1,8 Prozent). Eine Vielzahl weiterer KI-Tools kommen zusammen auf 14,8 Prozent der Nennungen.

Die Studierenden nutzen die KI-Tools nach eigenen Angaben vor allem zur Klärung von Verständnisfragen und zur Erklärung von fachspezifischen Konzepten (35,6 Prozent), für Recherchen und das Literaturstudium (28,6 Prozent), für Übersetzungen (26,6 Prozent), zur Texterstellung (24,8 Prozent) und zur Problemlösung und Entscheidungsfindung (22,1 Prozent), seltener auch zur Prüfungsvorbereitung (12,8 Prozent), zur Sprachverarbeitung (10,6 Prozent) und für Konzeptentwicklungen sowie Designaufgaben (11,5 Prozent). Hier unterscheiden sich die Angaben stark nach den neun betrachteten Fachrichtungen.

Die Top-5-Anwendungsfälle in der Fachrichtung „Humanmedizin/Gesundheitswissenschaft“ waren:

  • 30,4 Prozent: Klärung von Verständnisfragen und Erklärung von fachspezifischen Konzepten

  • 24,3 Prozent: Übersetzungen

  • 21,9 Prozent: Recherche und Literaturstudium

  • 17,1 Prozent: Textanalyse, Textverarbeitung, Texterstellung

  • 16,7 Prozent: Problemlösung, Entscheidungsfindung

Die Studie ist nicht repräsentativ

Die Forschenden benennen eine Reihe von methodischen Limitationen. So wurde zwar eine hohe Reliabilität durch die breite Stichprobenauswahl im Sinne der deutschlandweiten Befragung von Studierenden aller Fächergruppen angestrebt, allerdings konnte keine vollständige Repräsentativität erreicht werden, heißt es. Dazu stimmte die Verteilung der Studierenden nach Geschlecht, Studienort und -fach in der Stichprobe nicht genau genug mit der Verteilung in der Grundgesamtheit überein. Trotzdem gebe die Studie erste Hinweise, dass KI-basierte Tools bei Studierenden aller Studienbereiche in Deutschland genutzt werden. Explizit nennt fast die Hälfte aller befragten Studierenden Chat-GPT beziehungsweise GPT-4 als genutztes Tool.

Und scheinbar verwenden auch viele Wissenschaftler die Technik mittlerweile zur Erstellung von Publikationen – ohne dies anzugeben. So hatten im Herbst 2023 Experten durch Stichproben zig wissenschaftliche Paper gefunden, die mithilfe von Künstlicher Intelligenz verfasst wurden, ohne dass dies den Verlagsstatuten entsprechend kenntlich gemacht war (zm berichtete: bit.ly/zm_KI). Hinweise darauf wurden beim Peer-Review schlicht übersehen.

Fiktiver Datensatz unterstützt beliebige Forschungsfrage

Jetzt zeigte ein italienisches Forschungsteam, dass sich mit GPT-4 – also die seit März 2023 verfügbare Version des OpenAI-Sprachmodells – ein kompletter, gefälschter Datensatz erzeugen lässt, der eine formulierte Forschungsfrage stützt [Taloni et al., 2023]. Im konkreten Beispiel verglichen die KI-generierten Daten die Ergebnisse zweier chirurgischer Eingriffe und deuteten zu Unrecht an, dass eine Behandlungsmethode der anderen überlegen war.

„Unser Ziel war es, hervorzuheben, dass man in wenigen Minuten einen Datensatz erstellen kann, der nicht von echten Originaldaten gedeckt ist und der der bestehenden Evidenz verfügbarer Daten widerspricht", erklärte Co-Autor Giuseppe Giannaccare gegenüber dem Magazin Nature. Dazu baten die Autoren GPT-4, einen Datensatz zu erstellen, der Menschen mit einer Augenerkrankung namens Keratokonus betraf. Diese verursacht eine Verdünnung der Hornhaut und kann zu einem beeinträchtigten Fokus und schlechter Sicht führen. Für 15 bis 20 Prozent der Menschen mit der Krankheit beinhaltet die Behandlung eine Hornhauttransplantation, die mit einem von zwei Verfahren durchgeführt wird, entweder der Penetrating Keratoplasty (PK) oder einer Deep Anterior Lamellar Keratoplasty (DALK).

Studie sieht auffällige „Zunahme extrem produktiver Autoren“

Eine internationale Untersuchung hat ausgewertet, wie viele wissenschaftliche Autoren von 2000 bis 2022 extrem produktiv (EP) waren und wie sich ihre Präsenz in verschiedenen Ländern und wissenschaftlichen Bereichen verändert hat. Als extrem produktiv wurden Autoren definiert, die mehr als 60 vollständige Arbeiten (Artikel, Rezensionen, Konferenzbeiträge) in einem Kalenderjahr veröffentlicht und in der Datenbank Scopus indexiert hatten. Ergebnis: Die Forschenden fanden 3.191 EP-Autoren in allen Wissenschaften mit Ausnahme der Physik (12.624 EP-Autoren). Sie schlossen darum Autoren aus dem Bereich der Physik aus, weil diese aufgrund andersartiger Autorenpraktiken seit jeher dazu neigen, eine große Anzahl von Arbeiten zu veröffentlichen.

Ohne Physik hatte China die größte Anzahl an EP-Autoren, gefolgt von den USA. Die größten Anstiege zwischen 2016 und 2022 wurden in Thailand (19-fach), Saudi-Arabien (11,5-fach), Spanien (11,5-fach) und Indien (10,2-fach) verzeichnet. Mit Ausnahme der Physik waren die meisten EP-Autoren in der klinischen Medizin tätig, von 2016 bis 2022 wurden die größten relativen Zuwächse in den Bereichen Land- und Fischereiwirtschaft (14,6-fach) und Biologie (13-fach) verzeichnet.

Fazit der Autoren: Extreme Produktivität ist in allen wissenschaftlichen Bereichen besorgniserregend weit verbreitet. Die Zunahme der EP-Autoren gebe Anlass zur Sorge, dass einige Forscher auf zweifelhafte Methoden zurückgreifen, um zusätzliche Arbeiten zu veröffentlichen.

John P.A. Ioannidis, Thomas A. Collins, Jeroen Baas, Evolving patterns of extremely productive publishing behavior across sciencebio, Rxiv 2023.11.23.568476; doi: doi.org/10.1101/2023.11.23.568476

Die Autoren wiesen das KI-Sprachmodell an, Daten zu erstellen, um die Schlussfolgerung zu unterstützen, dass DALK zu besseren Ergebnissen führt als PK. Um dies zu tun, baten sie darum, einen statistischen Unterschied in einem bildgebenden Test zu zeigen, der die Form der Hornhaut beurteilt und Unregelmäßigkeiten erkennt, sowie einen Unterschied, wie gut die Studienteilnehmer vor und nach den Eingriffen sehen konnten.

Die KI-generierten Daten umfassten 160 männliche und 140 weibliche Teilnehmer und deuteten darauf hin, dass diejenigen, die DALK unterzogen wurden, sowohl im Seh- als auch im Bildgebungstest besser abgeschnitten haben – eine Erkenntnis, die im Widerspruch zu dem steht, was echte klinische Studien zeigen.

KI soll prüfen, ob Studiendaten von einer KI gefälscht wurden

„Es scheint, dass es ganz einfach ist, Datensätze zu erstellen, die zumindest oberflächlich plausibel sind“, erklärt dazu Jack Wilkinson. Der britische Biostatistiker ist spezialisiert auf die Erkennung unechter Forschungsdaten und hat den Datensatz der italienischen Studie für Nature überprüft. Dazu setzten er und ein Kollege ein Screening-Protokoll ein, das die Daten auf Authentizität überprüft. Am Ende entlarvte die Begutachtung die Arbeit des KI-Tools anhand von Detailfehlern, die der KI unterlaufen waren: Bei vielen Teilnehmenden passte die Geschlechtsangabe nicht zur typischen Verwendung des angegebenen Vornamens, außerdem wurde keine Korrelation zwischen präoperativen und postoperativen Messungen der Sehkraft und dem Augenbildgebungstest gefunden. Auch die Alterswerte der Teilnehmenden zeigten eine Auffälligkeit, weil es eine überproportional große Anzahl von Menschen gab, deren Alterswerte mit 7 oder 8 endeten.

Zeitschriften müssten ihre Qualitätsprüfungen dringend aktualisieren, um KI-generierte synthetische Daten zu identifizieren, lautet das Fazit der Experten. Wilkinson hofft, einige der Prüfprotokolle künftig automatisieren zu können, dann könne KI nicht nur Teil des Problems, sondern auch Teil der Lösung sein – indem die KI überprüft, ob Studiendaten von einer KI gefälscht wurden. Gleichzeitig aber warnt er gegenüber Nature davor, dass Fortschritte in der generativen KI bald Möglichkeiten bieten könnten, diese Prüfprotokolle zu umgehen.

Ist ein kryptografisches Wasserzeichen die Lösung?

Die Zukunft der wissenschaftliche Evidenz zu sichern, scheint nun eine Aufgabe von Informatikern zu sein: Spätestens seit der Einführung von GPT-4 beschäftigen sich ungezählte Preprints und Publikationen mit der Möglichkeit, Ausgaben von KI-Tools mit einer Art kryptographischem Wasserzeichen zu versehen, dass nur mit dem Wissen eines geheimen Schlüssels erkannt werden kann und die Ausgabequalität und das Nutzererlebnis nicht beeinträchtigt. Eine Entwarnung ist das indes nicht, denn die Wissenschaftler sind sich einig, dass es Akteuren mit dem entsprechenden Know-how und Technikeinsatz immer gelingen wird, diese Wasserzeichen rückstandslos zu entfernen.

Die juristische Bewertung zum Einsatz von KI an Hochschulen ist hingegen klar. Ein vom Ministerium für Kultur und Wissenschaft des Landes Nordrhein-Westfalen in Auftrag gegebenes Gutachten [Salden und Leschke, 2023] kommt zu dem Schluss, dass eine Software keine Urheberschaft an einem Text haben kann. Studierende, die das Tool nutzen, jedoch schon, „wenn sie in erheblichem Maße geistige Eigenleistung zu den Texten beitragen“. Das wiederum sei „eine schwierige Frage, die im Einzelfall entschieden werden muss“.

Verlage schaffen klare Regeln, Hochschulen nicht

Nature und die anderen Springer Nature Journals hatten ihren Veröffentlichungsrichtlinien schon zu Beginn des Jahres 2023 zwei Anmerkungen hinzugefügt: 1. ChatGPT und andere Large Language Modells (LLM Tools) dürfen nicht als Autoren genannt werden, da sie nicht die Verantwortung für den Text übernehmen können. 2. Die Verwendung von LLM Tools soll unter Methoden oder bei der Danksagung dokumentiert werden.

Bei den Hochschulen sucht man einheitliche Regelungen vergeblich. Mitte November 2023 hatten nur 37 Prozent der 100 größten deutschen Universitäten Chat-GPT-Richtlinien: An zwei Prozent der Universitäten war der Einsatz generell nicht erlaubt, an 23 Prozent der Universitäten war der Einsatz teilweise und an zwölf Prozent der Universitäten generell gestattet. Bei den verbleibenden 63 Prozent der Universitäten gab es jedoch noch keine oder nur sehr unklare Richtlinien, meldet das Unternehmen Scribbr mit Verweis auf eigene Recherchen.

Das niederländische Start-up gehört zu einem internationalen Unternehmensverbund, der digitale Dienstleistungen rund um die Texterstellung anbietet, darunter ein Paraphrasing-Tool zum Umschreiben von Texten, einen „Selbstplagiatscheck“ und einen Test, der von KI generierte Textbestandteile aufspüren soll. Das Angebot startet preislich ab 17,95 Euro pro Text.

Literaturliste

  • Joerg von Garrel, Jana Mayer, Markus Mühlfeld, Künstliche Intelligenz im Studium. Eine quantitative Befragung von Studierenden zur Nutzung von ChatGPT & Co., DOI: 10.48444/h_docs-pub-395

  • Taloni A, Scorcia V, Giannaccare G. Large Language Model Advanced Data Analysis Abuse to Create a Fake Data Set in Medical Research. JAMA Ophthalmol. Published online November 09, 2023. doi:10.1001/jamaophthalmol.2023.5162

  • Peter Salden, Jonas Leschke (Herausgeber): Didaktische und rechtliche Perspektiven auf KI-gestütztes Schreiben in der Hochschulbildung, 2023, DOI: 10.13154/294-9734, hss-opus.ub.ruhr-uni-bochum.de/opus4/frontdoor/index/index/docId/9734

Melden Sie sich hier zum zm-Newsletter des Magazins an

Die aktuellen Nachrichten direkt in Ihren Posteingang

zm Heft-Newsletter


Sie interessieren sich für einen unserer anderen Newsletter?
Hier geht zu den Anmeldungen zm Online-Newsletter und zm starter-Newsletter.