In letzter Zeit stoße ich auf immer mehr Artikel zum Einsatz von generativer Künstlicher Intelligenz (KI) im Peer-Review-Prozess: zum Beispiel Texte mit Studien, die belegen, dass inzwischen viele Personen, die als Reviewer tätig sind, auf KI zurückgreifen z.B. (hier), wie auch Texte, die sich kritisch mit diesem Phänomen auseinandersetzen. Akhil Bhardwaj von der University of Bath hat kürzlich auf dem Portal Times Higher Education hier einen Beitrag zu diesem Thema verfasst, der die zentralen Probleme für mich klar auf den Punkt bringt. Welche Aussagen und Argumente haben mich besonders überzeugt? Ich greife einige heraus und versuche, diese (auf meine Weise) zusammenzufassen.
Die Ausgangssituation ist dergestalt, dass das Peer-Review-System chronisch überlastet ist: Es werden immer mehr Texte geschrieben und in Zeitschriften eingereicht; gleichzeitig finden sich immer weniger Gutachter. Damit ist der Boden für KI bereitet, die das Problem zu lösen scheint – zumindest dann, wenn man den Peer-Review-Prozess vor allem als einen Produktionsschritt im Forschungsprozess versteht und Quantität sowie Geschwindigkeit zu den relevantesten Kriterien macht und auf Leistungsindikatoren und Prozessoptimierung setzt. Der eigentliche Wert des Peer-Reviews geht damit verloren – nämlich ein Ort zu sein, an dem die wissenschaftliche Gemeinschaft untereinander kommuniziert, in einen Dialog tritt und miteinander ringt. KI-Tools hingegen ringen nicht miteinander; sie verarbeiten Information.
Anders als menschliche Gutachter, denen es um Erkenntnis geht, hat KI genau daran keinerlei Interesse; sie haben zu bisherigen Erkenntnissen selbständig nichts beigetragen, sie gehören keiner Fachgemeinschaft an, sie denken sich nichts dabei, wenn sie mal im Irrtum sind. Das ist deswegen wichtig, weil Wissenschaft nicht einfach eine Sammlung von quantifizierbaren Ergebnissen, sondern auch eine Kultur der Auseinandersetzung ist oder sein sollte, die oftmals mühsam, langwierig und emotional belastend ist. Dabei ist unbestritten, dass im Zuge solcher Auseinandersetzungen egoistische Motive Urteile verzerren und Verhalten korrumpieren können. Das menschliche Peer-Review-System ist also alles andere als perfekt und vom theoretisch denkbaren Ideal oft weit entfernt. Aber: Es leistet etwas, was kein automatisiertes System vermag.
Befürworter des Einsatzes von KI im Reviewprozess argumentieren, KI solle den Menschen nicht ersetzen, sondern ihn nur gezielt unterstützen und entlasten, sodass mehr Zeit für anspruchsvolle Prozesse im Begutachtungsprozess bleibt. Das klingt vernünftig. Allerdings bleibt die Frage: An welcher Stelle wandelt sich die Unterstützung zur Autorschaft? Und was bedeutet das für die Verantwortung? Wer ist für eine negative KI-Entscheidung über ein Manuskript verantwortlich? Grundsätzliche Fragen dieser Art, so möchte ich hier ergänzen, hat der Deutsche Ethikrat (hier) bereits vor drei Jahren eingehend analysiert.
Gegen Ende des Beitrags räumt der Autor noch einmal ein, dass menschliche Feedback-Prozesse nicht romantisiert werden sollen: Sie seien nicht nur unvollkommen, sondern manchmal auch ausgrenzend, mitunter willkürlich verzögert, gelegentlich kleinlich. Doch die Lösung für diese Mängel, so der Autor, läge doch eher darin, mehr in die menschliche Komponente zu investieren: durch Qualifizierung, Anerkennung, realistische Erwartungen. Dagegen laufe man mit einer Automatisierung durch Maschinen in eine gänzlich andere Richtung, die Effizienz und Quantität über alles stellt.
Ich stimme dieser Diagnose im Großen und Ganzen zu. Bei den letztgenannten Folgerungen würde ich etwas weiter ausholen und hinzufügen, was schon vor KI immer mal wieder vorgeschlagen wurde: Es darf nicht mehr so viel publiziert werden. Das ungebremste Wachstum wissenschaftlicher Publikationen sollte man stoppen, dafür aber deren Qualität und Neuigkeitswert erhöhen: Wenn weniger publiziert wird, muss auch weniger begutachtet werden und das lässt sich wieder sorgfältiger machen, auch ohne KI im Urteilsprozess. Würde Peer-Review tatsächlich als kommunikativer, gar dialogischer Akt in der wissenschaftlichen Gemeinschaft praktiziert werden, wären allerdings auch Peer-Review-Formen zumindest zu variieren: mehr öffentliche dialogische Austauschprozesse, mehr echtes Aushandeln und Ringen zwischen Menschen um die Sache, die sich untereinander auch zu erkennen neben – neben dem Double-Blind-Peer-Review, das an bestimmten Stellen, aber eben auch nicht überall, seine Berechtigung hat. Dass das viel zu wenig gemacht wird, kann man KI nicht in die Schuhe schieben; das funktioniert schon lange nicht mehr wirklich gut. Würde dann auch noch der exzessive Wettbewerb um alles und jedes in der Wissenschaft zurückgefahren werden – denn auch das bedingt eine riesige Menge an Begutachtungsprozessen –, hätten wir alle viel mehr Zeit, auch wieder sorgfältig zu lesen, zu kommentieren, zu denken und Erkenntnisse zu generieren, die es wert sind, mit anderen geteilt zu werden.