KI in der Wikipedia – vorstellbar, aber es braucht klare Spielregeln

Beim Wikipedia Day in Welle7, Bern, am 27. April 2024 war der Wikipedianer Kevin Golde (User:Wikiolo) einer unserer Panellisten zum Thema „Wikipedia und künstliche Intelligenz – der Wettlauf um freies Wissen“. Er hat uns seine Antworten auf die Fragen unserer Moderatorin Lisa Stähli zum Nachlesen zur Verfügung gestellt.

Hallo Kevin, wie sieht die Zusammenarbeit mit KI auf Wikipedia und anderen Wissensplattformen heute aus und wie wird sie sich in Zukunft verändern?

KI selbst kommt in Wikipedia bisher in der Regel nicht zur Anwendung. Das liegt insbesondere daran, dass Anwendungen wie ChatGPT als Chatbot fungieren und beispielsweise Aussagen nicht belegen. Insbesondere bei KIs, die Bilder generieren, ist darüber hinaus die Frage, ob die Inhalte frei lizenziert sind, damit Wikipedia sie nutzen kann.

Anders sieht es bei Wikipedia als Quelle für KI aus. Durch die freien Lizenzen in der Wikipedia ist sie eine hervorragende Quelle für Trainingsdaten. Darüber hinaus gibt es auch ganz offizielle Kooperationen wie zum Beispiel bei dem Projekt WikiGPT mit OpenAI, wo ChatGPT direkt auf Inhalte der Wikipedia zugreift.

Doch auch heute könnten einfache KI-Tools in der Wikipedia schon nützlich sein, zum Beispiel, um Formulierungen zu glätten. Mittelfristig kann ich mir vorstellen, dass eine KI den Nutzer auf mögliche Fehler hinweist oder (bessere) Quellen findet, hierzu gibt es bereits mit dem System Side ein Pilotprojekt. Auch könnte KI Wikipedia interaktiver machen, etwa, indem sie dem Leser Fragen zum Artikel stellt, einen Artikel zu höherer Mathematik in einfache Sprache umformuliert, XXL-Artikel zusammenfasst oder gleich einen Foliensatz für eine Präsentation erstellt.

Zudem könnten Inhalte, die in einer Sprache fehlen, schnell durch eine KI-Übersetzung ergänzt werden. Möglicherweise kann auch eine Zentralwikipedia aufgebaut werden, von der aus dann die Informationen in die jeweilige Muttersprache über ein IT-Tool übersetzt werden. Dies könnte Englisch sein, aber vermutlich ist sogar eine andere Sprache besser geeignet. Wichtig ist, dass diese Zentralwikipedia eine eindeutige Sprache ist, sodass durch Übersetzungen kein Inhalt verloren geht bzw. vereinfacht oder verfälscht wird. Ich weiß nicht, ob es eine optimale Sprache dafür bereits gibt, ansonsten kann eine für diesen Zweck konzipierte Kunstsprache noch entwickelt werden.

Langfristig kann ich mir vorstellen, dass eine KI basierend auf Quellen Artikel selbst schreibt, ergänzt und aktualisiert. Hier ist es jedoch wichtig, dass im Hintergrund Menschen sitzen, die die Informationen überprüfen.

Wie kann verhindert werden, dass KI-generierte Inhalte Fehlinformationen verbreiten?

Machine-Learning-Anwendungen, die allein auf Daten basieren, funktionieren nie vollständig nach Plan, es sind ja letztendlich statistische Methoden. Zudem hängt die Qualität der Ergebnisse von der Qualität, Vollständigkeit und Ausgewogenheit der Trainingsdaten ab. Fehler sind menschlich und allein schon deshalb wird auch eine KI, die durch menschliche Daten trainiert wird, immer Fehler machen. Um die Fehlinformationen jedoch minimal zu halten, sollten zumindest bei zitierfähigen Quellen auch immer Menschen im Hintergrund sitzen und einen Faktencheck machen und auf eine ausgewogene Darstellung achten. Sofern es diesen Faktencheck nicht gibt, sehe ich einerseits die Gefahr, dass KIs sich irgendwann so oft selbst zitieren, dass am Ende nur noch Kauderwelsch herauskommt. Eine andere Gefahr ist, dass Informationen zu Gunsten bestimmter Gruppen verändert werden. Um dies zu verhindern, sollte man sich ganz genau überlegen, ob diese Technologie in die Hände von wenigen Menschen gehört oder ob es als gemeinwohlorientierte Infrastruktur ein bisschen nach dem Vorbild des öffentlich-rechtlichen Rundfunks als demokratisches Tool in die Hände der Gesellschaft gehört.

Welche Strategien gibt es, um kulturell sensible und inklusive Sprache in KI-generierten Inhalten zu fördern?

Es ist Aufgabe vom KI-Betreiber, darauf zu achten, dass Themen wie kulturell sensible und inklusive Sprache nicht zu kurz kommen. Möglicherweise sind Gesetze oder Richtlinien förderlich. Je nach Modell können Behörden oder, falls sich eine öffentlich-rechtliche KI durchsetzt, die Anstalten darum kümmern, dass dieser Rahmen eingehalten wird. Bei ChatGPT sehen wir ja schon, dass sie bestimmte Anfragen blockiert. Zum Beispiel wird dir keine Liste ausgespuckt, wenn du ChatGPT nach den dümmsten Politikern fragst. Hingegen spuckt es dir schon eine Liste aus, wenn du ChatGPT nach den schlausten Politikern fragst. Die Möglichkeit, Modelle auf diese Weise zu beschränken, gibt es also.

Welche ethischen Herausforderungen ergeben sich aus KI-generierten Inhalten, und wie können sie konkret angegangen werden?

Für mich stellt sich hier als erstes die Frage, wem so ein mächtiges Tool gehören soll und welche Spielregeln hier gelten. Wir alle kennen das Sprichwort „Wissen ist Macht“. Dass dieses Sprichwort insbesondere auch in der digitalen Welt gilt, können wir trotz des freien Wissens in der Wikipedia hervorragend sehen. Denn die Spielregeln von heute, dass sich Menschen mit genügend Geld beinahe alles kaufen können und damit dann auch fast alles nach eigenem Belieben machen können, hat spätestens mit der Machtdemonstration von Elon Musk durch den Kauf von Twitter – nachdem ihm störte, dass eine demokratisch abgewählte Person, die zum Putsch aufgerufen hat, von dort gesperrt wurde – gezeigt, wie viel Macht Einzelne mit ihrem Kleingeld ausüben können.

Wenn wir davon ausgehen, dass eine kommerzielle KI es schafft, dass der Wikipedia ein ähnliches Schicksal bevorsteht wie dem Brockhaus, weil die meisten Menschen statt der Wikipedia in Zukunft die KI nutzen, möchte ich mir nicht ausmalen, welche Manipulationen damit möglich sein werden. Je nach dem, wer bei diesem Unternehmen ganz oben sitzt, kann ich mir vorstellen, dass die demokratische Welt innenpolitisch vor noch deutlich größeren Herausforderungen stünde als heute.

Auch könnten Filterblasen zu einem noch größeren Problem für unsere Gesellschaft werden als heute schon. Was bereits jetzt in den sozialen Medien zu sehen ist, könnte sich noch verstärken, wenn Unternehmen ihre KI so programmieren, dass sie die Antworten auf die Nutzerprofile zuschneidet und dann zum Beispiel ganz nach dem Motto „der Kunde ist König“ Fragen zum Klimawandel einem deutschen Autobahnraser anders beantwortet als einem Demonstranten von Fridays for Future.

Möglicherweise können solche Blasen durch Gesetze verhindert werden, die personalisierte Antworten unterbinden. Hierbei ist aber stets die Frage, wie gut Behörden diese Gesetze durchsetzen können. Um ganz sicher zu gehen, ist daher höchstmögliche Transparenz wichtig, die meines Erachtens am besten durch eine öffentlich-rechtlich organisierte Plattform erreicht wird. Bei einer durchdachten Organisationsstruktur sollte dies auch generell am ehesten Manipulationsversuchen vorbeugen.

Wie kann Wikipedia KI-Fortschritte nutzen, ohne die Integrität als vertrauenswürdige Wissensquelle zu beeinträchtigen?

Ein wesentliches Problem in der Zukunft der Wikipedia sehe ich darin, dass Wikipedia nicht vollständig die Kriterien einer vertrauenswürdigen Quelle erfüllt. Deswegen sagen wir in der Wikipedia auch immer, dass Wikipedia keine Quelle ist. Beispielsweise werden auch heute noch Aussagen oft durchgewunken, die nicht belegt und häufig fehlerhaft sind und wir haben eine Vielzahl älterer Artikel, die noch weitgehend frei von Belegen sind. Meiner Erfahrung nach sind insbesondere bei diesen Artikeln inhaltliche Fehler enthalten, aber auch Aussagen mit Einzelnachweisen sollte man nicht blind vertrauen, da es in der Wikipedia kein Peer-Review-Verfahren gibt. Darüber hinaus hat man in der Wikipedia die Möglichkeit, anonym zu schreiben, sodass Leute, die nicht die Absicht haben, eine neutrale Enzyklopädie zu schreiben, gerade bei kleinen Themen ein einfaches Spiel haben, die Wikipedia nach ihrem Belieben zu manipulieren.

Und gerade hier halte ich KI für vielversprechend. Diese kann eventuell in Zukunft mögliche Fehler oder Beschönigungen in Artikel monieren und diese beispielsweise auf der Diskussionsseite darstellen. Oder auch Nachweise vorschlagen, mit denen bestimmte unbelegte Aussagen bequellt werden können. Aber wie gesagt: Für eine wirklich zuverlässige Quelle sehe ich in letzter Instanz dann nochmal den Menschen, der die KI prüft.

Andererseits muss ich auch sagen, dass wenn die Wikipedia bleibt, wie sie ist, es nur eine Frage der Zeit sein dürfte, bis sie qualitativ durch eine KI überholt wird. Ich bin mir sicher, dass spätestens dann die Wikipedia Geschichte ist, da dann auch ihre letzten Leser, denen die KI zu unzuverlässig war, sich von der Online-Enzyklopädie abwenden würden.

Wie können Wiki-Projekte langfristig bestehen bleiben, wenn in Zukunft kaum jemand mehr direkt auf die Seiten zugreift, mitwirkt oder spendet?

Diese Gefahr sehe ich akut noch nicht. Dann ist halt im Zweifel der Spendenaufrufbanner ein, zwei Wochen länger drin als noch im Jahr vorher und am Ende erreicht die Spendenkampagne die gleiche Anzahl an Personen. Sofern dies mittelfristig tatsächlich zum Problem wird, würden vermutlich die Unternehmen der Plattformen, die von den Inhalten der Wikimedia profitieren, Großspenden machen, damit die Wikipedia bestehen bleibt. Hier ist aber natürlich die Frage, ob sie dann auch versuchen, Einfluss auf die Wikimedia zu nehmen, um sie nach ihren Vorstellungen umzubauen.

Damit dies verhindert wird, ist das bereits angesprochene öffentlich-rechtliche Wikimedia-Modell meiner Meinung nach für einen nachhaltigen Fortbestand zielführend. Je nach Modell könnten sich dadurch beispielsweise auch Hochschulen mit dem Auftrag, ihr Wissen zu vermitteln, sich an der Verbesserung und Fortschreibung der Wikipedia beteiligen. Außerdem würden sich neue finanzielle Möglichkeiten ergeben, etwa könnte die Wikimedia in Zukunft selbst datengetriebene Methoden und eigene LLMs aufbauen oder diese übernehmen. Aktuell ist dies aus finanziellen Gründen schwierig.

Wie kann Wikimedia seine Community befähigen, sich in einer sich schnell verändernden digitalen Landschaft zurechtzufinden und anzupassen?

Die Wikimedia muss mit der Zeit gehen und sich an diese anpassen. Die Wikipedia ist damals aus der Nupedia entstanden, die noch einen kommerziellen Ansatz verfolgte. Das Innovative an der Wikipedia war, dass im Gegensatz zur Nupedia alle Menschen einfach und demokratisch auch ohne Benutzerkonto mitschreiben konnten. Das war natürlich super zum Aufbau der Enzyklopädie, allerdings Zweifel ich sehr, ob das die richtige Formel für alle Ewigkeit ist. Wie viele wissen, hat sich seit den Anfängen das gesellschaftliche Vertrauen in die Wikipedia enorm erhöht. Dies kam nicht von irgendwoher, sondern mit Regeln, die ein Wikipedia-Artikel erfüllen sollte. Bei einer sich zugleich vervollständigen Enzyklopädie ist es daher klar, dass es immer schwieriger wird, ehrenamtlich in der Wikipedia zu starten, sodass trotz großer Bemühungen heute kaum Neulinge gewonnen werden können.

Auf dem sehr niedrigen Nachwuchs und einer stetig schwindenden Autorenzahl kommen zugleich immer mehr Artikel hinzu, die zu warten sind, was zumeist durch den klassischen Wikipedianer erfolgt, der in der Regel weiß, männlich und schon ein Stück älter ist als ich. Als Konsequenz kann die Wikipedia häufig selbst gesteckte Ziele wie neben einer tadellosen Korrektheit auch eine durchgehende Aktualität sowie Neutralität der Artikel nicht erfüllen. Das kann sich die Wikimedia noch leisten, da es noch keine ernst zu nehmende Alternative zum Hauptprodukt, der Wikipedia, gibt.

So wie ich es sehe, deutet es sich aber an, dass sich diese komfortable Zeit so langsam ändert. Ich denke, dass man sich jetzt, wo wir sehen, was mit KI alles möglich ist, uns Gedanken machen müssen, wie die Wikimedia sich weiterentwickeln sollte. Meiner Meinung nach muss man dabei erstmal alles bei Wikimedia hinterfragen und analysieren, ob es noch zukunftsfähig ist oder ob ein anderes Modell her muss: Also, sollen die Wikipedia und ihre Schwesterprojekte immer noch ein rein ehrenamtliches Projekt sein, oder integriert man hier zum Beispiel auch noch Hochschulen, Universitäten und andere gemeinwohlorientierte Einrichtungen in das Projekt. Oder ist eine spendenfinanzierte Enzyklopädie als Wissensquelle der Welt noch zeitgemäß oder ist das nicht als gemeinwohlorientierte Infrastruktur, die Wikipedia heute definitiv ist, eigentlich eine öffentliche Aufgabe?

Auch sollte hinterfragt werden, wie wir Wikipedia gänzlich zur vertrauenswürdigen Quelle ausbauen. Da sollten wir uns zum Beispiel die Frage stellen, ob Artikelrelikte aus der Anfangszeit, die noch völlig ohne Beleg auskommen, weiterhin einfach so stehen lassen oder wie wir diese Artikel auf den Anspruch einer vertrauenswürdigen Quelle heben.

Merci, Kevin!

Mehr dazu:

Foto: Amrei-Marie, Wikiolo 03, Bildschnitt von WMCH, CC BY-SA 4.0