Kevin Golde: L'IA dans Wikipédia - imaginable, mais il faut des règles

Lors du Wikipedia Day à Welle7, Berne, le 27 avril 2024, le Wikipédien Kevin Golde (nom d’utilisateur Wikiolo) a figuré parmi nos intervenants sous le thème « Wikipédia et intelligence artificielle (IA) : la course au savoir libre ». Il nous a communiqué ses réponses aux questions de notre modératrice Lisa Stähli pour étoffer la documentation post-conférence.

Quel est l’état d’avancement de la collaboration avec l’IA sur Wikipédia et d’autres plateformes de connaissances, et comment est-elle destinée à évoluer à l’avenir ?

Jusqu’à présent, Wikipédia ne fait généralement pas appel à l’intelligence artificielle (IA) en elle-même. Cela tient principalement au fait que des applications telles que ChatGPT font office de chatbots (ces programmes informatiques qui permettent aux humains d’interagir avec des terminaux digitaux comme s’ils communiquaient avec une personne réelle), mais sans pour autant justifier ou prouver tel ou tel énoncé ou affirmation. En particulier pour les IA qui génèrent des images, la question est en outre de savoir si les contenus sont sous licence libre, afin que Wikipédia puisse les utiliser.

Mais il n’en est pas de même pour Wikipedia en tant que source d’IA. Les licences libres de Wikipédia en font une source remarquable de données d’entraînement (training data). Par ailleurs, il existe d’autres coopérations tout à fait officielles, comme c’est le cas pour le projet WikiGPT avec OpenAI, où ChatGPT accède directement aux contenus de Wikipédia.

Mais même aujourd’hui, de simples outils d’IA pourraient déjà s’avérer utiles dans Wikipédia, par exemple, pour peaufiner des formulations. À moyen terme, je peux imaginer qu’un outil d’IA sera à même de signaler à un·e utilisateur·rice d’éventuelles erreurs ou de trouver de(s) (meilleures) sources. Dans ce sens, il existe déjà un projet pilote avec le logiciel System Side. L’IA pourrait également rendre Wikipédia plus interactive : par exemple, en posant au·à la lecteur·rice des questions sur l’article qu’il·elle vient de lire, en reformulant dans un langage simple un article de haute volée sur les mathématiques, en résumant des articles XXL, ou encore en élaborant en un clin d’œil une série de diapositives pour une présentation.

Qui plus est, les contenus manquants dans une langue pourraient être rapidement complétés par une traduction automatique. Il est même envisageable de créer une Wikipédia centrale à partir de laquelle les informations seraient traduites dans telle ou telle langue maternelle via un outil informatique. Il pourrait s’agir de l’anglais, mais une autre langue serait probablement plus adaptée. L’essentiel est que cette Wikipédia centrale soit une langue claire et univoque, afin qu’aucun contenu ne soit perdu, simplifié ou faussé lors des processus de traduction. Je ne sais pas s’il existe déjà une langue optimale pour cela, mais sinon, il est toujours possible de développer une langue artificielle, spécialement conçue à cet effet.

À long terme, je peux imaginer qu’un outil d’IA écrive, complète et actualise lui-même des articles en se basant sur des sources. Néanmoins, la présence de personnes en arrière-plan pour vérifier l’information reste indispensable.

Mais comment éviter que des contenus générés par l’IA ne diffusent des informations erronées ?

Les applications d’apprentissage automatique (machine learning) basées uniquement sur des données ne fonctionnent jamais tout à fait comme prévu : en fin de compte, ce ne sont que des méthodes statistiques. De plus, la qualité des résultats dépend de la solidité, de l’exhaustivité et de l’impartialité des données d’entraînement. L’erreur est humaine, et de ce simple fait, un outil d’IA entraîné à partir de données humaines fera toujours des erreurs. Mais pour réduire au minimum les informations erronées, au moins pour les sources que l’on peut citer, il devrait toujours y avoir en arrière-plan des personnes qui puissent vérifier les faits et veiller à une représentation impartiale et équilibrée de ces faits. Si une telle vérification n’est pas opérée, je vois, d’une part, le risque que les outils d’IA finissent par se citer eux-mêmes si souvent qu’il n’en résulterait plus que du charabia. Un autre risque est que les informations soient transformées au profit de certains groupes de personnes. Pour éviter cela, éviter cela, il faudrait réfléchir très précisément à la question de savoir si cette technologie appartient exclusivement à un petit nombre de personnes, ou si, au contraire, en tant qu’infrastructure d’intérêt général, elle doit être mise entre les mains de la société, un peu sur le modèle de la radiodiffusion publique, comme un véritable outil démocratique.

Quelles sont les stratégies pour promouvoir un langage culturellement sensible et inclusif dans les contenus générés par l’IA ?

La tâche qui incombe aux exploitant·e·s de l’IA est de veiller à ce que les questions telles que la sensibilité culturelle et le langage inclusif ne soient pas négligées. Éventuellement, des lois ou des directives pourraient s’avérer utiles. Selon le modèle, les autorités ou, si une IA de droit public s’impose, les institutions peuvent veiller à ce que ce cadre soit respecté. Avec ChatGPT, nous voyons déjà que cet outil bloque certaines requêtes. Par exemple, lorsque vous demandez à ChatGPT quels sont les politicien·ne·s les plus imbéciles, ChatGPT ne vous crache pas une stupide liste. Par contre, si vous demandez quelles sont les personnalités politiques les plus intelligentes, ChatGPT vous sort, de fait, une liste. Il existe donc une possibilité de restreindre les modèles et les demandes types de cette manière.

Quels sont les défis éthiques posés par les contenus générés par l’IA et comment les aborder concrètement ?

Pour moi, la première question qui se pose, c’est de savoir à qui doit appartenir un outil aussi puissant et quelles en sont les règles du jeu. Nous connaissons tous cet adage : « Le savoir, c’est le pouvoir. ». Le fait que cet adage est valable tout autant dans le monde numérique, nous le voyons de manière éclatante, et ce malgré le fait que la connaissance soit librement diffusée par Wikipédia. En effet, les règles du jeu qui ont cours aujourd’hui, les voilà : les personnes qui ont suffisamment d’argent peuvent acheter presque tout, et donc faire presque tout ce qu’elles veulent avec. Cela a été illustré, récemment, avec la démonstration de force d’Elon Musk lorsqu’il a racheté Twitter, parce que moralement, cela le gênait qu’une personne démocratiquement exclue du scrutin, mais qui avait appelé à un coup d’État, se soit vu suspendre son compte Twitter. Cela montre le pouvoir que parviennent à exercer certaines personnes, uniquement grâce à leur argent, pour en tirer un profit politique.

Si l’on part du principe que grâce à un outil d’IA commercial, Wikipédia peut parvenir à connaître un destin similaire à celui de l’encyclopédie Brockhaus, parce qu’à l’avenir, la plupart des gens utiliseront l’IA plutôt que Wikipédia, je n’ose pas me figurer quelles manipulations seront alors possibles. Selon la personne qui est à la tête de cette entreprise, j’imagine que le monde démocratique, en matière de politique intérieure, devra faire face à des défis encore bien plus importants qu’actuellement.

Les bulles de filtre, elles aussi, pourraient devenir un problème encore plus important pour notre société qu’elles ne le sont aujourd’hui. Ce que l’on voit déjà dans les médias sociaux, cela pourrait encore s’accentuer si les entreprises programmaient leurs outils d’IA de manière à ce qu’elles formulent des réponses taillées sur mesure en fonction du profil des utilisateur·rice·s. Selon ce principe bien connu, « le client est roi », l’IA présenterait des réponses à des questions sur le changement climatique qui seraient totalement différentes selon qu’elles s’adresseraient à un·e fanatique de vitesse sur les autoroutes allemandes ou à un·e militant·e du mouvement Fridays for Future.

On peut aussi imaginer des lois qui interdiraient les réponses personnalisées, ce qui empêcherait la formation de ce type de bulles. Mais la question qui se pose toujours, c’est dans quelle mesure les autorités parviendraient à faire appliquer ces lois. Pour avancer sur un terrain sûr, il est donc essentiel de chercher à atteindre la plus grande transparence possible. À mon avis, le meilleur moyen d’y arriver est de créer une plateforme organisée sur la base du droit public. Grâce à une structure organisationnelle bien conçue, ce serait le meilleur moyen de prévenir toutes tentatives de manipulation.

Comment Wikipédia peut-elle utiliser les progrès de l’IA sans compromettre son intégrité en tant que source de savoir digne de confiance ?

Un problème crucial pour l’avenir de Wikipédia, selon moi, c’est que Wikipédia ne remplit pas entièrement les critères d’une source fiable. C’est pourquoi, dans la communauté, nous répétons constamment que Wikipédia n’est pas une source en soi. En effet, il arrive encore maintenant que des affirmations non fondées et souvent incorrectes soient approuvées à la hâte et diffusées, sans compter le nombre d’articles déjà anciens qui sont encore largement dépourvus d’éléments probants. D’après mon expérience, c’est précisément dans ces articles qu’il y a des erreurs de contenu, mais il ne faut pas non plus accorder une confiance aveugle aux déclarations et aux témoignages contenant des références individuelles, puisqu’il n’existe pas de procédure d’évaluation par les pairs dans Wikipédia. En outre, Wikipédia offre la possibilité d’écrire de manière anonyme. C’est ainsi que des personnes qui n’ont pas l’intention de contribuer à une encyclopédie neutre ont tout loisir de manipuler Wikipédia à leur guise, en particulier sur des thèmes mineurs.

C’est là, précisément, que l’IA me semble particulièrement prometteuse. À l’avenir, l’IA pourrait aller jusqu’à critiquer toutes erreurs, inexactitudes et autres exagérations dans tel ou tel article, pour les présenter sur la page de discussion. Ou même suggérer des preuves qui peuvent être utilisées pour étayer certaines affirmations non fondées. Mais je le répète : en dernière instance, la seule source véritablement fiable, selon moi, ce sont encore et toujours les personnes qui vérifient l’IA.

D’un autre côté, je suis bien obligé de reconnaître que si Wikipédia reste telle qu’elle est, ce n’est plus qu’une question de temps avant qu’elle soit dépassée qualitativement par un outil d’IA. Je suis certain qu’à ce moment-là, au plus tard, Wikipédia sera de l’histoire ancienne, parce que ses dernier·ère·s lecteur·rice·s, pour qui l’IA n’était pas suffisamment fiable, se détourneront de l’encyclopédie en ligne.

Comment peut-il y avoir des wikiprojets sur le long terme, si, à l’avenir, il n’y a presque plus personne pour accéder directement aux pages, participer ou faire des dons ?

À mon avis, ce risque n’est pas encore immédiat. Dans le doute, la bannière d’appel aux dons sera affichée une ou deux semaines de plus que l’année précédente et la campagne de dons atteindra finalement le même nombre de personnes. Dans la mesure où cela deviendrait effectivement un problème à moyen terme, les entreprises des plateformes qui profitent des contenus de Wikimedia se lanceraient dans des dons à large échelle afin que Wikipédia puisse continuer à exister. Mais bien évidemment, la question qui se pose, c’est de savoir si ces entreprises essaieront alors d’exercer leur influence sur Wikimedia pour la restructurer selon leurs conceptions.

Afin d’éviter cela, à mon avis, le modèle déjà cité de Wikimedia en tant qu’institution de droit public permettrait d’atteindre le but recherché pour que Wikimedia puisse se maintenir à terme. Selon le modèle choisi, les universités pourraient elles aussi participer, par exemple, à l’amélioration et à l’actualisation de Wikipédia, avec pour objectif de transmettre leur savoir. De plus, cela ouvrirait la voie vers de nouvelles options financières : par exemple, Wikimedia pourrait à l’avenir développer ou reprendre à son compte des méthodes pilotées par les données et ses propres LLMs (grands modèles de langage). Mais pour l’instant c’est difficilement réalisable pour des raisons financières.

Comment Wikimedia peut-elle donner à sa communauté la capacité de trouver sa place dans un paysage numérique en constante mutation et de s’y adapter ?

Wikimedia doit évoluer avec son temps et s’adapter à celui-ci. À la base, Wikipédia est partie de Nupedia, qui avait encore une approche commerciale. Ce qui était vraiment novateur chez Wikipédia, c’est que, contrairement à Nupedia, absolument tout le monde pouvait contribuer à alimenter l’encyclopédie en ligne, et ce, simplement, démocratiquement, sans même avoir besoin d’un compte utilisateur·rice. Bien sûr, c’était génial pour jeter les bases de l’encyclopédie, mais je doute fort que ce soit la bonne formule ad vitam æternam. Comme beaucoup de gens le savent, la confiance que le public porte à Wikipédia s’est considérablement consolidée depuis nos débuts. Cela n’est pas sorti de nulle part, mais ça s’est construit avec des règles et des critères que doit respecter un article de Wikipédia. Avec une encyclopédie qui se complète au fur et à mesure, il est donc clair qu’il devient de plus en plus difficile de faire ses débuts à titre bénévole dans Wikipédia, de sorte que malgré tous nos efforts, aujourd’hui, nous ne parvenons pratiquement plus à faire des émules.

Mais il y a très peu de nouveaux·lles venu·e·s, et tandis que le nombre d’auteur·e·s ne cesse de diminuer, il y a, par contraste, un nombre croissant de nouveaux articles à traiter, tâche qui revient essentiellement au Wikipédien classique : en règle générale, il est blanc, de sexe masculin et passablement plus âgé que moi. En conséquence, il est fréquent que Wikipédia ne parvienne pas à remplir les objectifs qu’elle s’est fixés, comme une exactitude irréprochable, tout en collant constamment à l’actualité et en garantissant une parfaite neutralité des articles. Wikimedia peut encore se maintenir parce qu’il n’y a pas encore d’alternative crédible au produit principal, à savoir Wikipédia.

D’après ce que je vois, au train où vont les choses, il me semble que ces temps bénis sont en train de changer. Maintenant que chacun·e envisage tout ce qu’il est possible de faire avec l’IA, je crois que nous devrions réfléchir sérieusement à la manière dont Wikimedia devrait poursuivre son développement. À mon avis, il faudrait commencer par tout remettre à plat, pour analyser si Wikimedia a encore de l’avenir ou si un autre modèle doit prendre la relève. Est-ce que Wikimedia et ses projets connexes doivent continuer à être un projet purement bénévole, ou alors, devons-nous intégrer aussi dans notre projet des hautes écoles, des universités et d’autres institutions d’intérêt général ? Autrement dit, une encyclopédie financée par des dons, en tant que source de savoir sur le monde entier, est-elle encore adaptée à son temps ? Ou alors, puisque Wikipédia est, à l’évidence, devenue une infrastructure d’intérêt général, n’est-elle pas en train de remplir une ?

Nous devrions également nous demander comment nous pouvons pleinement développer Wikipédia pour en faire une source fiable. Nous devrions par exemple nous demander si les anciens articles, ces vestiges qui datent de nos débuts et qui brillent par leur absence de preuves et de sources, nous devrions les laisser tels quels, ou si nous ne devrions pas plutôt les reformuler pour que ces articles puissent faire figure de source fiable.

Merci, Kevin !

Pour en savoir plus

Photo: Amrei-Marie, Wikiolo 03, Montage d’images : WMCH, CC BY-SA 4.0

Kevin Golde: L’IA dans Wikipédia – imaginable, mais il faut des règles