
De chatgpt à bard: voilà à quoi ressemblent les bases de données utilisées pour former les ia
- Select a language for the TTS:
- French Female
- French Male
- French Canadian Female
- French Canadian Male
- Language selected: (auto detect) - FR
Play all audios:

Les modèles d’intelligence artificielle rassemblent des millions de sites web sans forcément faire le tri parmi les plus controversés, ce qui explique des réponses parfois biaisées. OpenAI
ne divulgue pas les données sur lesquelles il se base pour former les modèles de ChatGPT. Difficile donc de percer le mystère des réponses qu’il fournit et de comprendre la manière dont les
modèles d’IA se construisent. Mais pour tenter de donner une idée, le_ Washington Post_ a analysé l'ensemble de données de Google, baptisé C4 pour "Common Crawl's web crawl
corpus". Le C4 est une immense base de données regroupant 15 millions de sites web qui ont notamment été utilisés pour entraîner certaines IA comme T5 de Google et LLaMA de Facebook. A
noter, en amont, que le modèle GPT-3 de ChatGPT comprend 40 fois la quantité de données de C4. Les données de GPT-3 incluent également l'ensemble de Wikipédia en anglais, une collection
de romans gratuits d'auteurs non publiés ou encore de nombreux liens Reddit. Techniquement, pour mener son analyse, le _Washington Post_ a travaillé avec des chercheurs de l'Allen
Institute for AI et a classé les sites Web à l'aide des données de Similarweb, une société d'analyse Web. Ils ont ensuite classé les sites de manière thématique et fait apparaître
les sites les plus utilisés. DES SITES D'EXTRÊME DROITE ASSEZ UTILISÉS Ainsi, les thématiques les plus récurrentes sont le business et l'industrie, suivis de la technologie puis
des médias. Les trois sites les plus importants, toutes thématiques confondues sont Patents de Google (un moteur de recherche de brevets), Wikipedia et scribd.com (un site de partage de
documents en ligne). La moitié des 10 sites les plus importants sont par ailleurs des organes de presse. Parmi eux, le _New York Times_ ou _The Guardian_. Mais ce qui est préoccupant ce sont
les sites mentionnés un peu plus bas dans le classement, et à une place assez importante pour que ce soit souligné. Des sites comme Russia Today, affilié à l’Etat russe, Breitbart.com connu
pour ses fausses informations et proche de l'extrême droite, ou encore Vdare, un site anti-immigration associé à l'idéologie de la suprématie blanche, sont utilisés. 4chan, connu
pour son lien avec l'extrême droite, des sites proches de Qanon ou des sites complotistes sont également mentionnés dans le classement. De cette manière, l'utilisation de ces sites
pour entraîner et former des modèles l'IA pourraient les amener à propager de la désinformation et des théories complotistes, sans que l'utilisateur ne puisse remonter
jusqu'à la source de l'information surtout avec l'opacité dont fait preuve ChatGPT. DES FILTRES À AMÉLIORER Des sites religieux sont également référencés. Parmi les 20
principaux sites religieux, 14 sont chrétiens, dont "Christianity Today qui a récemment écrit qu'il conseillait aux femmes de continuer à se soumettre aux pères et maris violents
et d'éviter de les dénoncer aux autorités", note le _Washington Post._ Pour éviter que les modèles d’IA ne fournissent des réponses truffées de propos obscènes, racistes et
insultants, les Big Tech conçoivent des sortes de filtres pour améliorer la qualité des réponses. Par exemple, Google bloque ces types de contenus pour C4. Des filtres qui ont aussi des
limites: C4 élimine certains contenus LGBTQ qui ne comportent aucune offense. Un mélange des genres, qui demande à être affiné. Autre question soulevée, celle de la confidentialité des
données. La technologie est la deuxième catégorie la plus récurrente. Les réseaux sociaux comme Facebook et Twitter restent flous sur la façon dont les informations personnelles des
utilisateurs peuvent être utilisées pour former des modèles d'IA. DONNÉES ET DROITS D'AUTEUR Côté business, deux sites interpellent en ce qui concerne le respect des droits
d'auteur. Kickstarter, un site de financement participatif, et patreon.com qui aide les créateurs à percevoir des revenus grâce à leurs abonnés. Et c'est là que le bât blesse.
Kickstarter et Patreon peuvent donner à l'IA un accès aux idées proposées par les entrepreneurs et les créateurs sur ces plateformes. Actuellement, ils ne reçoivent aucune compensation
si leur travail est utilisé comme base. La question des droits d'auteurs se pose également pour des générateurs d'images comme Stable Diffusion ou MidJourney. Certaines agences de
presse ont également épinglé les entreprises technologiques pour avoir utilisé leur contenu sans autorisation. Par ailleurs, Reddit, un site communautaire, vient de signaler son
mécontentement, ce 18 avril. La plateforme est une mine d’or pour les modèles d’IA qui vont largement puiser ces ressources. Les sociétés voulant exploiter les conversations du site pour
entraîner leurs systèmes d’IA devront désormais payer pour avoir accès aux API de Reddit. Margaux Vulliet