De chatgpt à bard: voilà à quoi ressemblent les bases de données utilisées pour former les ia

Bfmtv

Select a language for the TTS:
French Female
French Male
French Canadian Female
French Canadian Male
Language selected: (auto detect) - FR

Play all audios:

Les modèles d’intelligence artificielle rassemblent des millions de sites web sans forcément faire le tri parmi les plus controversés, ce qui explique des réponses parfois biaisées. OpenAI

ne divulgue pas les données sur lesquelles il se base pour former les modèles de ChatGPT. Difficile donc de percer le mystère des réponses qu’il fournit et de comprendre la manière dont les

modèles d’IA se construisent. Mais pour tenter de donner une idée, le_ Washington Post_ a analysé l'ensemble de données de Google, baptisé C4 pour "Common Crawl's web crawl

corpus". Le C4 est une immense base de données regroupant 15 millions de sites web qui ont notamment été utilisés pour entraîner certaines IA comme T5 de Google et LLaMA de Facebook. A

noter, en amont, que le modèle GPT-3 de ChatGPT comprend 40 fois la quantité de données de C4. Les données de GPT-3 incluent également l'ensemble de Wikipédia en anglais, une collection

de romans gratuits d'auteurs non publiés ou encore de nombreux liens Reddit. Techniquement, pour mener son analyse, le _Washington Post_ a travaillé avec des chercheurs de l'Allen

Institute for AI et a classé les sites Web à l'aide des données de Similarweb, une société d'analyse Web. Ils ont ensuite classé les sites de manière thématique et fait apparaître

les sites les plus utilisés. DES SITES D'EXTRÊME DROITE ASSEZ UTILISÉS Ainsi, les thématiques les plus récurrentes sont le business et l'industrie, suivis de la technologie puis

des médias. Les trois sites les plus importants, toutes thématiques confondues sont Patents de Google (un moteur de recherche de brevets), Wikipedia et scribd.com (un site de partage de

documents en ligne). La moitié des 10 sites les plus importants sont par ailleurs des organes de presse. Parmi eux, le _New York Times_ ou _The Guardian_. Mais ce qui est préoccupant ce sont

les sites mentionnés un peu plus bas dans le classement, et à une place assez importante pour que ce soit souligné. Des sites comme Russia Today, affilié à l’Etat russe, Breitbart.com connu

pour ses fausses informations et proche de l'extrême droite, ou encore Vdare, un site anti-immigration associé à l'idéologie de la suprématie blanche, sont utilisés. 4chan, connu

pour son lien avec l'extrême droite, des sites proches de Qanon ou des sites complotistes sont également mentionnés dans le classement. De cette manière, l'utilisation de ces sites

pour entraîner et former des modèles l'IA pourraient les amener à propager de la désinformation et des théories complotistes, sans que l'utilisateur ne puisse remonter

jusqu'à la source de l'information surtout avec l'opacité dont fait preuve ChatGPT. DES FILTRES À AMÉLIORER Des sites religieux sont également référencés. Parmi les 20

principaux sites religieux, 14 sont chrétiens, dont "Christianity Today qui a récemment écrit qu'il conseillait aux femmes de continuer à se soumettre aux pères et maris violents

et d'éviter de les dénoncer aux autorités", note le _Washington Post._ Pour éviter que les modèles d’IA ne fournissent des réponses truffées de propos obscènes, racistes et

insultants, les Big Tech conçoivent des sortes de filtres pour améliorer la qualité des réponses. Par exemple, Google bloque ces types de contenus pour C4. Des filtres qui ont aussi des

limites: C4 élimine certains contenus LGBTQ qui ne comportent aucune offense. Un mélange des genres, qui demande à être affiné. Autre question soulevée, celle de la confidentialité des

données. La technologie est la deuxième catégorie la plus récurrente. Les réseaux sociaux comme Facebook et Twitter restent flous sur la façon dont les informations personnelles des

utilisateurs peuvent être utilisées pour former des modèles d'IA. DONNÉES ET DROITS D'AUTEUR Côté business, deux sites interpellent en ce qui concerne le respect des droits

d'auteur. Kickstarter, un site de financement participatif, et patreon.com qui aide les créateurs à percevoir des revenus grâce à leurs abonnés. Et c'est là que le bât blesse.

Kickstarter et Patreon peuvent donner à l'IA un accès aux idées proposées par les entrepreneurs et les créateurs sur ces plateformes. Actuellement, ils ne reçoivent aucune compensation

si leur travail est utilisé comme base. La question des droits d'auteurs se pose également pour des générateurs d'images comme Stable Diffusion ou MidJourney. Certaines agences de

presse ont également épinglé les entreprises technologiques pour avoir utilisé leur contenu sans autorisation. Par ailleurs, Reddit, un site communautaire, vient de signaler son

mécontentement, ce 18 avril. La plateforme est une mine d’or pour les modèles d’IA qui vont largement puiser ces ressources. Les sociétés voulant exploiter les conversations du site pour

entraîner leurs systèmes d’IA devront désormais payer pour avoir accès aux API de Reddit. Margaux Vulliet

Anne-sophie mignaux : biographie et actualités

Assez méconnue du grand public, Anne-Sophie Mignaux file pourtant le parfait amour avec le chanteur K. Maro depuis de no...

«Le mythe de la gratuité». La chronique d’Olivier Babeau - l'Opinion

l'Opinion La Une WSJ Patrimoine Week-end Vidéos Le Journal Le Fil Menu Evènements Newsletters Le Journal Le Fil Recherch...

Photos – cannes 2023 : elsa zylberstein ose la robe transparente et dévoile sa taille nue

Ce mardi 16 mai, la 76ÈME ÉDITION DU FESTIVAL DE CANNES a débuté. Projections, photocalls et tapis rouge sont au program...

Qu'entendons-nous par "référencement au catalogue Mon espace santé" ? | Agence du Numérique en Santé

Accueil Qu'entendons-nous par "référencement au catalogue Mon espace santé" ? Qu'entendons-nous par "référencement au ca...

ghenim Archives - Marsactu

menu Rechercher Je me connecte × je me connecteje m'abonne LE JOURNAL Thématiques Politique Économie Social Justice Envi...

Corée du sud: le nouveau président souhaite le «dialogue et la coopération» avec la corée du nord

Publicité Le nouveau président sud-coréen, Lee Jae-myung, s'est engagé mercredi 3 juin à renouer le _«dialogue»_ av...