|

Meta accusée d’avoir utilisé des livres piratés pour entraîner son IA

Meta accusée d’avoir utilisé des livres piratés pour entraîner son IA

L’intelligence artificielle repose sur des bases de données massives pour améliorer ses performances et affiner ses réponses. Mais lorsque ces données proviennent de sources illégales, les entreprises peuvent se retrouver dans une situation délicate. C’est précisément ce qui arrive à Meta, accusée d’avoir utilisé des livres piratés pour l’entraînement de son IA, notamment LLaMA, son modèle de langage avancé.


Meta aurait utilisé des bases de données illégales pour son IA

Des documents judiciaires récemment révélés indiquent que Meta aurait eu recours à des bibliothèques numériques non autorisées pour alimenter son intelligence artificielle. Parmi ces sources figureraient LibGen (Library Genesis), Z-Library et Anna’s Archive, des plateformes connues pour héberger illégalement des ouvrages protégés par le droit d’auteur.

Selon la plainte déposée en justice par plusieurs auteurs, dont Sarah Silverman et Ta-Nehisi Coates, des échanges internes chez Meta prouvent que l’entreprise savait pertinemment que ces sources étaient piratées. Un mémo interne mentionne même que la décision d’utiliser ces données illégales aurait été validée après escalade auprès de Mark Zuckerberg.


Un avertissement interne ignoré chez Meta

D’après les révélations de The Guardian et Reuters, des employés de Meta avaient pourtant alerté leur hiérarchie sur le risque légal et éthique lié à l’usage de ces bases de données. Un ingénieur aurait ainsi exprimé ses doutes :

« Le téléchargement de fichiers via un torrent depuis un ordinateur professionnel de Meta ne semble pas approprié. »

D’autres messages internes montrent que des chercheurs au sein de l’équipe IA ont tenté de dissuader Meta d’utiliser ces contenus en raison de leur origine frauduleuse. Malgré ces mises en garde, l’entreprise aurait maintenu son choix, consciente que cela pourrait fragiliser ses relations avec les régulateurs.


Pourquoi Meta a-t-elle utilisé ces livres piratés ?

L’entraînement d’un modèle de langage comme LLaMA nécessite une quantité colossale de données textuelles. Les livres et articles scientifiques constituent une source précieuse de textes bien structurés, idéaux pour affiner les performances d’un modèle d’IA.

Contrairement à OpenAI ou Google, qui ont conclu des accords avec des éditeurs pour accéder à des contenus sous licence, Meta semble avoir contourné ces contraintes en s’approvisionnant auprès de plateformes illégales. Cette approche aurait permis de réduire les coûts et d’accélérer le développement de LLaMA, au détriment du respect des droits d’auteur.


Quels risques pour Meta ?

L’affaire n’en est qu’à ses débuts, mais Meta pourrait faire face à de lourdes sanctions si la justice considère que l’entreprise a enfreint le droit d’auteur. Jusqu’à présent, certaines décisions de justice ont rejoint l’argument des développeurs d’IA, estimant que l’IA ne reproduit pas directement les textes protégés.

Cependant, avec l’accumulation de preuves internes montrant que Meta savait pertinemment qu’elle utilisait des sources illicites, le dossier pourrait prendre une toute autre tournure.

Si Meta est reconnue coupable, elle pourrait être contrainte à :

  • Indemniser les auteurs et éditeurs lésés.
  • Réviser son processus d’entraînement IA pour se conformer aux exigences légales.
  • Faire face à des restrictions sur l’entraînement futur de ses modèles.

D’autre part, cette affaire relance un débat de fond sur l’utilisation des œuvres protégées et la reconnaissance des auteurs pour développer des technologies d’intelligence artificielle.

Une situation qui soulève plusieurs enjeux majeurs

La question du respect des droits d’auteur et de la juste rémunération des créateurs se pose de façon cruciale à l’ère de l’IA générative, et ce pour tous types de contenus créatifs : sites web, vidéos, musiques, textes, images. En effet, la plupart des modèles d’IA sont entraînés sur des masses considérables d’œuvres humaines, souvent sans l’accord explicite de leurs auteurs ni compensation financière adéquate.

Les enjeux majeurs :

  • La reconnaissance de la valeur créative : les œuvres originales représentent un capital culturel et créatif indispensable à l’entraînement des IA. Sans ces créations humaines de qualité, les modèles ne pourraient pas produire de nouveaux contenus pertinents.
  • L’équité économique : les créateurs, dont le travail est utilisé pour entraîner ces systèmes très lucratifs, devraient pouvoir bénéficier d’une part de la valeur générée. Un nouveau modèle de compensation équitable doit être inventé.
  • Le cadre juridique : le flou actuel autour des droits d’utilisation des œuvres pour l’entraînement des IA nécessite une clarification législative, tout en préservant l’innovation technologique.

Plusieurs pistes méritent d’être explorées : mise en place de systèmes de licences spécifiques à l’IA, création de fonds de compensation alimentés par les entreprises d’IA, développement de marketplaces permettant aux créateurs de monétiser volontairement leurs œuvres pour l’entraînement des modèles.

L’enjeu est de trouver un équilibre entre le développement de l’IA générative et la préservation d’un écosystème créatif dynamique où les auteurs sont justement reconnus et rémunérés pour leur contribution essentielle.


Un tournant pour l’avenir de l’IA ?

Les révélations autour de Meta et l’utilisation de livres piratés soulèvent des questions éthiques et légales majeures. Ce cas pourrait bien redéfinir les règles encadrant l’apprentissage des IA et forcer les entreprises du secteur à revoir leur approche en matière de sources de données.

Alors que les auteurs et les éditeurs réclament plus de transparence, les entreprises technologiques devront bientôt faire face à des régulations plus strictes pour éviter que l’intelligence artificielle ne devienne un outil hors de contrôle en matière de droit d’auteur.

Pour aller plus loin : Les sociétés d’IA résistent à l’idée de respecter le droit d’auteur


Si vous appréciez nos articles, ne manquez les prochains en vous abonnant à Cosmo Games sur Google News, vous pouvez également nous suivre sur X (ex Twitter). N'hésitez pas à partager vos réactions, commentaires ou remarques dans les commentaires, afin d'enrichir le contenu, de mieux vous comprendre et intégrer les différents points de vue. Un partage sur les réseaux sociaux nous aide également beaucoup, merci pour votre soutien !

Publications similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *