Meta accusée d’utiliser des livres piratés pour entraîner son IA

En janvier 2025, des documents judiciaires ont révélé que Meta, la société mère de Facebook, aurait utilisé des versions piratées de livres protégés par le droit d’auteur pour entraîner ses modèles d’intelligence artificielle. Ces allégations, portées par un groupe d’auteurs, affirment que le PDG de Meta, Mark Zuckerberg, aurait approuvé l’utilisation de ces œuvres sans autorisation préalable… De quoi renforcer la maxime de ce dernier » Mieux vaut demander pardon que demander la permission…«
Selon les documents déposés devant un tribunal fédéral en Californie, Meta aurait téléchargé massivement des données à partir de bibliothèques numériques non officielles, notamment LibGen, Z-Library et Anna’s Archive. Ces sources contiendraient des millions de livres et d’articles piratés. Les communications internes de Meta indiquent que l’équipe d’IA de l’entreprise était consciente que ces bases de données étaient constituées de contenus piratés, mais aurait néanmoins reçu l’approbation de la direction pour les utiliser. Un message interne cite : “Après une escalade jusqu’à MZ [Mark Zuckerberg], l’équipe d’IA a été autorisée à utiliser LibGen”.
Les employés de Meta ont exprimé des inquiétudes quant aux implications légales de ces pratiques. Dans un échange interne, un ingénieur de Meta a déclaré : “Le fait de télécharger via des torrents depuis un ordinateur portable de l’entreprise ne semble pas approprié”. Ces préoccupations soulignent une prise de conscience des risques associés à l’utilisation de contenus protégés sans autorisation.
Parmi les plaignants figurent des auteurs renommés tels que Ta-Nehisi Coates et la comédienne Sarah Silverman. Ils accusent Meta d’avoir utilisé illégalement leurs œuvres pour entraîner son modèle de langage, LLaMA, sans consentement ni compensation. Les auteurs soutiennent que l’utilisation non autorisée de leurs œuvres porte atteinte à leurs droits et menace leurs moyens de subsistance.
Sans surprise, dans le climat actuel, cette affaire met en lumière les défis juridiques et éthiques liés à l’utilisation de contenus protégés pour l’entraînement des modèles d’IA. Elle soulève des questions sur les pratiques des grandes entreprises technologiques en matière de respect des droits d’auteur et pourrait avoir des répercussions significatives sur la manière dont les données sont collectées et utilisées pour le développement de l’IA. Nous y reviendrons sans doute lors du prochain Briefing Calipia.