OpenAI et Google utilisent les transcriptions de vidéos YouTube pour former leurs modèles IA, selon des rapports

SOPA Images via Getty Images

Tl;dr

  • OpenAI et Google utiliseraient des transcriptions YouTube pour entraîner leurs IA.
  • Cette pratique pourrait enfreindre les droits d’auteur des créateurs.
  • Google utiliserait aussi des vidéos YouTube pour ses propres modèles IA.
  • Google aurait modifié sa politique de confidentialité pour couvrir l’utilisation d’autres contenus publics.

La polémique autour de l’entraînement des IA

Selon un rapport du New York Times, OpenAI et Google auraient utilisé des textes transcrits de vidéos YouTube pour entraîner leurs modèles d’intelligence artificielle. Cette pratique pourrait avoir été faite aux dépens des “droits d’auteur des créateurs”, suscitant ainsi une polémique autour des méthodes employées par ces entreprises pour enrichir leurs systèmes d’IA.

OpenAI, Google… Vers un possible non-respect des politiques YouTube

Le rapport indique qu’OpenAI aurait utilisé son outil de reconnaissance vocale Whisper pour transcrire plus de un million d’heures de vidéos YouTube et entraîner son futur modèle GPT-4. Pourtant, selon une interview récente du PDG de YouTube, l’utilisation des vidéos YouTube par OpenAI pour entraîner Sora, son générateur texte-vidéo, violerait les politiques de la plateforme.

Google : un cas entre allégations et clarifications

Allant plus loin, le rapport révèle que Google, bien que connaissant cette pratique, n’aurait pas agi contre OpenAI. La raison ? Google lui-même utiliserait des vidéos YouTube pour entraîner ses propres modèles d’IA, cependant uniquement avec l’accord des créateurs, comme précisé à NYT.

Modification de la politique de confidentialité de Google

Par ailleurs, le rapport du NYT avance que Google aurait demandé en juin 2023 à une équipe de modifier sa politique de confidentialité pour étendre sa couverture à l’utilisation de contenus publics, comme Google Docs et Google Sheets, pour entraîner ses modèles d’IA. Ces changements, effectués pour plus de “clarté”, ont été publiés en juillet. Selon Google, ce type de données ne serait utilisé qu’avec la permission des utilisateurs qui s’inscrivent aux tests de fonctionnalités expérimentales de Google. Ainsi, l’entreprise affirme n’avoir pas commencé à entraîner sur des types de données supplémentaires à la suite de ce changement de langage.

Lire la source


A lire aussi