Les entreprises de l’IA n’en ont plus assez avec internet

Google

L’intelligence artificielle (IA) n’a pas assez de l’internet à consommer. Si vous et moi nous connectons sur le web pour nous divertir, apprendre et garder le contact, les sociétés de l’IA, elles, utilisent les données pour entraîner leurs grands modèles de langage (LLM) et leur conférer de nouvelles capacités. C’est de cette manière que ChatGPT a connaissance, non seulement des informations factuelles, mais sait aussi comment façonner ses réponses : la majorité de ce qu’il “sait” est basé sur une énorme base de données du contenu du web.

Mais si les entreprises se reposent sur internet pour entraîner leurs LLM, elles ont aujourd’hui un problème : l’internet n’est pas infini, et les sociétés qui développent des IA veulent que ces dernières continuent de croître, et rapidement. Comme The Wall Street Journal le rapporte, des entreprises comme OpenAI et Google font face à cette réalité. Certaines industries estiment qu’elles n’auront plus de contenu à consommer d’ici à environ deux ans, alors que les données de grande qualité qui deviennent relativement rares et que certaines sociétés gardent leurs données loin de l’IA.

L’IA a besoin de beaucoup de données

Ne sous-estimez la quantité de données dont ces sociétés ont besoin, aujourd’hui ou dans le futur. Le chercheur Pablo Villalobos, de Epoch, indique au Wall Street Journal que OpenAI a entraîné GPT-4 avec environ 12 millions de tokens – ce sont des mots ou portions de mots que les LLM peuvent comprendre, OpenAI précise qu’un token représente environ 0,75 mot. Autrement dit, 12 millions de tokens représenteraient à peu près 9 millions de mots -. Pablo Villalobos estime que GPT-5, le prochain grand modèle d’OpenAI, devrait avoir besoin de 60 000 à 100 000 milliards pour atteindre cette croissance attendue. Cela représente entre 45 et 75 mille milliards de mots, selon le comptage d’OpenAI. Le problème ? D’après ce même chercheur, après avoir utilisé toute les données de grande qualité disponibles sur internet, il faudrait encore trouver entre 10 et 20 000 milliards de tokens, voire plus.

Et même dans ce cas, Pablo Villalobos n’est pas convaincu que cette pénurie de données n’arrivera qu’en 2028, mais d’autres ne sont pas plus optimistes, notamment les sociétés d’IA. Elles cherchent déjà des alternatives aux données du web pour entraîner leurs modèles.

Le problème de la donnée pour l’IA

Il y a, bien sûr, des problèmes à résoudre. Tout d’abord, la pénurie de données en elle-même : il n’est pas possible d’entraîner un LLM sans données, et des modèles géants comme GPT et Gemini ont besoin d’énormément de données. Ensuite, la qualité des données. Les sociétés ne récupèrent pas n’importe quelle donnée du web, parce qu’il y a énormément de grand n’importe quoi sur internet. OpenAI n’a aucune envie de voir de fausses informations ou du contenu mal écrit entrer dans GPT, dans la mesure où son objectif reste de créer un LLM capable de répondre de manière précise aux prompts des utilisateurs. (Nous avons déjà pu voir nombre d’exemples d’IA proposant de fausses informations.) Filtrer ce contenu laisse moins d’options.

Enfin, il y a la question de l’éthique à écumer internet pour récupérer du contenu. Que vous le sachiez ou non, les sociétés de l’IA ont déjà probablement récupéré vos données et les ont utilisées pour entraîner leurs LLM. Ces entreprises n’ont que faire de votre vie privée, elles veulent seulement les données. Si elles le peuvent, elles les prennent. C’est une affaire très importante : Reddit vend vos contenus à des sociétés de l’IA, au cas où vous ne le sauriez pas. Certains luttent contre cela – le New York Times attaque OpenAI en justice à ce sujet -, mais tant qu’il n’y aura de réelles protections légales des utilisateurs, vos données internet publiques finissent sur un LLM.

Alors, où les sociétés cherchent-elles de nouvelles données ? OpenAI mène la danse. Pour GPT-5, l’entreprise envisage d’entraîner son modèle sur les transcriptions de vidéos publiques, comme celles récupérées sur YouTube, via son outil Whisper. (Il est déjà probable qu’elle ait déjà utilisé les vidéos elles-mêmes pour Sora, son IA génératrice de vidéos.) OpenAI travaille aussi à développer de plus petits modèles pour des domaines particuliers, ainsi qu’à concevoir un système qui paierait les fournisseurs de données selon la qualité de ces données.

Les données synthétiques sont-elles la réponse ?

La prochaine étape la plus controversée est peut-être que les entreprises envisagent d’utiliser des données synthétiques pour entraîner leurs modèles. Les données synthétiques sont simplement des données générées par un ensemble de données existant : l’idée est de créer un nouvel ensemble de données qui ressemble à l’original, mais qui est totalement nouveau. En théorie, cela peut servir à masquer les contenus des jeux de données originaux, tout en donnant à un LLM un jeu de données similaires sur lequel s’entraîner.

En pratique, cependant, entraîner des LLM sur des données synthétiques pourrait conduire à un “effondrement du modèle”. Ceci parce que les données synthétiques contiennent des schémas existants dans son jeu de données originales. Une fois qu’un LLM est entraîné sur les mêmes schémas, il ne peut plus avancer, et il peut même oublier certains éléments importants. Avec le temps, les modèles IA retourneront les mêmes résultats, puisqu’ils n’ont pas de données d’entraînement suffisamment variées pour leur permettre des réponses uniques. Cela tue l’intérêt d’outils comme ChatGPT et rend caduque l’idée même d’utiliser des données synthétiques.

Quoi qu’il en soit, les sociétés de l’IA sont optimistes au sujet de ces données synthétiques, jusqu’à un certain point tout du moins. Anthropic comme OpenAI voient une possibilité pour cette technologie dans leurs données d’entraînement. Si ces dernières peuvent trouver un moyen d’implémenter des données synthétiques dans leurs modèles sans que tout s’écroule, tant mieux. À suivre !

Lire la source


A lire aussi