La semaine dernière, le milliardaire et propriétaire de X, Elon Musk, a affirmé que le pool de données générées par l'homme et utilisées pour former des modèles d'intelligence artificielle (IA) tels que ChatGPT était épuisé.
Musk n’a cité aucune preuve pour étayer cela. Mais d’autres personnalités de premier plan de l’industrie technologique ont fait des déclarations similaires ces derniers mois. Et des recherches antérieures indiquaient que les données générées par l’homme seraient épuisées d’ici deux à huit ans.
Cela est dû en grande partie au fait que les humains ne peuvent pas créer de nouvelles données telles que du texte, des vidéos et des images assez rapidement pour répondre aux demandes rapides et énormes des modèles d'IA. Lorsque les données authentiques s’épuiseront, cela posera un problème majeur à la fois aux développeurs et aux utilisateurs de l’IA.
Cela obligera les entreprises technologiques à dépendre davantage des données générées par l’IA, appelées « données synthétiques ». Et cela, à son tour, pourrait conduire à ce que les systèmes d’IA actuellement utilisés par des centaines de millions de personnes soient moins précis et moins fiables – et donc moins utiles.
Mais ce n’est pas une issue inévitable. En fait, si elles sont utilisées et gérées avec soin, les données synthétiques pourraient améliorer les modèles d’IA.
Les problèmes avec les données réelles
Les entreprises technologiques dépendent de données – réelles ou synthétiques – pour créer, entraîner et affiner des modèles d’IA génératifs tels que ChatGPT. La qualité de ces données est cruciale. De mauvaises données conduisent à de mauvais résultats, de la même manière que l’utilisation d’ingrédients de mauvaise qualité en cuisine peut produire des repas de mauvaise qualité.
Les données réelles font référence aux textes, vidéos et images créés par des humains. Les entreprises les collectent via des méthodes telles que des enquêtes, des expériences, des observations ou l’exploration de sites Web et de réseaux sociaux.
Les données réelles sont généralement considérées comme précieuses car elles incluent des événements réels et capturent un large éventail de scénarios et de contextes. Cependant, ce n'est pas parfait.
Par exemple, il peut contenir des fautes d’orthographe et un contenu incohérent ou non pertinent . Cela peut également être fortement biaisé , ce qui peut, par exemple, conduire à des modèles d'IA génératifs créant des images qui ne montrent que des hommes ou des personnes blanches occupant certains emplois.
Ce type de données nécessite également beaucoup de temps et d’efforts pour se préparer. Tout d’abord, les gens collectent des ensembles de données, avant de les étiqueter pour les rendre significatifs pour un modèle d’IA. Ils examineront et nettoieront ensuite ces données pour résoudre toute incohérence, avant que les ordinateurs ne les filtrent, les organisent et les valident.
Ce processus peut prendre jusqu'à 80 % du temps total investi dans le développement d'un système d'IA.
Mais comme indiqué ci-dessus, les données réelles sont également de plus en plus rares , car les humains ne peuvent pas les produire assez rapidement pour répondre à la demande croissante en IA.
L’essor des données synthétiques
Les données synthétiques sont artificiellement créées ou générées par des algorithmes , comme du texte généré par ChatGPT ou une image générée par DALL-E .
En théorie, les données synthétiques offrent une solution rentable et plus rapide pour entraîner des modèles d’IA.
Il aborde également les problèmes de confidentialité et les questions éthiques , en particulier en ce qui concerne les informations personnelles sensibles telles que les données de santé.
Il est important de noter que contrairement aux données réelles, elles ne sont pas rares. En fait, c'est illimité.
De là, ses seules données synthétiques.
-Rohan Paul (@rohanpaul_ai) 9 janvier 2025
"La somme cumulée des connaissances humaines a été épuisée dans la formation à l'IA. Cela s'est produit en gros l'année dernière."
–Elon pic.twitter.com/rdPzCbvdLv
Les défis des données synthétiques
Pour ces raisons, les entreprises technologiques se tournent de plus en plus vers des données synthétiques pour entraîner leurs systèmes d’IA. Le cabinet de recherche Gartner estime que d’ici 2030, les données synthétiques deviendront la principale forme de données utilisée dans l’IA.
Mais même si les données synthétiques offrent des solutions prometteuses, elles ne sont pas sans défis.
L’une des principales préoccupations est que les modèles d’IA peuvent « s’effondrer » lorsqu’ils s’appuient trop sur des données synthétiques. Cela signifie qu’ils commencent à générer tellement d’« hallucinations » – une réponse contenant de fausses informations – et diminuent tellement en qualité et en performances qu’ils deviennent inutilisables.
Par exemple, les modèles d’IA ont déjà du mal à épeler correctement certains mots. Si ces données truffées d’erreurs sont utilisées pour entraîner d’autres modèles, alors eux aussi sont voués à reproduire les erreurs.
Contenu de nos partenaires
Les données synthétiques comportent également le risque d'être trop simplistes . Il peut être dépourvu des détails nuancés et de la diversité que l’on trouve dans les ensembles de données réels, ce qui pourrait rendre les résultats des modèles d’IA formés sur ce modèle trop simplistes et moins utiles.
Créer des systèmes robustes pour que l'IA reste précise et fiable
Pour résoudre ces problèmes, il est essentiel que les organismes et organisations internationaux tels que l' Organisation internationale de normalisation ou l' Union internationale des télécommunications mettent en place des systèmes robustes pour suivre et valider les données de formation à l'IA, et garantissent que ces systèmes peuvent être mis en œuvre à l'échelle mondiale.
Les systèmes d'IA peuvent être équipés pour suivre les métadonnées, permettant ainsi aux utilisateurs ou aux systèmes de retracer l'origine et la qualité de toutes les données synthétiques sur lesquelles ils ont été formés. Cela compléterait un système de suivi et de validation standard à l’échelle mondiale.
Les humains doivent également surveiller les données synthétiques tout au long du processus de formation d’un modèle d’IA pour garantir sa haute qualité. Cette surveillance devrait inclure la définition d’objectifs, la validation de la qualité des données, la garantie du respect des normes éthiques et le suivi des performances du modèle d’IA.
Ironiquement, les algorithmes d’IA peuvent également jouer un rôle dans l’audit et la vérification des données, garantissant ainsi l’exactitude des résultats générés par l’IA à partir d’autres modèles. Par exemple, ces algorithmes peuvent comparer des données synthétiques à des données réelles pour identifier toute erreur ou divergence afin de garantir la cohérence et l'exactitude des données. Ainsi, les données synthétiques pourraient conduire à de meilleurs modèles d’IA.
L'avenir de l'IA dépend de données de haute qualité . Les données synthétiques joueront un rôle de plus en plus important pour surmonter les pénuries de données.
Cependant, leur utilisation doit être soigneusement gérée pour maintenir la transparence, réduire les erreurs et préserver la confidentialité – en garantissant que les données synthétiques servent de complément fiable aux données réelles, garantissant ainsi l’exactitude et la fiabilité des systèmes d’IA.
James Jin Kang, maître de conférences en informatique, Université RMIT du Vietnam .
Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lisez l' article original .