Woche behauptete der Milliardär und Besitzer von
Musk hat keine Beweise dafür angeführt. Aber auch andere führende Persönlichkeiten der Technologiebranche haben ähnliche Behauptungen . Und frühere Untersuchungen deuteten darauf hin, dass die von Menschen erzeugten Daten innerhalb von zwei bis acht Jahren zur Neige gehen würden.
Dies liegt vor allem daran, dass Menschen nicht schnell genug neue Daten wie Texte, Videos und Bilder erstellen können, um mit den schnellen und enormen Anforderungen von KI-Modellen Schritt zu halten. Wenn echte Daten zur Neige gehen, stellt dies sowohl für Entwickler als auch für Nutzer von KI ein großes Problem dar.
Es wird Technologieunternehmen dazu zwingen, sich stärker auf von KI generierte Daten, sogenannte „synthetische Daten“, zu verlassen. Und dies wiederum könnte dazu führen, dass die KI-Systeme, die derzeit von Hunderten Millionen Menschen genutzt werden, weniger genau und zuverlässig – und damit nützlicher – sind.
Dies ist jedoch kein zwangsläufiges Ergebnis. Tatsächlich könnten synthetische Daten, wenn sie sorgfältig genutzt und verwaltet werden, KI-Modelle verbessern.
Die Probleme mit echten Daten
Technologieunternehmen sind auf Daten – echte oder synthetische – angewiesen, um generative KI-Modelle wie ChatGPT zu erstellen, zu trainieren und zu verfeinern. Die Qualität dieser Daten ist entscheidend. Schlechte Daten führen zu schlechten Ergebnissen, ebenso kann die Verwendung minderwertiger Zutaten beim Kochen zu minderwertigen Mahlzeiten führen.
Echte Daten beziehen sich auf von Menschen erstellte Texte, Videos und Bilder. Unternehmen sammeln sie durch Methoden wie Umfragen, Experimente, Beobachtungen oder das Auswerten von Websites und sozialen Medien.
Echte Daten gelten im Allgemeinen als wertvoll, da sie wahre Ereignisse umfassen und ein breites Spektrum an Szenarien und Kontexten erfassen. Allerdings ist es nicht perfekt.
Es kann beispielsweise Rechtschreibfehler und inkonsistente oder irrelevante Inhalte . Es kann auch stark voreingenommen , was beispielsweise dazu führen kann, dass generative KI-Modelle Bilder erstellen , die nur Männer oder weiße Menschen in bestimmten Berufen zeigen.
Auch die Aufbereitung dieser Art von Daten erfordert viel Zeit und Aufwand. Zunächst sammeln Menschen Datensätze, bevor sie sie kennzeichnen, um sie für ein KI-Modell aussagekräftig zu machen. Anschließend überprüfen und bereinigen sie diese Daten, um etwaige Inkonsistenzen zu beheben, bevor Computer sie filtern, organisieren und validieren.
Dieser Prozess kann bis zu 80 % des gesamten Zeitaufwands für die Entwicklung eines KI-Systems in Anspruch nehmen.
Aber wie oben erwähnt, werden reale Daten auch immer knapper, weil Menschen sie nicht schnell genug produzieren können, um die wachsende Nachfrage nach KI zu decken.
Der Aufstieg synthetischer Daten
Synthetische Daten werden künstlich erstellt oder durch Algorithmen generiert , beispielsweise von ChatGPT DALL-E generiertes Bild .
Theoretisch bieten synthetische Daten eine kostengünstige und schnellere Lösung für das Training von KI-Modellen.
Es geht auch auf Datenschutzbedenken und ethische Fragen , insbesondere bei sensiblen persönlichen Informationen wie Gesundheitsdaten.
Wichtig ist, dass sie im Gegensatz zu realen Daten nicht Mangelware sind. Tatsächlich ist es unbegrenzt.
Von hier an sind es nur noch synthetische Daten.
— Rohan Paul (@rohanpaul_ai) 9. Januar 2025
„Die Gesamtheit des menschlichen Wissens wurde im KI-Training ausgeschöpft. Das geschah im Grunde genommen letztes Jahr.“
– Elon pic.twitter.com/rdPzCbvdLv
Die Herausforderungen synthetischer Daten
Aus diesen Gründen greifen Technologieunternehmen zunehmend auf synthetische Daten zurück, um ihre KI-Systeme zu trainieren. Das Forschungsunternehmen Gartner schätzt , dass synthetische Daten bis 2030 die wichtigste Datenform in der KI sein werden.
Obwohl synthetische Daten vielversprechende Lösungen bieten, sind sie nicht ohne Herausforderungen.
Ein Hauptanliegen besteht darin, dass KI-Modelle „zusammenbrechen“ können, wenn sie sich zu sehr auf synthetische Daten verlassen. Das bedeutet, dass sie anfangen, so viele „Halluzinationen“ zu erzeugen – eine Reaktion, die falsche Informationen enthält – und so stark an Qualität und Leistung verlieren, dass sie unbrauchbar werden.
Beispielsweise haben KI-Modelle bereits Schwierigkeiten, einige Wörter richtig zu buchstabieren. Wenn diese fehlerbehafteten Daten zum Trainieren anderer Modelle verwendet werden, müssen auch diese die Fehler reproduzieren.
Inhalte unserer Partner
Bei synthetischen Daten besteht auch die Gefahr, dass sie zu einfach . Möglicherweise fehlen ihm die nuancierten Details und die Vielfalt, die in realen Datensätzen zu finden sind, was dazu führen könnte, dass die Ausgabe von darauf trainierten KI-Modellen ebenfalls zu einfach und weniger nützlich ist.
Erstellen Sie robuste Systeme, um die Genauigkeit und Vertrauenswürdigkeit der KI zu gewährleisten
Um diese Probleme anzugehen, ist es wichtig, dass internationale Gremien und Organisationen wie die Internationale Organisation für Normung oder die Internationale Fernmeldeunion robuste Systeme zur Verfolgung und Validierung von KI-Trainingsdaten einführen und sicherstellen, dass die Systeme weltweit implementiert werden können.
KI-Systeme können so ausgestattet werden, dass sie Metadaten verfolgen, sodass Benutzer oder Systeme die Herkunft und Qualität aller synthetischen Daten, auf denen sie trainiert wurden, nachverfolgen können. Dies würde ein weltweit einheitliches Tracking- und Validierungssystem ergänzen.
Der Mensch muss auch während des gesamten Trainingsprozesses eines KI-Modells die Aufsicht über synthetische Daten behalten, um sicherzustellen, dass diese von hoher Qualität sind. Diese Aufsicht sollte die Definition von Zielen, die Validierung der Datenqualität, die Sicherstellung der Einhaltung ethischer Standards und die Überwachung der Leistung von KI-Modellen umfassen.
Ironischerweise können KI-Algorithmen auch eine Rolle bei der Prüfung und Verifizierung von Daten spielen und so die Genauigkeit der KI-generierten Ergebnisse anderer Modelle sicherstellen. Diese Algorithmen können beispielsweise synthetische Daten mit echten Daten vergleichen, um etwaige Fehler oder Unstimmigkeiten zu identifizieren und sicherzustellen, dass die Daten konsistent und genau sind. Auf diese Weise könnten synthetische Daten zu besseren KI-Modellen führen.
Die Zukunft der KI hängt von qualitativ hochwertigen Daten . Synthetische Daten werden eine immer wichtigere Rolle bei der Überwindung von Datenengpässen spielen.
Ihre Verwendung muss jedoch sorgfältig verwaltet werden, um Transparenz zu wahren, Fehler zu reduzieren und die Privatsphäre zu wahren – um sicherzustellen, dass synthetische Daten als zuverlässige Ergänzung zu echten Daten dienen und KI-Systeme präzise und vertrauenswürdig bleiben.
James Jin Kang, Dozent für Informatik, RMIT University Vietnam .
Dieser Artikel wurde von The Conversation unter einer Creative Commons-Lizenz erneut veröffentlicht. Lesen Sie den Originalartikel .