上周,亿万富翁兼 X 所有者埃隆·马斯克 (Elon Musk)声称,用于训练 ChatGPT 等人工智能 (AI) 模型的人类生成数据池已经耗尽。
马斯克没有引用证据来支持这一点。但近几个月来,类似的说法早期的研究表明,人类生成的数据将在两到八年内耗尽。
这主要是因为人类无法足够快地创建文本、视频和图像等新数据,以满足人工智能模型快速而巨大的需求。当真正的数据耗尽时,这将给人工智能的开发者和用户带来一个重大问题。
它将迫使科技公司更加依赖人工智能生成的数据,即“合成数据”。反过来,这可能会导致目前数亿人使用的人工智能系统不太准确和可靠,因此也不太有用。
但这并不是必然的结果。事实上,如果仔细使用和管理,合成数据可以改进人工智能模型。
真实数据的问题
科技公司依靠真实或合成的数据来构建、训练和完善生成式人工智能模型,例如 ChatGPT。这些数据的质量至关重要。糟糕的数据会导致糟糕的产出,就像在烹饪中使用低质量的原料会产生低质量的饭菜一样。
真实数据是指人类创建的文本、视频和图像。企业通过调查、实验、观察或挖掘网站和社交媒体等方式收集信息。
真实数据通常被认为是有价值的,因为它包含真实事件并捕获广泛的场景和上下文。然而,它并不完美。
例如,它可能包含拼写错误以及不一致或不相关的内容。它也可能存在严重偏见,例如,这可能导致生成式人工智能模型创建的图像仅显示某些工作中的男性或白人。
这种数据也需要花费大量的时间和精力来准备。首先,人们收集数据集,然后对它们进行标记以使它们对人工智能模型有意义。然后,他们将审查和清理这些数据,以解决任何不一致的问题,然后计算机对其进行过滤、组织和验证。
这个过程可能会占用人工智能系统开发总时间投入的 80%
但如上所述,真实数据也越来越短缺,因为人类无法足够快地生成数据来满足不断增长的人工智能需求。
合成数据的兴起
合成数据是人为创建或通过算法生成的,例如ChatGPTDALL-E生成的图像。
理论上,合成数据为训练人工智能模型提供了一种经济高效且更快的解决方案。
它还解决了隐私问题和道德问题,特别是健康数据等敏感个人信息。
重要的是,与真实数据不同,它并不短缺。事实上,它是无限的。
从这里开始,它是唯一的合成数据。
— 罗汉·保罗 (@rohanpaul_ai) 2025 年 1 月 9 日
“人类知识的累积已经在人工智能训练中耗尽了。这基本上发生在去年。”
– 埃隆pic.twitter.com/rdPzCbvdLv
合成数据的挑战
由于这些原因,科技公司越来越多地转向合成数据来训练他们的人工智能系统。研究公司 Gartner估计,到 2030 年,合成数据将成为人工智能中使用的数据的主要形式。
尽管合成数据提供了有前景的解决方案,但它也面临着挑战。
主要的担忧是,当人工智能模型过度依赖合成数据时,它们可能会“崩溃” 这意味着它们开始产生如此多的“幻觉”——一种包含虚假信息的响应——并且质量和性能下降如此之多,以至于无法使用。
例如,人工智能模型已经很难正确拼写一些单词。如果这些充满错误的数据被用来训练其他模型,那么它们也必然会复制错误。
过于简单化的风险。它可能缺乏真实数据集中的细微细节和多样性,这可能导致在其上训练的人工智能模型的输出也过于简单且不太有用。
创建强大的系统以保持人工智能准确且值得信赖
国际标准化组织或联合国国际电信联盟等国际机构和组织必须引入强大的系统来跟踪和验证人工智能训练数据,并确保这些系统可以在全球范围内实施。
人工智能系统可以跟踪元数据,允许用户或系统追踪其所训练的任何合成数据的来源和质量。这将补充全球标准的跟踪和验证系统。
人类还必须在人工智能模型的整个训练过程中保持对合成数据的监督,以确保其具有高质量。这种监督应包括定义目标、验证数据质量、确保遵守道德标准以及监控人工智能模型的性能。
有点讽刺的是,人工智能算法还可以在审计和验证数据方面发挥作用,确保人工智能从其他模型生成的输出的准确性。例如,这些算法可以将合成数据与真实数据进行比较,以识别任何错误或差异,以确保数据的一致和准确。因此,通过这种方式,合成数据可以带来更好的人工智能模型。
人工智能的未来取决于高质量的数据。合成数据将在克服数据短缺方面发挥越来越重要的作用。
然而,必须谨慎管理其使用,以保持透明度、减少错误并保护隐私——确保合成数据作为真实数据的可靠补充,保持人工智能系统的准确性和可信度。
越南皇家墨尔本理工大学计算机科学高级讲师。
本文根据知识共享许可The Conversation阅读原文。