中国人工智能(AI)公司DeepSeek通过技术界向Shockwaves,并发布了极其高效的AI模型,可以与OpenAI和Anthropic等美国公司的尖端产品竞争。
DeepSeek成立于2023年,通过其竞争对手的现金和计算能力的一小部分取得了结果
DeepSeek上周发布的“推理” R1模型引起了研究人员的兴奋,投资者之间的震惊以及AI重量级人物的回应。该公司于1月28日跟进,其模型可以使用图像和文本。
DeepSeek的R1是一个令人印象深刻的模型,尤其是围绕他们能够以价格交付的方式。
- Sam Altman(@sama) 2025年1月28日
显然,我们将提供更好的模型,并且拥有新的竞争对手的合法性!我们将提取一些版本。
那么DeepSeek做了什么,它是如何做到的?
DeepSeek做了什么
12月,DeepSeek发布了V3模型。这是一个非常强大的“标准”大语言模型,其性能与OpenAI的GPT-4O和Anthropic的Claude 3.5相似。
尽管这些模型容易出现错误,有时会构成自己的事实,但他们可以执行诸如回答问题,编写论文和生成计算机代码之类的任务。在一些解决问题和数学推理的测试,它们的得分比普通人更好。
V3接受了约558万美元的培训例如,这比GPT-4便宜,开发的超过1亿美元
DeepSeek还声称已经使用了大约2,000个专业计算机芯片,特别是NVIDIA制造的H800 GPU 。这又比其他公司少得多,这些公司可能使用了多达16,000个更强大的H100芯片。
1月20日,DeepSeek发布了另一种名为R1的。这是一个所谓的“推理”模型,它试图逐步解决复杂问题。这些模型在许多需要上下文并具有多个相互关联的部分(例如阅读理解和战略计划)上似乎更好。
R1模型是V3的调整版本,并通过一种称为强化学习的技术进行了修改。 去年发布的Openai的O1的水平上工作
DeepSeek还使用相同的技术制作可以在家用计算机上运行的小型开源型号的“推理”版本。
该版本引起了人们对DeepSeek的兴趣激增,推动了其V3驱动的聊天机器人应用程序,并在投资者重新评估AI行业时引发了技术股票的大规模价格崩溃在写作时,芯片制造商Nvidia的价值损失了约6000亿美元
有多深
DeepSeek的突破是提高效率:通过更少的资源获得良好的效果。尤其是,DeepSeek的开发人员开发了两种技术,这些技术可能会更广泛地采用。
第一个与称为“稀疏性”的数学思想有关。 AI模型具有许多参数,可以确定其对输入的响应(V3的响应约为6710亿),但仅将这些参数的一小部分用于任何给定输入。
但是,预测需要哪些参数并不容易。 DeepSeek使用了一种新技术来做到这一点,然后仅训练了这些参数。结果,其模型所需的培训要比常规方法要少得多。
另一个技巧与V3如何在计算机内存中存储信息有关。 DeepSeek找到了一种压缩相关数据的巧妙方法,因此更容易存储和快速访问。
这意味着什么
DeepSeek的模型和技术已根据免费MIT许可,这意味着任何人都可以下载并修改它们。
对于某些AI公司而言,这可能是个坏消息,这些公司的利润可能会被免费可用,有力的模型所侵蚀 - 这对更广泛的AI研究社区来说是个好消息。
目前,许多AI研究都需要访问大量的计算资源。像我这样的研究人员在大学(或大型科技公司以外的任何地方)的研究人员的进行测试和实验的能力有限。
更有效的模型和技术改变了情况。对于我们来说,实验和开发可能会变得更加容易。
对于消费者而言,获得AI的访问也可能会更便宜。可以在用户自己的设备(例如笔记本电脑或电话)上运行更多的AI型号,而不是以订阅费用“在云中”运行。
对于已经拥有大量资源的研究人员来说,更高的效率可能会较小。目前尚不清楚DeepSeek的方法是否有助于使整体性能更好,或者只是更有效的模型。