Home▸数字平台和工具▸DeepSeek ：一家小型中国人工智能公司如何震撼美国技术重量级

DeepSeek：一家小型中国人工智能公司如何震撼美国技术重量级

Tongliang Liu

2025年1月28日

事实核查者 The Conversation 编辑者 Tongliang Liu

中国人工智能（AI）公司DeepSeek通过技术界向Shockwaves，并发布了极其高效的AI模型，可以与OpenAI和Anthropic等美国公司的尖端产品竞争。

DeepSeek成立于2023年，通过其竞争对手的现金和计算能力的一小部分取得了结果

DeepSeek上周发布的“推理” R1模型引起了研究人员的兴奋，投资者之间的震惊以及AI重量级人物的回应。该公司于1月28日跟进，其模型可以使用图像和文本。

DeepSeek的R1是一个令人印象深刻的模型，尤其是围绕他们能够以价格交付的方式。

显然，我们将提供更好的模型，并且拥有新的竞争对手的合法性！我们将提取一些版本。
- Sam Altman（@sama） 2025年1月28日

那么DeepSeek做了什么，它是如何做到的？

DeepSeek做了什么

12月，DeepSeek发布了V3模型。这是一个非常强大的“标准”大语言模型，其性能与OpenAI的GPT-4O和Anthropic的Claude 3.5相似。

尽管这些模型容易出现错误，有时会构成自己的事实，但他们可以执行诸如回答问题，编写论文和生成计算机代码之类的任务。在一些解决问题和数学推理的测试，它们的得分比普通人更好。

V3接受了约558万美元的培训例如，这比GPT-4便宜，开发的超过1亿美元

DeepSeek还声称已经使用了大约2,000个专业计算机芯片，特别是NVIDIA制造的H800 GPU 。这又比其他公司少得多，这些公司可能使用了多达16,000个更强大的H100芯片。

1月20日，DeepSeek发布了另一种名为R1的。这是一个所谓的“推理”模型，它试图逐步解决复杂问题。这些模型在许多需要上下文并具有多个相互关联的部分（例如阅读理解和战略计划）上似乎更好。

R1模型是V3的调整版本，并通过一种称为强化学习的技术进行了修改。去年发布的Openai的O1的水平上工作

DeepSeek还使用相同的技术制作可以在家用计算机上运行的小型开源型号的“推理”版本。

该版本引起了人们对DeepSeek的兴趣激增，推动了其V3驱动的聊天机器人应用程序，并在投资者重新评估AI行业时引发了技术股票的大规模价格崩溃在写作时，芯片制造商Nvidia的价值损失了约6000亿美元

有多深

DeepSeek的突破是提高效率：通过更少的资源获得良好的效果。尤其是，DeepSeek的开发人员开发了两种技术，这些技术可能会更广泛地采用。

第一个与称为“稀疏性”的数学思想有关。 AI模型具有许多参数，可以确定其对输入的响应（V3的响应约为6710亿），但仅将这些参数的一小部分用于任何给定输入。

但是，预测需要哪些参数并不容易。 DeepSeek使用了一种新技术来做到这一点，然后仅训练了这些参数。结果，其模型所需的培训要比常规方法要少得多。

另一个技巧与V3如何在计算机内存中存储信息有关。 DeepSeek找到了一种压缩相关数据的巧妙方法，因此更容易存储和快速访问。

DeepSeek动摇了数十亿美元的AI行业。 Robert Way/Shutterstock

这意味着什么

DeepSeek的模型和技术已根据免费MIT许可，这意味着任何人都可以下载并修改它们。

来自我们合作伙伴的内容

受众管理的Goldilocks问题：出版商如何在无法正常工作或太复杂而无法使用的技术之间吸引了

关于Rollerads出版商如何赚取60,000美元的故事

以出版商为中心的客户数据平台如何推动更好的受众参与度

对于某些AI公司而言，这可能是个坏消息，这些公司的利润可能会被免费可用，有力的模型所侵蚀 - 这对更广泛的AI研究社区来说是个好消息。

目前，许多AI研究都需要访问大量的计算资源。像我这样的研究人员在大学（或大型科技公司以外的任何地方）的研究人员的进行测试和实验的能力有限。

更有效的模型和技术改变了情况。对于我们来说，实验和开发可能会变得更加容易。

对于消费者而言，获得AI的访问也可能会更便宜。可以在用户自己的设备（例如笔记本电脑或电话）上运行更多的AI型号，而不是以订阅费用“在云中”运行。

对于已经拥有大量资源的研究人员来说，更高的效率可能会较小。目前尚不清楚DeepSeek的方法是否有助于使整体性能更好，或者只是更有效的模型。

机器学习副教授，悉尼大学

本文根据创意共享许可对话阅读原始文章。

编辑精选

内容策略

什么是内容创作者？

数字平台和工具

2024 年出版商的 8 个最佳电子邮件通讯平台

搜索引擎优化

DeepSeek：一家小型中国人工智能公司如何震撼美国技术重量级

对话

汤里安格·刘

DeepSeek做了什么

有多深

这意味着什么

什么是内容创作者？

2024 年出版商的 8 个最佳电子邮件通讯平台

2024 年 Google 新闻 SEO 指南：新闻发布商的最佳实践

DeepSeek：一家小型中国人工智能公司如何震撼美国技术重量级

对话

汤里安格·刘

DeepSeek做了什么

有多深

这意味着什么

什么是内容创作者？

2024 年出版商的 8 个最佳电子邮件通讯平台

2024 年 Google 新闻 SEO 指南：新闻发布商的最佳实践

相关帖子