主页▸数字平台和工具▸将DeepSeek投入测试：其性能如何与其他AI工具进行比较

将DeepSeek进行测试：其性能如何与其他AI工具进行比较

2025年2月5日

事实核查者 The Conversation 编辑者 Simon Thorne

中国新的DeepSeek大语言模型（LLM）破坏了美国统治的市场，以相对较高的聊天机器人模型的成本明显降低。

与美国AI工具相比，开发成本和降低的订阅价格降低了，有助于美国芯片制造商在一天内损失了6000亿美元 NVIDIA使计算机芯片用于训练大多数LLM，这是Chatgpt和其他AI聊天机器人中使用的基础技术。 DeepSeek在更昂贵的最新版本上使用了便宜的NVIDIA H800芯片。

据报道，Chatgpt开发人员Openai花费了1亿至10亿美元，开发了其最新版本的产品O1。相比之下，DeepSeek在短短两个月内完成了培训，使用了一系列巧妙的创新，耗资560万美元。

但是，DeepSeek的AI聊天机器人R1的表现如何与其他类似的AI工具相比？

DeepSeek声称其模型与OpenAI的产品相当，甚至超过了某些基准测试中的O1模型。但是，使用大量多任务语言理解（MMLU）测试的基准测试使用多项选择问题评估多个受试者的知识。许多LLM经过培训和优化此类测试，使其成为现实性能的真实指标。

对LLM的客观评估的替代方法使用了加的夫大都会，布里斯托尔和卡迪夫大学的研究人员开发的一组测试 - 统称为知识观察小组（KOG）。这些测试通过需要隐含的人类理解来回答的问题来探究LLMS模仿人类语言和知识的能力。核心测试是秘密的，以避免LLM公司培训其模型进行这些测试。

Meta的数据科学家Colin Fraser启发的公共测试，以评估针对其他LLM的DeepSeek。观察到以下结果：

用于生产此表的测试本质上是“对抗性的”。换句话说，它们被设计为“硬”，并以对其设计方式不同情的方式测试LLM。这意味着在此测试中这些模型的性能可能与它们在主流基准测试中的性能不同。

DeepSeek在6分中得分5.5，表现优于Openai的O1（其先进的推理（称为“经营链”）模型，以及Chatgpt-4O（免费版本的Chatgpt）。但是DeepSeek的表现略高于Anthropic的Claudeai和Openai的O1 Mini，两者均得分为6/6。有趣的是，O1的表现不佳与其“较小”的O1 Mini相对。

DeepThink R1（DeepSeek制造的经过深思熟虑的AI工具）的表现与DeepSeek的表现不佳，得分为3.5。

该结果表明了DeepSeek的聊天机器人已经有多多，击败了Openai的旗舰车型。对于DeepSeek来说，这可能会促进进一步的发展，而DeepSeek现在有一个坚实的基础可以建立。但是，中国科技公司确实有一个严重的问题：另一个LLMS没有：审查制度。