AI颠覆者：DeepSeek的过去、现在与未来_办公动态

AI颠覆者：DeepSeek的过去、现在与未来

创始人

2025-02-05 12:52:42

DeepSeek这次的开源，让行业最领先的水平实现了平权，会加速推动AI进化的速度，给AI行业带来一股强心剂，但是仍然没有改变当前模型发展的困境。

作者 | 余智敏（上海）

监制 | 李威（北京）邵乐乐（上海）

2025年开年，AI行业迎来了一场出乎意料的「地震」——国内的DeepSeek以颠覆性姿态炸裂出圈，短短数日登顶全球应用下载榜榜首，日活用户迅速突破1500万。

中美科技界对DeepSeek进行了激烈的争论，观点交锋，有人高度认可，有人冷嘲热讽，更有人陷入恐慌。Anthropic CEO达里奥·阿莫迪万字长文呼吁进一步加强对华的芯片封锁；OpenAI CEO山姆·奥特曼罕见认错，并且承认OpenAI的领先性被削弱。不仅是科技行业，美国总统特朗普也指出DeepSeek给美国敲响了警钟。

DeepSeek到底做了什么？为何会引发全球性的轰动？DeepSeek的出现，打破了哪些行业共识？如何理解DeepSeek带来的机会以及未来的挑战？本文将会逐个探讨这些问题。

DeepSeek做了什么？

DeepSeek引发AI行业地震的前提包含三个基础事实：模型能力追平行业领先水平；在算法和工程上有核心创新；产品引发全球关注。

第一，模型能力上，R1追平行业领先水平。

关于年初发布的DeepSeek R1模型能力，相信大家已经看到足够多的信息，或者也自己体验过了，测评层面，DeepSeek R1在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1正式版。

对于大语言模型，逻辑能力和语文能力是最直观可以感受到的。Claude 3.5 Sonnet去年发布之后，这两项能力是非常突出的，个人体感是比GPT还优秀，尤其是语文能力，最近半年多最主要使用的也是Claude。

如今的DeepSeek R1在逻辑和语文能力上也是非常突出，结合外显的思考过程，给用户的冲击非常强烈。小红书上出现了大量DeepSeek的「锐评帖」、「情感贴」，因其详实全面的思考过程，被网友戏称为「最内耗的AI」。并且，DeepSeek针对法律、市场营销等专业领域的问题，也能给出全面、有洞察，甚至是让从业人员「不寒而栗」的回答。

总的来说，目前DeepSeek R1在基础能力上，明确地属于第一梯队。

第二，核心创新上，V3在算法和工程上围绕MoE进行了大胆尝试。

关于DeepSeek模型的争议有很多，R1虽然效果很亮眼，有很好地运用了强化学习的范式，但是这个算是在行业中已经被运用的方法，DeepSeek进行了很好的实践，更像是对OpenAI的o1进行复现，有不同的地方是，DeepSeek把思考的过程给用户呈现了。

DeepSeek在算法和工程方面最具创新性的突破在于MoE（混合专家模型）的规模化应用。从V2开始，DeepSeek将专家数量从传统的8或16个扩展到160个；到V3时期，更是突破性地达到256个专家数量，实现了671B参数量下仅需激活37B参数的高效运算。

MoE模型的效率优势正源于其选择性激活机制。与传统模型（如Llama）需要激活全部网络权重不同，MoE通过对计算网络进行「分类」，只激活相关专家进行运算，显著降低计算成本。类似分成8个专家，运算的时候激活1个，这样运算量就只有八分之一，剩下的7个专家都是和输入八竿子打不着的部分，没必要进行运算。

那如果MoE这么高效，为什么此前行业没有大规模运用呢？

MoE模型此前未被广泛应用的主要障碍是训练难度大，容易出现信息分类不当。DeepSeek V3通过创新性的算法和工程优化，成功突破这一限制，在保证模型效果的同时，实现了仅需激活5%参数的高效运算，开创了大规模MoE的先河。

第三，产品表现上，引发全球轰动，日活迅速超1500万。

模型能力、技术创新引发全球性讨论的同时，DeepSeek的APP也陆续在全球100多个国家登顶下载榜榜首，日活很快超过了1500万。硅谷一线风投a16z的创始人Marc Andreessen也转发了相关的对比数据，显示DeepSeek日活已经达到了ChatGPT的23%。实际上公司因为遭受了不明原因的大规模攻击，不得不暂停了海外新用户的注册，不然这个增长势头可能会更猛烈。

DeepSeek为什么能引发全球轰动？

列完这三个基础的事实，不知道大家有没有发现，DeepSeek产品表现上只是追赶到第一梯队，并不是超越当前市面上的产品，也不是底层的范式创新。要说模型能力，其实Anthropic的Claude 3.5 Sonnet真的也很能打，都半年多了，但是看数据就知道和ChatGPT的声量（日活）是完全没法比的，除了AI的从业者，外部的讨论微乎其微。

相较而言，DeepSeek的新模型发布之所以能在AI领域掀起惊涛骇浪，是因为有三点远超大家预期。

第一个远超预期的点是DeepSeek R1做到了又好又便宜。

在模型效果追平第一梯队的情况下，DeepSeek的训练成本不到600万美金，而Meta开源的Llama3-405B训练成本超6000万美元，DeepSeek用不到Meta十分之一的训练成本，实现了更好的模型表现。

在推理的API定价的层面，与能力相当的OpenAI o1模型进行对比，DeepSeek的定价约为o1的三十分之一。参考DeepSeek去年推出的V2模型，如果效果不好，但是便宜，不会引起这么大轰动；参考Anthropic的Claude 3.5 Sonnet，如果效果好，但是不便宜，也不会有这么大的轰动。

如果要给好和便宜排个序，肯定是便宜更超预期。因为好的层面，已经有GPT和Claude，其他的也在追赶。好到追平第一梯队，不能说太超预期。但是在好的基础上，还便宜这个点，是全世界没有其他团队做到的。因此给了业界极大的冲击。

至于团队是如何做到如此大幅度的降成本，重要原因是刚才提到的算法和工程的创新，MoE大胆地拓到了256个，实际运行只需要激活5%左右的参数，极大地提升了运算的效率。

第二个远超预期的点是DeepSeek做到了完全开源。

第一梯队的模型GPT和Claude都是闭源的，开源的Llama效果要比GPT和Claude逊色一些。现在DeepSeek在比肩第一梯队的情况下，还做到了开源，而且是在论文中公布了详实的模型细节。OpenAI没能做到的Open和开源，反而让来自中国的DeepSeek做到了。

第三个远超预期的点是DeepSeek的成果由中国团队做出。

一直以来都被认为是追赶者的中国公司，第一次在AI行业中站上世界舞台的中心，给到全球一个又好又便宜，还开源的大模型。而且DeepSeek的核心研究员都是中国本土培养的博士，没有海外留学的背景。

DeepSeek打破了哪些共识？

DeepSeek打破的第一个共识是：美国引领一切。

AI科技领域，美国长期以来都是创新的引领者，中国企业往往扮演跟随者的角色，更擅长技术的应用场景拓展。现在竟然有中国的团队，在AI技术领域，做出了像消费电子般的中国「智造」模型，又好又便宜，在一定程度上打破了技术创新只能在美国出现的刻板印象。

图灵奖得主LeCun也借此痛批硅谷傲慢病：患有这种病症的人认为自己所在的小圈子垄断了好想法，甚至认为其圈子以外的所有创新都是通过「作弊手段」得来的。

第二个被打破的共识是：资金密集投入，大力出奇迹，垄断市场就能获得超额收益。

DeepSeek的全球热议还带来了美股的惊天震动，英伟达单日大跌近17%，市值蒸发5950亿美元，近6000亿美元，相当于人民币4.3万亿，创美股单日跌幅最高记录。

二级市场短期是情绪的体现，大家恐慌性地抛售，原因不仅是因为DeepSeek训练成本下降，带来了芯片算力需求可能会下降的恐慌，也源自传统的美国科技资本逻辑受到的冲击。

传统逻辑是：在行业中进行密集的资金投入，寡头的几家企业获得垄断性的资金优势，进而大力出奇迹，带来技术成果后获得垄断市场的主导地位。简单来说，就是大资金、大投入、长周期带来超额回报。从互联网时代开始，到移动互联网已经多次印证了这个逻辑。

在AI的时代，由于算力成本高昂，这个逻辑更是被放大。像是最近公布的有特朗普站台的「星际之门」（Stargate）计划，由OpenAI、孙正义（SoftBank 软银掌门人）以及中东基金共同推动，宣称要在4年内投入5000亿美元，打造「全球算力中心」，想要依靠大规模投入建立算力优势。

DeepSeek的出现，给这个资本逻辑一记重拳——在AI领域大资金、大投入并不意味着一劳永逸。实现领先有可能根本不需要这么大资金的投入，抑或是这么大资金的投入之后，即使是闭源，也无法保证垄断。假如基本的逻辑开始面临挑战，逐利的资本显然需要重新思考自己的投资思路。

第三个被打破的共识是：闭源始终领先。

关于AI开源闭源领先性的讨论，其实一直争论不断。DeepSeek R1的出现，是一个巨大的变量。模型追上了闭源的OpenAI和Anthropic，而且进行了开源，为整个AI行业注入新的动力。OpenAI CEO山姆·奥特曼也罕见认错，认为OpenAI在是否开源上，站在了历史错误的一面。

关于开源闭源之争，还有两点值得关注。

AI语言模型VS传统开源技术差异：

- 技术同源而非分叉：对比Android与iOS的生态隔离，开源与闭源大模型均基于Transformer架构，差异是在数据、算法运用、工程等维度，并非是截然不同的技术路线。

- 企业主导型开源：Meta、DeepSeek、OpenAI等公司掌握开源与否的节奏，社区更多是参与者而非主导者，而传统Linux更像是社区驱动的模式。

AI多模态模型现状：

- 图像生成：开源stable diffusion相关的生态繁荣，闭源的midjourney等企业也有很好的商业化。

- 音乐生成：闭源的Suno相对领先。

- 视频生成：闭源的Runway、快手的可灵、生数科技的vidu等相对领先。

我们在讨论DeepSeek开源的时候，语境都是LLM大语言模型。但是除了语言模型，AI还有非常重要并行的领域是多模态模型。DeepSeek也在近期发布了图像模型Janus pro，但是效果一般。在多模态的领域，开源还有更长的路要走。

未来展望：机会与挑战

首先，DeepSeek会给AI应用的发展带来长期利好。

应用对基础服务的需求，从来都是「又好又快又便宜」。如果要排序，好＞便宜＞快。不好的东西可以不用，同样好用的产品，便宜当然是有优势，然后速度快，服务稳定。DeepSeek当前的语言模型，做到了又好又便宜。

对于现有的AI应用来说，已经接入语言模型的应用，可以替换成价格是三十分之一的API，显著降低的成本，可以更好地探索PMF（Product Market Fit），有更大的空间进行尝试。这个是第一步最直接的影响。

关于能否因此出现新的killer app，我的答案是：短期否定，长期肯定。

短期来看，AI的killer app需要的不只是PMF，在PMF之前，还有技术。技术在细分场景是不是足够好用，是killer app的必要条件。而这个和模型的能力直接挂钩，最早就有提到这次的出圈，并不是模型能力的突破，所以短期这个必要条件没有变化。

长期来看，会利好AI应用的发展。原因在于DeepSeek这次的开源，让行业最领先的水平平权了，会加速推动AI进化的速度，进而推动必要条件的成熟，带来新的应用机会。

其次，推理芯片和云服务也有望受益。

一方面，好用便宜，所以多用。会让推理的市场需求加速扩大，对应的推理芯片和配套的云服务市场也扩大。英伟达在训练芯片上的优势是更显著的，推理芯片层面相对而言，国内头部芯片代差会小一些。

另一方面，亚马逊和微软都已经接入DeepSeek，国内的百度云、腾讯云、阿里云也都已经接入。上文提到的AI应用企业，使用API的选择之一也是从云服务接入。

当然，DeepSeek在未来也会面临来自模型技术发展和地缘因素的双重挑战。

虽然这次DeepSeek给AI行业带来一股强心剂，但是没有改变是当前模型发展的困境。对于语言模型，还有类似幻觉这样的问题难以解决，可能需要更底层的范式创新才能突破；对于多模态的模型，考验就更多，图片的指令遵循效果差，细节控制差。

视频生成模型在过去半年，进展速度非常快，但是指令遵循、一致性等都还有很大空间，并且成本很高，非常需要像DeepSeek V3一样能把价格打下来的模型。

同时，DeepSeek的出现给了中国企业更大的信心去做创新性的尝试，也给美国敲响了警钟。可以预见的是，中美的科技冷战会进一步加剧。芯片的限制可能会进一步加强，中国企业的国际化也会面临比以往更大的压力。

道路难免崎岖，前行必有曙光。

在通往AGI的征程上，DeepSeek的崛起不仅打破了闭源垄断的旧秩序，更以开源民主化的方式推动重构着AI领域的竞争规则。从「美国引领」到「中国创新」，从「资本密集」到「人人可及」，从「闭源垄断」到「开放共享」，这些根本性的改变，正在塑造AI发展的新秩序。

上一篇：A股午评：节后首日指数涨跌不一，创业板指涨0.5%沪指跌0.36%，DeepSeek、AI算力概念大涨！超3600股上涨，成交额8721亿放量1321亿

下一篇：古茗即将登陆港股，奶茶第三股出世

AI颠覆者：DeepSeek的过去、现在与未来

相关内容

热门资讯