AI颠覆者:DeepSeek的过去、现在与未来
创始人
2025-02-05 12:52:42

DeepSeek这次的开源,让行业最领先的水平实现了平权,会加速推动AI进化的速度,给AI行业带来一股强心剂,但是仍然没有改变当前模型发展的困境。

作者 | 余智敏(上海)

监制 | 李威(北京)邵乐乐(上海)

2025年开年,AI行业迎来了一场出乎意料的「地震」——国内的DeepSeek以颠覆性姿态炸裂出圈,短短数日登顶全球应用下载榜榜首,日活用户迅速突破1500万。

中美科技界对DeepSeek进行了激烈的争论,观点交锋,有人高度认可,有人冷嘲热讽,更有人陷入恐慌。Anthropic CEO达里奥·阿莫迪万字长文呼吁进一步加强对华的芯片封锁;OpenAI CEO山姆·奥特曼罕见认错,并且承认OpenAI的领先性被削弱。不仅是科技行业,美国总统特朗普也指出DeepSeek给美国敲响了警钟。

DeepSeek到底做了什么?为何会引发全球性的轰动?DeepSeek的出现,打破了哪些行业共识?如何理解DeepSeek带来的机会以及未来的挑战?本文将会逐个探讨这些问题。

DeepSeek做了什么?

DeepSeek引发AI行业地震的前提包含三个基础事实:模型能力追平行业领先水平;在算法和工程上有核心创新;产品引发全球关注。

第一,模型能力上,R1追平行业领先水平。

关于年初发布的DeepSeek R1模型能力,相信大家已经看到足够多的信息,或者也自己体验过了,测评层面,DeepSeek R1在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1正式版。

对于大语言模型,逻辑能力和语文能力是最直观可以感受到的。Claude 3.5 Sonnet去年发布之后,这两项能力是非常突出的,个人体感是比GPT还优秀,尤其是语文能力,最近半年多最主要使用的也是Claude。

如今的DeepSeek R1在逻辑和语文能力上也是非常突出,结合外显的思考过程,给用户的冲击非常强烈。小红书上出现了大量DeepSeek的「锐评帖」、「情感贴」,因其详实全面的思考过程,被网友戏称为「最内耗的AI」。并且,DeepSeek针对法律、市场营销等专业领域的问题,也能给出全面、有洞察,甚至是让从业人员「不寒而栗」的回答。

总的来说,目前DeepSeek R1在基础能力上,明确地属于第一梯队。

第二,核心创新上,V3在算法和工程上围绕MoE进行了大胆尝试。

关于DeepSeek模型的争议有很多,R1虽然效果很亮眼,有很好地运用了强化学习的范式,但是这个算是在行业中已经被运用的方法,DeepSeek进行了很好的实践,更像是对OpenAI的o1进行复现,有不同的地方是,DeepSeek把思考的过程给用户呈现了。

DeepSeek在算法和工程方面最具创新性的突破在于MoE(混合专家模型)的规模化应用。从V2开始,DeepSeek将专家数量从传统的8或16个扩展到160个;到V3时期,更是突破性地达到256个专家数量,实现了671B参数量下仅需激活37B参数的高效运算。

MoE模型的效率优势正源于其选择性激活机制。与传统模型(如Llama)需要激活全部网络权重不同,MoE通过对计算网络进行「分类」,只激活相关专家进行运算,显著降低计算成本。类似分成8个专家,运算的时候激活1个,这样运算量就只有八分之一,剩下的7个专家都是和输入八竿子打不着的部分,没必要进行运算。

那如果MoE这么高效,为什么此前行业没有大规模运用呢?

MoE模型此前未被广泛应用的主要障碍是训练难度大,容易出现信息分类不当。DeepSeek V3通过创新性的算法和工程优化,成功突破这一限制,在保证模型效果的同时,实现了仅需激活5%参数的高效运算,开创了大规模MoE的先河。

第三,产品表现上,引发全球轰动,日活迅速超1500万。

模型能力、技术创新引发全球性讨论的同时,DeepSeek的APP也陆续在全球100多个国家登顶下载榜榜首,日活很快超过了1500万。硅谷一线风投a16z的创始人Marc Andreessen也转发了相关的对比数据,显示DeepSeek日活已经达到了ChatGPT的23%。实际上公司因为遭受了不明原因的大规模攻击,不得不暂停了海外新用户的注册,不然这个增长势头可能会更猛烈。

DeepSeek为什么能引发全球轰动?

列完这三个基础的事实,不知道大家有没有发现,DeepSeek产品表现上只是追赶到第一梯队,并不是超越当前市面上的产品,也不是底层的范式创新。要说模型能力,其实Anthropic的Claude 3.5 Sonnet真的也很能打,都半年多了,但是看数据就知道和ChatGPT的声量(日活)是完全没法比的,除了AI的从业者,外部的讨论微乎其微。

相较而言,DeepSeek的新模型发布之所以能在AI领域掀起惊涛骇浪,是因为有三点远超大家预期。

第一个远超预期的点是DeepSeek R1做到了又好又便宜。

在模型效果追平第一梯队的情况下,DeepSeek的训练成本不到600万美金,而Meta开源的Llama3-405B训练成本超6000万美元,DeepSeek用不到Meta十分之一的训练成本,实现了更好的模型表现。

在推理的API定价的层面,与能力相当的OpenAI o1模型进行对比,DeepSeek的定价约为o1的三十分之一。参考DeepSeek去年推出的V2模型,如果效果不好,但是便宜,不会引起这么大轰动;参考Anthropic的Claude 3.5 Sonnet,如果效果好,但是不便宜,也不会有这么大的轰动。

如果要给好和便宜排个序,肯定是便宜更超预期。因为好的层面,已经有GPT和Claude,其他的也在追赶。好到追平第一梯队,不能说太超预期。但是在好的基础上,还便宜这个点,是全世界没有其他团队做到的。因此给了业界极大的冲击。

至于团队是如何做到如此大幅度的降成本,重要原因是刚才提到的算法和工程的创新,MoE大胆地拓到了256个,实际运行只需要激活5%左右的参数,极大地提升了运算的效率。

第二个远超预期的点是DeepSeek做到了完全开源。

第一梯队的模型GPT和Claude都是闭源的,开源的Llama效果要比GPT和Claude逊色一些。现在DeepSeek在比肩第一梯队的情况下,还做到了开源,而且是在论文中公布了详实的模型细节。OpenAI没能做到的Open和开源,反而让来自中国的DeepSeek做到了。

第三个远超预期的点是DeepSeek的成果由中国团队做出。

一直以来都被认为是追赶者的中国公司,第一次在AI行业中站上世界舞台的中心,给到全球一个又好又便宜,还开源的大模型。而且DeepSeek的核心研究员都是中国本土培养的博士,没有海外留学的背景。

DeepSeek打破了哪些共识?

DeepSeek打破的第一个共识是:美国引领一切。

AI科技领域,美国长期以来都是创新的引领者,中国企业往往扮演跟随者的角色,更擅长技术的应用场景拓展。现在竟然有中国的团队,在AI技术领域,做出了像消费电子般的中国「智造」模型,又好又便宜,在一定程度上打破了技术创新只能在美国出现的刻板印象。

图灵奖得主LeCun也借此痛批硅谷傲慢病:患有这种病症的人认为自己所在的小圈子垄断了好想法,甚至认为其圈子以外的所有创新都是通过「作弊手段」得来的。

第二个被打破的共识是:资金密集投入,大力出奇迹,垄断市场就能获得超额收益。

DeepSeek的全球热议还带来了美股的惊天震动,英伟达单日大跌近17%,市值蒸发5950亿美元,近6000亿美元,相当于人民币4.3万亿,创美股单日跌幅最高记录。

二级市场短期是情绪的体现,大家恐慌性地抛售,原因不仅是因为DeepSeek训练成本下降,带来了芯片算力需求可能会下降的恐慌,也源自传统的美国科技资本逻辑受到的冲击。

传统逻辑是:在行业中进行密集的资金投入,寡头的几家企业获得垄断性的资金优势,进而大力出奇迹,带来技术成果后获得垄断市场的主导地位。简单来说,就是大资金、大投入、长周期带来超额回报。从互联网时代开始,到移动互联网已经多次印证了这个逻辑。

在AI的时代,由于算力成本高昂,这个逻辑更是被放大。像是最近公布的有特朗普站台的「星际之门」(Stargate)计划,由OpenAI、孙正义(SoftBank 软银掌门人)以及中东基金共同推动,宣称要在4年内投入5000亿美元,打造「全球算力中心」,想要依靠大规模投入建立算力优势。

DeepSeek的出现,给这个资本逻辑一记重拳——在AI领域大资金、大投入并不意味着一劳永逸。实现领先有可能根本不需要这么大资金的投入,抑或是这么大资金的投入之后,即使是闭源,也无法保证垄断。假如基本的逻辑开始面临挑战,逐利的资本显然需要重新思考自己的投资思路。

第三个被打破的共识是:闭源始终领先。

关于AI开源闭源领先性的讨论,其实一直争论不断。DeepSeek R1的出现,是一个巨大的变量。模型追上了闭源的OpenAI和Anthropic,而且进行了开源,为整个AI行业注入新的动力。OpenAI CEO山姆·奥特曼也罕见认错,认为OpenAI在是否开源上,站在了历史错误的一面。

关于开源闭源之争,还有两点值得关注。

AI语言模型VS传统开源技术差异:

- 技术同源而非分叉:对比Android与iOS的生态隔离,开源与闭源大模型均基于Transformer架构,差异是在数据、算法运用、工程等维度,并非是截然不同的技术路线。

- 企业主导型开源:Meta、DeepSeek、OpenAI等公司掌握开源与否的节奏,社区更多是参与者而非主导者,而传统Linux更像是社区驱动的模式。

AI多模态模型现状:

- 图像生成:开源stable diffusion相关的生态繁荣,闭源的midjourney等企业也有很好的商业化。

- 音乐生成:闭源的Suno相对领先。

- 视频生成:闭源的Runway、快手的可灵、生数科技的vidu等相对领先。

我们在讨论DeepSeek开源的时候,语境都是LLM大语言模型。但是除了语言模型,AI还有非常重要并行的领域是多模态模型。DeepSeek也在近期发布了图像模型Janus pro,但是效果一般。在多模态的领域,开源还有更长的路要走。

未来展望:机会与挑战

首先,DeepSeek会给AI应用的发展带来长期利好。

应用对基础服务的需求,从来都是「又好又快又便宜」。如果要排序,好>便宜>快。不好的东西可以不用,同样好用的产品,便宜当然是有优势,然后速度快,服务稳定。DeepSeek当前的语言模型,做到了又好又便宜。

对于现有的AI应用来说,已经接入语言模型的应用,可以替换成价格是三十分之一的API,显著降低的成本,可以更好地探索PMF(Product Market Fit),有更大的空间进行尝试。这个是第一步最直接的影响。

关于能否因此出现新的killer app,我的答案是:短期否定,长期肯定。

短期来看,AI的killer app需要的不只是PMF,在PMF之前,还有技术。技术在细分场景是不是足够好用,是killer app的必要条件。而这个和模型的能力直接挂钩,最早就有提到这次的出圈,并不是模型能力的突破,所以短期这个必要条件没有变化。

长期来看,会利好AI应用的发展。原因在于DeepSeek这次的开源,让行业最领先的水平平权了,会加速推动AI进化的速度,进而推动必要条件的成熟,带来新的应用机会。

其次,推理芯片和云服务也有望受益。

一方面,好用便宜,所以多用。会让推理的市场需求加速扩大,对应的推理芯片和配套的云服务市场也扩大。英伟达在训练芯片上的优势是更显著的,推理芯片层面相对而言,国内头部芯片代差会小一些。

另一方面,亚马逊和微软都已经接入DeepSeek,国内的百度云、腾讯云、阿里云也都已经接入。上文提到的AI应用企业,使用API的选择之一也是从云服务接入。

当然,DeepSeek在未来也会面临来自模型技术发展和地缘因素的双重挑战。

虽然这次DeepSeek给AI行业带来一股强心剂,但是没有改变是当前模型发展的困境。对于语言模型,还有类似幻觉这样的问题难以解决,可能需要更底层的范式创新才能突破;对于多模态的模型,考验就更多,图片的指令遵循效果差,细节控制差。

视频生成模型在过去半年,进展速度非常快,但是指令遵循、一致性等都还有很大空间,并且成本很高,非常需要像DeepSeek V3一样能把价格打下来的模型。

同时,DeepSeek的出现给了中国企业更大的信心去做创新性的尝试,也给美国敲响了警钟。可以预见的是,中美的科技冷战会进一步加剧。芯片的限制可能会进一步加强,中国企业的国际化也会面临比以往更大的压力。

道路难免崎岖,前行必有曙光。

在通往AGI的征程上,DeepSeek的崛起不仅打破了闭源垄断的旧秩序,更以开源民主化的方式推动重构着AI领域的竞争规则。从「美国引领」到「中国创新」,从「资本密集」到「人人可及」,从「闭源垄断」到「开放共享」,这些根本性的改变,正在塑造AI发展的新秩序。

相关内容

热门资讯

【财经早晚报】字节将禁用第三方... 今天值得关注的国内外新闻有: 1. 外交部:中国对沙特、阿曼、科威特、巴林4国试行免签 2. 工信部...
GTCFX:多元化产品组合满足... 摘要: 探索GTCFX多元化产品组合,满足您的交易需求,实现投资目标的最佳选择。立即点击了解更多,开...
上汽大众成立动力系统新公司 含... 每经AI快讯,天眼查App显示,近日,上海峰梅动力系统有限公司成立,法定代表人为李文辉,注册资本10...
惠民消费券叠加世界美酒!宁夏·... 6月9日-11日,第五届中国(宁夏)国际葡萄酒文化旅游博览会-国际葡萄酒名庄名酒展将在银川国际会展中...
基金分红:华夏合肥高新产园RE... 证券之星消息,5月28日发布《华夏基金管理有限公司关于华夏合肥高新创新产业园封闭式基础设施证券投资基...
凯辉创新基金三期完成10亿美元... 5月28日,凯辉基金正式宣布旗下凯辉创新基金三期圆满完成最终关账,基金管理规模达10亿美元,成为欧盟...
直击蓝晓科技股东大会:董事长高... 界面新闻记者 | 陈慧东 2024年,蓝晓科技(300487.SZ)营业收入25.54亿元,同比增...
总起价近20亿!深圳光明挂牌一... 粤进深 赵盼盼 5月28日,深圳光明区挂牌一宗宅地,宗地号为A509-0074,挂牌起始价19.94...
清华大学互联网产业研究院院长朱... 5月28日,由北京商报社、《中外企业文化》杂志社主办的“2025深蓝媒体智库年度论坛”在北京国际饭店...
原创 A... 昨夜的美股高歌猛进,虽然这与A股的关系不大,但是美股大型科技股的上涨跟我们多少还有些关联吧,比如说看...
原创 深... 文丨詹詹 郭小兴 编辑丨杜海 来源丨新商悟 (本文约为800字) 近期,深蓝汽车可谓连遭舆论风波。...
原创 武... 武清,已经找到了楼市“甜区”。 今年以来,大打改善牌,核心地段的改善洋房掀起一股热潮。 城投春上...
重磅活动!王涵:长期视角下的经... 上证·首席讲坛”由上海证券报和中国首席经济学家论坛共同打造,致力于搭建高端交流平台,邀请业内顶级专家...
银行行业28日主力净流出6.1... 5月28日,银行行业上涨0.28%,今日主力资金流出6.1亿元,成分股21只上涨,17只下跌。 主力...
深铁5个月四次“输血”万科近1... 金融界5月28日消息 在万科深陷债务的关键节点,已经从万科退休多年的大佬王石罕见发声,正在尝试与万科...
原创 A... 今日的A股,成交量又只有万亿成交量了,比昨日更离谱的是沪深300成交量只有1600亿,TMT赛道的成...
医疗大模型浪潮:讯飞医疗领航,... 在医疗人工智能领域,大模型的发展正迎来政策与市场的双重机遇。近日,动脉智库发布了《2025医疗大模型...
食品饮料-零食行业:鸣鸣很忙(... 今天分享的是:食品饮料-零食行业:鸣鸣很忙(02143),招股说明书梳理,零食量贩龙头,引领万亿元赛...
收评:沪指震荡跌0.18%,医... 27日,两市主要股指盘中弱势下探,深证成指、创业板指一度跌约1%,全A成交额再度萎缩。 截至收盘,沪...
刚刚,备案!万亿巨头出手 【导读】泰康稳行完成私募基金管理人备案登记,泰康人寿首期投资规模预计为120亿元 中国基金报记者 吴...
助小微企业走出融资困境 小微企业创新迭代快捷、市场反应敏锐、细分领域广泛,在推动科技创新、吸纳人员就业、丰富文化业态等方面发...
越跌越买!红利又被抢疯了 上周三$中证红利ETF(SH515080)$创了阶段新高后有些回调,一下子又被买疯了,这周一和这周二...
李彦宏念念不忘,百度电商重启在... 文/华尔街科技眼 Leon 临近6.18大促,各大平台、商家都开始了预热。网红罗永浩于5月23日...
特朗普:若加拿大成为美国第51... 当地时间5月27日,美国总统特朗普在其社交媒体平台“真实社交”上发文表示,加拿大非常希望成为美国“金...
煤炭板块午后逆势上行,国企红利... 5月28日,三大股指午后小幅走低,而国企红利板块逆势上涨。截至下午13:30,国企红利ETF(159...
比亚迪回应山东经销商“资金链断... 针对近期“比亚迪山东经销商济南乾城汽车贸易有限公司‘资金链断裂’”传闻,比亚迪集团品牌及公关处相关人...
精致时代下,国际品牌如何赢得中... 汇聚行业论坛洞察,解读前沿报告观点,提炼关键趋势,为您呈现深度思考与精准研判。 作者|Huiyan ...
重磅!牧原递交港股IPO申请,... .................. 5月27日,牧原股份向香港联交所提交上市申请。牧原股份提到,按...
东南亚消费者为何愿为猫人买单?... 在国货出海浪潮奔涌的当下,越来越多中国品牌怀揣着“品牌全球化”的野心踏浪而行。 当多数玩家困守低价红...