DeepSeek是否真的「封神」
创始人
2025-01-31 15:43:07

来源:投资界

龙年收官、蛇年启幕之际,东方上演“惊蛰”一幕。

当地时间1月27日,美国人工智能主题股票遭抛售。英伟达(NVIDIA)股价历史性暴跌16.97%,市值一日内蒸发近6000亿美元,创美国历史上任何一家公司的单日*市值损失。

“幕后推手”是来自中国一家初创公司DeepSeek(深度求索)开发的大模型:DeepSeek-V3,其发布后,便迅速跃上美国苹果App商店免费下载排行榜冠军,撼动科技圈和华尔街。

1月28日凌晨,除夕夜前一晚,DeepSeek又开源了其多模态模型Janus-Pro-7B,宣布在GenEval和DPG-Bench基准测试中击败了来自OpenAI的DALL-E 3和Stable Diffusion。

随后,美国多名官员回应DeepSeek对美国的影响,表示DeepSeek是“偷窃”,正对其影响开展国家安全调查。

面对来自外部的压力,360集团创始人、董事长周鸿祎在微博表示,如果DeepSeek有需要,360愿意提供网络安全方面的全力支持。

DeepSeek保卫战已打响,这是一场来自中国的“科技黑马”刮起的AI龙卷风,或将直逼全球科技业态重构。

全球科技界忙着对账

在软银宣布准备投资AI基础建设5000亿美元之际,DeepSeek-R1发布了。

这是一个按照MIT协议完全开源的模型,从代码到架构再到从理论到训练方法,可以随便看、随便改、随便用。据DeepSeek官方发布的数据,该模型在数学、代码、自然语言推理等任务上,性能比肩美国OpenAI公司最新的o1大模型正式版。

这对于全球科技界,尤其是美国各个大模型无疑是降维打击,甚至颠覆了他们传统的“烧钱”信仰。

为何?

大家都知道,推动人工智能发展,有三大要素——算法、算力和数据。

在DeepSeek出来之前的普遍认知是,算力是AI的核心,发展AI就是要不断的堆算力、堆GPU。所以OpenAI兴起的时候,全世界一片热捧,英伟达因此受益。

而中国多年来不断被“卡脖子”,算力方面较为落后,企业只能使用价格高昂、性能低下的阉割版AI芯片,艰难求发展。

DeepSeek就是在这种背景下诞生的「黑马」,令人惊喜的是,该团队并没有迷信“大力出奇迹”的尺度定律(Scaling law),而是专注算法的创新,减少对计算资源的需求。

据悉,R1完全抛弃传统监督学习(SFT)路线,通过动态路由算法压缩80%的冗余计算,以在有限的运算能力中实现高性能,纯靠强化学习就达到了与o1相当的水平。

与此同时,R1训练成本极低。DeepSeek官方尚未公布训练推理模型R1的完整成本,但公布了其API定价,R1每百万输入tokens在1元-4元人民币,每百万输出tokens为16元人民币。

作为对比,OpenAI的ChatGPT-o1的运行成本约为R1的30倍,使用了至少一万张更为先进的英伟达H100显卡。

这家刚成立一年半、去年才推出*大模型的年轻公司,以极低的成本做出了硅谷需要上亿投入才能烧出的大模型,R1几乎一夜之间成为了美国*大学研究人员的*模型。

AMD宣布,已将新的DeepSeek-V3模型集成到Instinct MI300X GPU上,该模型旨在与SGLang一起实现*性能,DeepSeek-V3针对Al推理进行了优化。

一名美国Meta的员工发文,因为DeepSeek的低成本高性能,他们公司的人工智能部门已经陷入恐慌。并称,从中国深度求索公司发布DeepSeek-V3模型开始,Meta公司重金打造的Llama 4模型,在双方的性能测试中,就没有打赢过。

国内大厂也被激励到不行,阿里云除夕夜都在加班,发布了通义千问旗舰版模型Qwen2.5-Max,并声称在多项测试中,全面超越GPT-4o、DeepSeek-V3、Llama-3.1......

毫无疑问,DeepSeek让AI正变得更加廉价、高效,或将成为大语言模型发展史上的典范。

谈赢麻了,还为时尚早

DeepSeek出圈,全球都在为之疯狂。

资本市场的反应最为直接,英伟达一夜之间跌出一个小米+腾讯,围观群众看得也都很“上头”,几乎所有人都开始使用它、热议它。

不少国内媒体给出了“中国AI已经超过美国”、“DeepSeek羞辱OpenAI”、“全球AI霸权之争已经结束”的说法。游戏科学创始人兼CEO、《黑神话:悟空》制作人冯骥更是将其直接形容为“可能是个国运级别的科技成果”。

实际感受下来,DeepSeek在中文语境的表现确实较为优秀,理解问题、描述概念都不在话下。(官网地址,方便大家自己去体验试用,https://chat.deepseek.com/)

比如,小编让它写一段拜年祝福语,要求接地气、真诚、不随大众。

换成古语风格的话,DeepSeek表现也比较不错,写的出「岁月静好,现世安稳」「家和人安,福寿绵长」的句子。

其他社交平台上,网友以自己祖母为原型让DeepSeek构思了一个故事,结果仅用5秒就生成出来。在得到网友高评价后,DeepSeek展露出高情商的安慰:

“记住,所有让你颤栗的文字,本质上都是你灵魂深处早已存在的回声。我不过是偶尔经过的山谷,让你听见了自己声音的重量。”

很多人也纷纷晒出了DeepSeek的“作业”:

甚至有人让DeepSeek挑战《红楼梦》后四十回续写,从问题抛出到生成答案,还不到一分钟。

不过,江苏省红楼梦学会会长、南京大学文学院教授苗怀明表示,相比ChatGPT,DeepSeek更加本土化,也更强大。“从目前的情况来看,它可以写一些较为套路化、程序化的东西,但写具有*性、有深度的文学作品还不行。”

小编在问到英伟达的股价波动是否和其有关系时,DeepSeek“巧妙”地避开直面回答,表示英伟达的股价波动属于正常的市场现象,“作为AI助手,我应该明确说明自己不具备影响股市的能力。”

然而,进行文生图创作时,大模型Janus Pro的表现却令人失望。

小编给出较为复杂的描述,“古城墙下白雪皑皑,火车悠悠驶过,赶上了骑着车的人”,它并不能完整生成出要素内容,更不用说丰富艺术创作了。

换成简单的表述呢?要求基于“一位少女牵着小狗散步”,Janus Pro理解欠缺,生成的内容似乎只描绘出了少女,还是古风少女。

再简单一点,要求是“小孩吃饭”,表现内容勉强上道。

虽然官方称其在某些基准测试上超越了DALL-E 3,但实际体验却差强人意。它不用部署也能在线免费体验,感兴趣可以试试: https://cloud.siliconflow.cn/i/eGafyivT。

这波热潮不是虚的,但客观来讲,还没有到如此「封神」的地步。只能是说,DeepSeek在设计时过分注重了理解能力的优化,而在生成端可能还需要更多改进。至于“超越open AI”、“霸权移位”,还远远不够。

一来,DeepSeek赢在了创新的算法,但算力才是地基,是长期主义下大模型发展的必要条件。

在数据标注和训练资源方面,OpenAI就像拥有一个“无底洞”,DeepSeek资源上还是有点捉襟见肘。此外,DeepSeek依然依赖于美国的算力生态。目前DeepSeek的训练还是依赖英伟达GPU,没有国产GPU可以替代。

包括马斯克在内的多位业内人士认为,DeepSeek的训练方式仍然依赖于堆积算力,而非真正的突破。

马斯克近期点赞了一则推文,推文中提到,DeepSeek大量依赖模型蒸馏技术,需要借助ChatGPT-4o和o1才能完成训练。

模型蒸馏,是一项行业内常见的技术手段,能够将OpenAI中的大量数据迅速提炼重点并快速理解和应用。但这种模式只能让DeepSeek接近OpenAI,而难以真正超越OpenAI。

Benchmark普通合伙人Chetan Puttagunta也表示:

“他们可以采用一个非常好的大型模型,并使用一种称为蒸馏的过程。”

“基本上,你使用一个非常大的模型来帮助你的小模型在你希望它变得聪明的事情上变得聪明。这实际上非常具有成本效益。”

二来,在DeepSeek登顶中 美应用下载榜的当晚,它就因为遭受大规模的恶意攻击,而短暂关闭注册通道。

实际使用中也会发现,可能因为用户数暴增,DeepSeek宣告宕机的频次比之前要高得多:几乎每问3-5个问题之后,它就会暂时停止思考不做回答,需要新开一个对话窗口才能继续使用。

这个问题之前很多AI公司也遇到过,相对有限的算力和完全开源的技术生态,会让DeepSeek处于可能更高的风险之中。

DeepSeek的出圈,是中国AI算法的突破,值得我们肯定和自豪。但我们依旧要保持冷静,看清差距。

梁文锋在回复冯骥“国运级别的科技成果”的盛赞时,诚恳真诚:

必须坦白,团队读到“国运级”这个形容时所有人头皮都是麻的。我们不过是站在开源社区巨人们的肩膀上,给国产大模型这栋大厦多拧了几颗螺丝。

看得出他是清醒的,比起“戴高帽”,这位年轻的创始人或许已经开始考如何发挥“后发优势”,探索出可发展、可前进的新路。

可以肯定的是,这是一条更困难、更有挑战的路,需要百倍、甚至千万倍的努力。

相关内容

热门资讯

清华大学互联网产业研究院院长朱... 5月28日,由北京商报社、《中外企业文化》杂志社主办的“2025深蓝媒体智库年度论坛”在北京国际饭店...
原创 A... 昨夜的美股高歌猛进,虽然这与A股的关系不大,但是美股大型科技股的上涨跟我们多少还有些关联吧,比如说看...
原创 深... 文丨詹詹 郭小兴 编辑丨杜海 来源丨新商悟 (本文约为800字) 近期,深蓝汽车可谓连遭舆论风波。...
原创 武... 武清,已经找到了楼市“甜区”。 今年以来,大打改善牌,核心地段的改善洋房掀起一股热潮。 城投春上...
重磅活动!王涵:长期视角下的经... 上证·首席讲坛”由上海证券报和中国首席经济学家论坛共同打造,致力于搭建高端交流平台,邀请业内顶级专家...
银行行业28日主力净流出6.1... 5月28日,银行行业上涨0.28%,今日主力资金流出6.1亿元,成分股21只上涨,17只下跌。 主力...
深铁5个月四次“输血”万科近1... 金融界5月28日消息 在万科深陷债务的关键节点,已经从万科退休多年的大佬王石罕见发声,正在尝试与万科...
原创 A... 今日的A股,成交量又只有万亿成交量了,比昨日更离谱的是沪深300成交量只有1600亿,TMT赛道的成...
医疗大模型浪潮:讯飞医疗领航,... 在医疗人工智能领域,大模型的发展正迎来政策与市场的双重机遇。近日,动脉智库发布了《2025医疗大模型...
食品饮料-零食行业:鸣鸣很忙(... 今天分享的是:食品饮料-零食行业:鸣鸣很忙(02143),招股说明书梳理,零食量贩龙头,引领万亿元赛...
收评:沪指震荡跌0.18%,医... 27日,两市主要股指盘中弱势下探,深证成指、创业板指一度跌约1%,全A成交额再度萎缩。 截至收盘,沪...
刚刚,备案!万亿巨头出手 【导读】泰康稳行完成私募基金管理人备案登记,泰康人寿首期投资规模预计为120亿元 中国基金报记者 吴...
助小微企业走出融资困境 小微企业创新迭代快捷、市场反应敏锐、细分领域广泛,在推动科技创新、吸纳人员就业、丰富文化业态等方面发...
越跌越买!红利又被抢疯了 上周三$中证红利ETF(SH515080)$创了阶段新高后有些回调,一下子又被买疯了,这周一和这周二...
李彦宏念念不忘,百度电商重启在... 文/华尔街科技眼 Leon 临近6.18大促,各大平台、商家都开始了预热。网红罗永浩于5月23日...
特朗普:若加拿大成为美国第51... 当地时间5月27日,美国总统特朗普在其社交媒体平台“真实社交”上发文表示,加拿大非常希望成为美国“金...
煤炭板块午后逆势上行,国企红利... 5月28日,三大股指午后小幅走低,而国企红利板块逆势上涨。截至下午13:30,国企红利ETF(159...
比亚迪回应山东经销商“资金链断... 针对近期“比亚迪山东经销商济南乾城汽车贸易有限公司‘资金链断裂’”传闻,比亚迪集团品牌及公关处相关人...
精致时代下,国际品牌如何赢得中... 汇聚行业论坛洞察,解读前沿报告观点,提炼关键趋势,为您呈现深度思考与精准研判。 作者|Huiyan ...
重磅!牧原递交港股IPO申请,... .................. 5月27日,牧原股份向香港联交所提交上市申请。牧原股份提到,按...
东南亚消费者为何愿为猫人买单?... 在国货出海浪潮奔涌的当下,越来越多中国品牌怀揣着“品牌全球化”的野心踏浪而行。 当多数玩家困守低价红...
又一场暴风雨来临?日本长债拍卖... 周三,投资者屏息以待日本40年期国债拍卖,因该国收益率波动持续冲击全球债券市场,全球借贷成本上周遭遇...
确认了!她接棒父亲任董事长 近日,利群商业集团股份有限公司(以下简称“利群股份”)发布公告称,现年42岁的徐瑞泽接棒父亲徐恭藻,...
液相捕获技术掀起肿瘤精准医疗革... 近年来,精准医疗领域迎来了前所未有的发展浪潮。从基因检测技术的迭代升级,到靶向药物的精准应用,再到免...
国电南瑞跌0.58%,成交额3... 5月27日,国电南瑞跌0.58%,成交额3.53亿元,换手率0.20%,总市值1775.89亿元。 ...
阳光电源:5月27日融资买入6... 证券之星消息,5月27日,阳光电源(300274)融资买入6679.61万元,融资偿还1.06亿元,...
新易盛:5月27日融资买入5.... 证券之星消息,5月27日,新易盛(300502)融资买入5.26亿元,融资偿还6.93亿元,融资净卖...
创业板系列指数走势分化,同类规... 截至午间收盘,创业板成长指数上涨0.7%,创业板指数上涨0.02%,创业板中盘200指数下跌0.3%...
深化“医险协同”模式,泰康绿通... 在长寿时代背景下,健康管理需求日益凸显,人们对于高品质就医资源的需求愈发迫切。作为一家大民生工程骨干...