李飞飞团队50美元复现DeepSeek R1? 真相来了
创始人
2025-02-07 11:55:13

2月6日讯 今日一则关于人工智能领域的新闻引发广泛关注。

据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?

《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。

▍通义模型的“基座”作用

根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。

青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。

国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从谷歌模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。”

斯坦福s1论文原文也注明模型是以阿里通义千问模型为基础微调

谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。

国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上

“以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。 ” 谢伟迪说。

▍低成本训练大模型有局限,但也是方向

尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。

首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。

其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。

此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。

尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。

武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。

【来源:财联社】

相关内容

热门资讯

重庆A股64家上涨 新安洁再领... 5月29日,78家重庆A股上市公司中有64家上涨。 同花顺数据显示,新安洁以上涨16.95%位居第一...
明起复牌!光洋股份:终止收购银... 停牌9个交易日筹划并购后,光洋股份最终宣布终止。 今日晚间,光洋股份公告称,经交易相关方商讨研究,决...
排队IPO的潮玩公司:左侧是深... 港交所门前再添一家潮玩IP公司。 继泡泡玛特、名创优品、布鲁可、卡游四家头部企业先后登陆港股后,北京...
机构密集调研!长三角区域银行为... 地方性上市银行大获青睐。 5月29日,《国际金融报》记者梳理Wind数据发现,已有超千家机构对24家...
“电报”CEO宣布将与马斯克合... 【环球网报道 记者 李梓瑜】据“今日俄罗斯”(RT)、路透社等媒体报道,社交软件“电报”(Teleg...
拉卡拉20cm涨停,稳定币概念... 稳定币成A股、港股市场热点题材。 5月29日,A股数字货币板块表现抢眼。拉卡拉(300773.SZ)...
英伟达大动作!出货时间定了 当地时间周三,日本长期国债拍卖再次出现需求低迷的情况,加之外界持续担忧美国财政赤字飙升,美国债市也出...
英伟达 CEO 黄仁勋计划出售... IT之家 5 月 29 日消息,在周三提交的 10-Q 文件中披露显示,英伟达 CEO 黄仁勋计划出...
多次IPO无果的杰理科技 “委... 《投资者网》张伟 日前,新三板公司杰理科技(下称“公司”,874500.NQ)披露了对于在北交所首发...
李岩履新方正富邦基金董事长,原... 北京商报讯(记者 郝彦)5月29日,方正富邦基金发布公告表示,董事长何亚刚因退休原因自5月28日起离...
2025郑州跨境电商大会:外贸... 郑州5月29日电 (记者 阚力)2025郑州跨境电商大会29日在河南郑州举行,如何助力外贸产品拓内销...
港股走强,恒生科技ETF易方达... 港股走强,午后涨幅明显扩大,医药股表现突出,黄金股低开高走。截至收盘,中证港股通医药卫生综合指数上涨...
「焦点复盘」创指、深成指放量涨... 财联社5月29日讯,今日108股涨停,16股炸板,封板率为87%,尚纬股份6连板,融发核电5连板,均...
特朗普关税被法院叫停,风险资产... 蒋立冬 派生万物AI 图 特朗普关税“被叫停”后,亚洲股市应声走高。 截至5月29日收盘,日经225...
数据要素概念活跃 雄帝科技、万... 数据要素概念29日盘中走势活跃,截至发稿,雄帝科技、万马科技、天阳科技、朗新集团20%涨停,拉卡拉涨...
【投融资动态】十风科技天使+融... 证券之星消息,根据天眼查APP于5月25日公布的信息整理,十风智能科技(北京)有限公司天使+融资,融...
同学《民营经济促进法》,共绘法... 为深入贯彻落实习近平总书记在民营企业座谈会上的重要讲话精神,全面宣传贯彻《中华人民共和国民营经济促进...
全球媒体聚焦丨就像过量的药!美... 在美国的电力行业,储能电池正扮演着愈发重要的角色。它们像海绵一般,在用电低谷储存电能,在用电高峰释放...
禾赛:“全球唯一盈利”引爆激光... 当欧美激光雷达企业仍在量产亏损的泥潭中挣扎,禾赛科技用一纸财报掀开了“行业仍处于发展初期,所以规模不...
高管动向|深桑达A董事长及两名... 5月29日晚间,深桑达A(000032)发布公告称,公司董事会于近日收到公司董事长司云聪、董事谢庆华...
“微信这样回你消息的人 就别再... “微信这样回你消息的人 就别再聊了” ## 指尖上的傲慢:当微信聊天沦为权力游戏 在这个人人机不离手...
【金昌】价格、质量、包装全“体... 端午节临近,粽子、咸鸭蛋等节令食品热销。为保障节日市场秩序,营造安全消费环境,5月27日,金川区市场...
关税战非典型案例:90天不着急... 文/高歌 李力是一家贸易企业的负责人,他的公司位于华南区域,主营业务是向美国等发达经济体市场出口消费...
融资丨坦途科技完成数亿元B轮融... 近日,苏州坦途智能科技有限公司(简称“坦途科技”)完成数亿元B轮融资,追创创投持续加注。本轮融资完成...
牧原赴港二次上市!全球猪业供应... 农牧巨头“卷”海外,是最优解吗? 全文 2967 字,预计用时 3 分钟。 作者|柳萱 编辑|珀晓 ...
理想汽车:一季度净利润环比下降... 5月29日,理想汽车发布一季度财报。2025年一季度理想汽车实现营收259.3亿元,同比增长1.1%...
共享基经丨与AI一起读懂ETF... 今日,港股创新药板块表现抢眼,其实如果从今年以来的表现来看,多个与创新药相关的指数,累计涨幅已经超过...
支持旅游领域创新发展 携程设立... 【大河财立方 记者 陈薇】5月26日,由携程集团主办的Envision 2025全球合作伙伴大会在上...
理想汽车Q1财报:营收微增交付... 理想汽车近期揭晓了其2025年第一季度的财务报告,数据显示出公司在该季度的财务状况与市场表现。本季度...