在马斯克和奥特曼比谁喊的响的时候,DeepSeek低调发论文,梁文锋亲自参与
创始人
2025-02-18 21:35:04

当马斯克高调推出、Sam Altman在开源策略上反复权衡之际,DeepSeek悄然发布了一项可能改变游戏规则的技术。

18日,DeepSeek CEO公布了一项由梁文锋亲自参与的研究论文成果——原生稀疏注意力(Native Sparse Attention, NSA)机制。这是DeepSeek团队在稀疏注意力领域的创新性工作,结合了算法创新和硬件优化,旨在解决长上下文建模中的计算瓶颈。

DeepSeek论文显示,NSA不仅将大语言模型处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现性能反超传统全注意力模型。在全球AI竞赛转向"硬核创新"的当口,这家低调的中国公司展示了技术破局的新范式。

值得注意的是,NSA尚未应用于DeepSeek V3的训练中。这意味着,如果后续DeepSeek将NSA整合到模型训练中,其基座模型的能力有望实现显著提升。论文中明确指出:“使用NSA预训练的模型超过了全注意力模型”。

与DeepSeek形成鲜明对比的是,xAI选择了另一条道路:对工程规模的极致追求。今日马斯克发布的Grok3使用了20万块GPU集群,而未来的Grok4更是计划使用百万块GPU、1.2GW的集群。这种“财大气粗”的做法,体现了北美在AI领域一贯的“大力出奇迹”风格。

稀疏注意力:DeepSeek NSA的创新之道

“AI革命”狂飙突进,长文本建模在AI领域的重要性日益凸显。OpenAI的o-series模型、DeepSeek-R1以及Google Gemini 1.5 Pro等,都展示了处理超长文本的强大潜力。

然而,传统Attention机制的计算复杂度随序列长度呈平方级增长,成为制约大语言模型(LLM)发展的关键瓶颈。

稀疏注意力机制被认为是解决这一难题的希望所在。DeepSeek今日提出的NSA机制,正对去年5月MLA(Multi-Layer Attention)工作的补充。NSA的核心在于将算法创新与硬件优化相结合,实现了高效的长文本建模。

  • 动态分层稀疏策略:结合粗粒度Token压缩和细粒度Token选择,兼顾全局上下文感知和局部信息精确性。
  • 算术强度平衡的设计:针对现代硬件进行优化,显著提升计算速度。
  • 端到端可训练:支持端到端训练,减少预训练计算量,同时保持模型性能。

NSA的核心组件:三位一体,逐层优化

科技自媒体分析,NSA架构采用了分层Token建模,通过三个并行的注意力分支处理输入序列:

  1. 压缩注意力(Compressed Attention):通过压缩Token块来捕获全局信息,处理粗粒度的模式。
  2. 选择注意力(Selected Attention):处理重要的Token块,选择性地保留细粒度的信息。
  3. 滑动窗口注意力(Sliding Window Attention):处理局部上下文信息。

这三个分支的输出通过一个门控机制进行聚合。为了最大化效率,NSA还专门设计了硬件优化的Kernel。

具体而言,NSA在Token Compression部分,基于block粒度进行压缩计算,并插入位置信息编码。在Token Selection部分,则巧妙地借用Compression的注意力分数作为block的重要性分数,进行top-N选择,以保留关键的细粒度信息。Sliding Window部分则负责处理局部上下文。最后,通过Gating函数综合三种注意力的输出。

实验结果:性能与效率的双重飞跃

根据DeepSeek发布的实验数据,NSA技术在多个方面展现出卓越表现。

在通用基准测试、长文本任务和指令推理方面,使用NSA预训练的模型性能不仅没有下降,反而超越了Full Attention模型。更重要的是,在处理64k长度的序列时,NSA在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升,最高可达11.6倍,证明了NSA在模型生命周期各个阶段的效率优势。

AI寒武纪表示:

“DeepSeek 的 NSA 技术为长文本建模带来了新的突破。它不仅在性能上超越了传统的 Full Attention 模型,更在效率方面实现了显著的提升,尤其是在长序列场景下。NSA 的 硬件友好设计训推一体化特性,使其在实际应用中更具优势,有望加速下一代 LLM 在长文本处理领域的应用落地。”

“DeepSeek此次使用了Triton,而没有提及英伟达专用库和框架。Triton底层可以调用CUDA,也可以调用其他计算平台的框架,如AMD的ROCM,甚至国产计算卡。结合NSA降低了浮点算力和内存占用门槛的特性,这或许暗示了DeepSeek在模型研发阶段,就已经开始考虑未来适配更多类型计算卡,为更广泛、更普遍的开源做准备。”

xAI的Grok3:算力堆砌的“极致”

与DeepSeek形成鲜明对比的是,xAI选择了另一条道路:对工程规模的极致追求。Grok3使用了20万块GPU集群,而未来的Grok4更是计划使用百万块GPU、1.2GW的集群。这种“财大气粗”的做法,体现了北美在AI领域一贯的“大力出奇迹”风格。

然而,信息平权的分析指出,尽管xAI通过超大集群在短时间内实现了对之前SOTA(State-of-the-Art)模型的反超,但其投入产出比并不理想。相比DeepSeek V3,xAI以50倍的成本实现了30%的性能提升。这表明,单纯在预训练阶段投入巨额算力,其收益可能并不如预期,将资源投入到RL(强化学习)后训练阶段可能更为划算。

相关内容

热门资讯

字节否认为大额储户子女提供实习 近日,有网友在社交平台爆料,某银行私人银行可为高净值客户子女量身打造实践机会,其中不乏摩根大通、中金...
为人形机器人穿上“新衣” 这家... 《科创板日报》5月27日讯(记者 张洋洋)从跨界合作到跨界投资,各行业对人形机器人企业的布局全面开花...
港股通互联网ETF:5月27日... 证券之星消息,5月27日,港股通互联网ETF(513040)融资买入49.58万元,融资偿还58.6...
【盘中播报】7只A股跌停 银行... 证券时报•数据宝统计,截至上午10:28,今日沪指跌0.08%,A股成交量415.15亿股,成交金额...
央企ETF:5月27日融资买入... 证券之星消息,5月27日,央企ETF(159959)融资买入0.06万元,融资偿还28.62万元,融...
美联储鹰派立场vs加拿大经济放... 周三(5月28日),美元兑加元在亚洲交易时段早盘小幅上涨,汇价在1.38上方交投。美国消费者信心数据...
华密新材:5月27日融资买入2... 证券之星消息,5月27日,华密新材(836247)融资买入230.18万元,融资偿还260.97万元...
RWA项目完整落地手册1.0版... (1) 一、RWA 介绍 1)1.RWA 的定义 · RWA的全称:Real World Asset...
王兴立下军令状 文 |电厂,作者 | 何畅,编辑 | 高宇雷 除了每隔几天都有进展发布的AI行业,外卖大概是互联网...
华银APP订购白银铂金现货欺骗...   华银APP如今受害者众多,投资人在该平台做交易,只要是大资金买入,基本都是反向走势,一买涨,就使...
股息率破7%的银行ETF优选(... 近期银行势头不减,板块吸引效应明显。数据显示,5月27日,银行ETF优选(517900)单日成交17...
港股汽车ETF:5月27日融资... 证券之星消息,5月27日,港股汽车ETF(520600)融资买入3498.9万元,融资偿还3316....
5.28黄金暴跌后如何布局?今... 前言:不为模糊不清的未来担忧,只为清清楚楚的现在努力。不被短线行情的上蹿下跳而迷惑,只为趋势行情的布...
裁员3000人!沃尔沃断臂求生... 财联社5月27日讯(编辑 刘蕊)当地时间周一,瑞典汽车制造巨头沃尔沃汽车表示,作为削减成本的主要举措...
输掉“国补”的拼多多,一夜没了... 又是熟悉的暴跌,拼多多发布财报后,股价盘前又跳水了,跌幅一度逾20%。 截至当日收盘,拼多多美股跌幅...
浙江恒威:5月27日融资买入3... 证券之星消息,5月27日,浙江恒威(301222)融资买入342.99万元,融资偿还167.91万元...
韩国综合指数涨逾2% 上证报中国证券网讯 5月28日,韩国综合指数高开高走,截至9时44分,该指数涨逾2%,报2690.4...
中电工程 矢志能源报国 书写发... 中电工程 矢志能源报国 书写发展新篇 《人民日报》(2025年05月28日第 08 版) 今年...
长华化学跌2.09%,成交额2... 5月27日,长华化学跌2.09%,成交额2.57亿元,换手率19.71%,总市值34.76亿元。 异...
黄金交易提醒:特朗普的&quo... 汇通财经APP讯——周三(5月28日)亚市早盘,现货黄金震荡微涨,目前交投于3307.34美元/盎司...
还是湖人!曝詹姆斯大概率执行5... 5月28日消息,美国记者Shams今天在一档节目中谈到了湖人球员詹姆斯下赛季很可能继续效力湖人。 ...
银行反诈守好百姓钱袋子 近年来,电信网络诈骗套路不断翻新,让人防不胜防。银行作为反诈的重要力量,持续行动帮百姓守好钱袋子。 ...
何小鹏两次创业 为何都选广州天... 小鹏汽车董事长、CEO、UC优视创始人   何小鹏 天河智慧城是天河区从城郊菜地迈向科创高地的缩影...
“扫货”不动产!万达已出售超8... 在流动性压力之下,万达集团再度出售资产,而险资再次参与收购。 近日,国家市场监管总局发布信息显示,无...
欢聚集团一季度营收4.94亿美... 封面新闻记者 付文超 5月27日,欢聚集团发布2025年第一季度财报。数据显示,第一季度欢聚集团收入...
“智慧大脑”打通信息流,每个环... 膜法世家生产车间内,工作人员正在进行产品包装。 海龟爸爸科研发展展示区。 广州是中国的美妆之都...
美使领馆暂停留学生新签证面谈 ... 隔夜股市 美东时间周二,美股三大指数集体收涨,道指涨1.78%,纳指涨2.47%,标普500指数涨...
国金证券:房地产拐点左侧,哪些... 核心观点 随着积压需求的释放接近尾声,4 月楼市“小阳春”的成色下降,房地产市场的分化加剧。从全国...
兰蔻换帅,欧莱雅“救火” 作为欧莱雅高端品牌部当家花旦的兰蔻传出更换总裁的消息,而这一消息的传出被认为是欧莱雅面对近两年高端品...
最高股息率近10%,存银行不如... 截至5月27日收盘,A股36只银行股飘红。 杭州银行、民生银行等盘中创下股价60日新高。《国际金融报...