一则看似平常的版本更新,让整个AI圈骤然沸腾。
8月下旬,DeepSeek发布V3.1,大段更新说明中鲜有人留意的“UE8M0 FP8参数精度”,却在官方评论区被点出一句:UE8M0 FP8是针对即将发布的下一代国产芯片设计。
寥寥数字,却瞬间点燃市场情绪。寒武纪股价盘中一度大涨近14%,总市值跃居科创板首位;半导体ETF半天上涨近6%,科创50指数创下三年半新高。国产芯片概念股集体狂飙,一场因技术细节而起的“涨停潮”在资本市场上演。
而另一边,正值外界盛传英伟达H20或将停产之际,这一“隐秘信号”更显耐人寻味。它不仅意味着DeepSeek主动贴合国产芯片的最佳性能点,也被视作国产算力产业在关键时刻发出的软硬协同冲锋号。
那么,UE8M0 FP8究竟是什么?为何能提升国产芯片市场竞争力?
01
UE8M0 FP8
为什么能点燃市场?
“UE8M0 FP8”其实是一种低精度浮点数的表达方式,看似只是编码细节,却被视为国产芯片能追赶国际算力的重要抓手。为什么这么说?先理解它的原理。
首先,UE8M0 FP8解决了“算力堵车”的问题。
芯片就像一条高速公路,数据就是车流。传统FP32数据“体积”很大,占用带宽;FP16虽然小一半,但在大模型时代依然吃紧。FP8把数据压缩到只有1/4 大小,同样的公路,能跑更多车。而UE8M0则是FP8的一种“聪明压缩法”,既保证精度不丢太多,又让传输和计算更快。
而它和芯片的关系,就像油品和发动机。
芯片是“发动机”,数值格式就是“燃料”。如果芯片只能烧“汽油95”,那就跑不起来新能源车的性能。国产芯片过去主要支持FP16/INT8,但大模型训练和推理越来越依赖FP8。如果芯片和大模型不对齐,就像“油不对口”,性能发挥不出来。
DeepSeek这次主动适配UE8M0,相当于为国产芯片量身定制了“最合适的燃料”,让它们能跑出接近国际顶尖的效果。
这也是为什么芯片厂商股价集体上涨。因为资本市场的逻辑很简单,如果 DeepSeek这种大模型巨头认可并适配了某个精度标准,而国产芯片厂商正好支持这个标准,那就意味着他们有望和大模型生态“绑定”。未来推理、训练就能跑在国产硬件上,市场想象空间一下子打开。
02
下一代国产芯片
谁在“对号入座”?
在官方未明确点名的情况下,外界的目光迅速转向了首批与DeepSeek宣布适配的8家厂商。
其中,市场最先聚焦的是寒武纪。理由在于其最新一代MLU370-S4、思元590与690系列均已支持FP8计算,并在低精度优化方面走在前列。这也解释了寒武纪股价率先出现大幅拉升。
与此同时, 海光、沐曦、中昊芯英、摩尔线程等厂商也被陆续点名:
• 海光深算三号DCU:已具备FP8能力,仍有优化空间;
• 沐曦曦云C600:今年7月发布,强调FP8支持;
• 中昊芯英“刹那”TPU:定位高性能训练,原生支持FP8;
• 摩尔线程MTT S5000:国内少数原生支持FP8的GPU。
此外,华为昇腾虽在当前版本(910B/910C)尚未开放FP8,但路线图已明确“2025Q4原生FP8”,因此被普遍视为下一代的潜在落点。
在这种背景下,“下一代国产芯片”更像是一个面向未来的开放信号,而非单点指向。
03
从格式到生态
软硬协同的“临界点”
那么,这和英伟达H20停产有什么关系?
过去大家最担心的是,如果英伟达对中国的芯片供货受限,大模型是不是就会“没饭吃”?而现在,DeepSeek通过UE8M0 FP8给国产芯片打了一个“强心针”,哪怕H20停了,国产GPU/NPU只要支持这个新精度,就能跑得动DeepSeek这样的大模型。
过去,国产加速器多以FP16/BF16+INT8为主流通路,精度选择与主流国际生态存在差距。如今,随着UE8M0 FP8被引入,国产厂商得以与DeepSeek这样的头部大模型在精度格式上形成共识。
这至少意味着以下三点。
一是算力利用率提高:带宽受限的情况下,FP8+UE8M0能跑更大模型;
二是生态效应增强:DeepSeek主动适配,类似于为国产芯片量身定制“性能放大器”;
三是产业链协同:国内厂商在统一精度规范下,形成类似 “Wintel” 的共生关系。
从长远看,这不仅关乎模型的推理和训练效率,更可能成为减少对国外算力依赖、提升国产芯片市场竞争力的现实路径。
换句话说,不是只能靠别人,国产替代真的有了“可落地的可能”。
04
微妙的“点火”时刻
值得注意的是,DeepSeek在官方更新说明正文里,只字未提UE8M0 FP8的宏大意义,仅用一句话带过: “DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度。”
真正的“火种”藏在评论区的一句话。
或许是有意,或许是无心。但不可否认,市场的剧烈反应已说明一切。毕竟,回顾过去几年,国产芯片更多扮演的是“补位”角色:在高端算力受限时填补空缺。外界对其期待常常停留在“能否替代英伟达”的层面。
而这一次,随着UE8M0 FP8的引入,局面正在发生变化。它不仅是一种压缩格式的升级,更是一次大模型与芯片之间的精度共识,标志着国产算力开始拥有属于自己的 生态话语权。当DeepSeek这样的大模型主动“贴近”国产芯片性能点时,软硬协同的格局已悄然成型,它意味着国产AI正在重新定义算力生态规则。
无论英伟达H20是否停产,国产AI的进程都将不再依赖单一供应商的“天平倾斜”。真正决定产业走向的,是能否形成大模型与国产硬件深度绑定的合力。
一段浮点精度的技术细节,背后是国产AI从补位走向重构的战略拐点。