英伟达挑战者出现:单芯片性能与160块H100 GPU相当,且每秒生成Token数快20倍
创始人
2024-07-16 21:36:46

图片来源:Etched

出品 | 搜狐科技

作者 | 王一鸣

人工智能时代,芯片就是AI的发动机,然而制造发动机的英伟达H100芯片单价高达2.5-3万美元,让人不禁感叹这芯片是金子做的吗?

巨大的利益前,就会有其他抢食者出现。

Etched是一家专注于transformer架构芯片初创公司,刚刚推出了自己第一块AI芯片“Sohu”,它是一种专用的集成电路(ASIC),声称在AI大语言模型(LLM)推理方面击败了英伟达的H100。

由于它是ASIC,所以Etched需要把transformer架构刻蚀在芯片上,也就意味着它们不能运行大多数传统的AI模型:比如Instagram广告提供支持的DLRM、Alpha Fold 2等这样的蛋白质折叠模型或Stable Diffusion 2等这样的老式的图像模型,还有CNN、RNN或LSTM。

但是对于transformer架构来说,Sohu就是有史以来最快的芯片,与其他产品拉开巨大差距。

Etched为此下赌注,SSM、RWKV或任何新架构不会取代transformer架构,不然他们的芯片就直接失去存在的意义。目前最先进的AI模型都是transformer架构,比如ChatGPT、Sora、Gemini、Stable Diffusion 3和DALL-E等。

Etched认为,如果他们的选择正确,Sohu将改变世界。

据悉,8xSohu服务器的性能相当于160块英伟达H100 GPU,而且快20倍。要知道英伟达最新发布的Blackwell B200 GPU也仅仅只是比H100快4倍,也就是说一个8xSohu服务器比B200还要快10倍。

根据上图所示,一台8xSohu服务器在运行Llama 70B模型时每秒可以产生超过50万tokens,是8xH100服务器的20倍以上,也是8xH100服务器的10倍以上

随着摩尔定律失效,这导致GPU的性能是通过增加芯片面积而提升的,近四年来芯片单一面积计算量(TFLOPS)几乎没有变化,这被Etched称为“圣克拉拉的肮脏小秘密”。(圣克拉拉是英伟达、英特尔和AMD等芯片厂商所在地)

Etched宣称,2022年到2025年以来,AI芯片并没有真正变得更好,而是变得更大了。英伟达B200、AMD MI300、Intel Gaudi 3和Amazon Trainium 2都殊途同归地把芯片合二为一拼接起来,以“翻倍”性能。但代价是什么?功耗!

随着摩尔定律的放缓,提高性能的唯一方法就是专业化。

在此之前,没有公司涉猎特定算法人工智能芯片(ASIC),因为没有市场,而且芯片项目的成本为5000万-1亿美元,需要数年时间才能量产。

随后ChatGPT推出,所有大型科技公司都使用transformer模型,包括OpenAI,谷歌,亚马逊,微软,Meta,特斯拉等。

自GPT-2以来,最先进的模型架构几乎都在用Transformer。Etched算了一笔账,当模型的训练成本为10亿美元,推理成本为100亿美元的时候,必须要用专用芯片。哪怕是1%的提升,也足以证明定制芯片项目对于整个产业规模的颠覆。

Transformer惊人地相似:SwiGLU激活和RoPE编码这样的微调无处不在:LLM、嵌入模型、图像修复和视频生成。

虽然GPT-2和Llama-3是相隔五年最先进的(SoTA)模型,但它们的架构几乎相同,只是规模不同。

比肩160块英伟达H100 GPU的巨大算力

Sohu作为全球第一款Transformer ASIC芯片,单个8xSohu服务器可与160块英伟达H100 GPU相抗衡。

通过专业化,一台8xSohu服务器每秒可以处理超过50万个Llama 70B tokens。

其中基准测试(俗称跑分)适用于FP8精度的Llama-3 70B:无稀疏性(指在计算中无不必要,没用的计算),8倍模型并行,2048输入/128输出长度。

使用8xH100s与TensorRT-LLM 0.10.08(最新版本)计算,位数8xGB200。

无论是Llama还是Stable Diffusion 3,Sohu只支持transformer架构的推理。Sohu支持当前包含谷歌,Meta,微软,OpenAI,Anthropic等的所有模型,并且还会对今后模型做出适配调整。

鉴于Sohu只能运行一种算法,于是大多数的控制流逻辑都可以去除,让它有更多的数学公式块,从而Sohu达成超过90%的FLOPS(浮点运算)利用率。相比之下,GPU在TRT-LLM语言模型下的FLOPS利用率大约为30%。

Sohu怎么跑这么高的分?

英伟达H200在精度为FP16/BF16的情况下具有989 TFLOPS的计算能力(无稀疏性)。这是最先进的(甚至超过了谷歌最新的Trillium芯片),而2025年英伟达将要推出的GB200芯片的计算能力仅增加了25%(每个芯片1250 TFLOPS).

由于GPU大部分区域都是可编程的,专注于transformer可以拥有更高的计算能力。

第一原理可以证明:

构建单个FP16/BF16/FP8乘加电路需要1万个晶体管,这是所有矩阵数学运算的组成部分。H100 SXM有528个张量核心,每个核心都有4×8×16 FMA电路。这些乘法意味着H100有27亿个晶体管专用于张量内核。

但是H100只有800亿个晶体管。这意味着H100 GPU上只有3.3%的晶体管可用于矩阵乘法。

英伟达和其他芯片厂商是特意这样设计的,这些芯片是支持CNN、LSTM、SSM等各种模型里面中最好的选择。

假如只运行transformers,Etched能让芯片能跑更高的FLOPS,而且不需要降低的精度或稀疏性。

内存带宽不再限制性能

Etched表示,对于像Llama-3这样的现代模型来说,内存带宽早就没有瓶颈问题了。

在NVIDIA和AMD的标准基准测试中包含2048个输入tokens和128个输出tokens,大多数AI产品的prompts(提示)时间比完成时间要长,就算是新的Claude聊天机器人在系统prompts中也有1000多tokens。

在GPU和Sohu上,推理是分batch运行的。每个batch都需要加载一次所有模型权重,并在batch中每个tokens之间重复使用。通常来说LLM输入受计算瓶颈限制,LLM输出受内存瓶颈限制。如果把输入和输出的tokens与连续batching相结合,工作负载变得特别受计算瓶颈限制。

下图为LLM连续batching处理示例,在这里运行具有4个输入tokens和4个输出tokens的序列,不同颜色表示不同序列。

通过扩展相同的技巧来运行拥有2048个输入tokens和128个输出tokens的Llama 3 70B。每个批次都包含一个序列的2048个输入tokens和127个不同序列的127个输出tokens。

这样做的话单个batch将需要大约(2048+127)×70B params×2字节/param=304 TFLOPs,与此同时只需要加载70B params×2字节/param=140GB的模型权重和大约127×64×8×128×(2048+127)×2×2=72GB的KV缓存权重。

这比内存带宽的计算量要大得多:H200需要6.8 PFLOPS的计算才能最大化它的内存带宽。这还是在100%利用率的情况下,如果利用率只有30%,那就要3倍以上了。

Etched表示,因为Sohu计算能力和的利用率非常高,所以他们可以在不出现内存带宽瓶颈的情况下运行巨大吞吐量的数据。

软件运行原理

软件对于GPU和TPU来说是个灾难。处理任意CUDA和PyTorch代码需要特别复杂的编译器。第三方AI芯片比如AMD、英特尔、AWS等在软件上花费了数十亿美元,但效果并不理想。

同时Etched自豪的表示,使用transformers的Sohu只需要针对transformers编写软件。

大多数运行开源或内部模型的公司都使用特定于Transformer的推理库,比如TensorRT-LLM、vLLM或Hugging Face的TGI。但这些框架非常固化,虽然模型超参数可以调整,但底层模型代码不能更改。

其实所有的Transformer模型都非常相似(甚至是文本/图像/视频模型),只有调整超参数是真正需要的。

虽然95%的AI公司可以接受这种方案,但最大的AI实验室是定制的。他们有工程师团队手动调整GPU内核以压榨出更多的利用率,这样的逆向工程中包含探究哪些寄存器对单独每个张量核心的延迟最低。

Etched表示他们的产品不需要进行逆向工程,从驱动程序、内核到服务堆栈,这些软件全部开源。如果客户想要实现自定义Transformer层,那么内核向导可以随意操作。

作为AI加速器,无论是CPU还是GPU,都需要与不同的AI架构相互进行配合,各其所职。这些不同的框架和设计意味着硬件必须要能够支持各种模型,如卷积神经网络*、长短期记忆网络、状态空间模型等。

*注:卷积神经网络通过卷积、池化等操作,能够大大减少模型参数数量,并保留图像等数据的空间信息,从而提高了识别和分类的精度。

由于这些模型针对不同的架构作出了调整,所以当前的大多数AI芯片把其大部分计算能力分配给可编程性。

大多数LLM在许多计算任务中运用矩阵乘法,Etched预估英伟达的H100 GPU只使了3.3%的晶体管来胜任这种关键任务。也就是说剩余的96.7%的算力去应对其他任务,这对于通用AI芯片来说仍然是必不可少的。

Etched在几年前启动Sohu项目时就对transformer架构下了赌注。他们把transformer架构中的芯片刻蚀在硬件上,以此能让更多晶体管用于AI计算。

如果把处理器和显卡作对比,假设当前的AI芯片是CPU,它可以做很多事情,然后transformer模型就是玩游戏处理图形的GPU。CPU肯定也能处理图形需求,但它不如GPU高效,这就是因为GPU硬件是专门为处理图形设计的。

比起制造一个可以容纳单个AI架构的芯片,Etched选择去构造一个只适用于transformer模型的芯片。2022年他们启动项目时,ChatGPT都还没发布,但在2023年它直接井喷式火爆了起来,这意味着Etched的赌注可以在预见的未来获得回报。

英伟达目前是世界上最有价值的公司之一,自从市场对AI GPU的需求增加,英伟达的净利润创下了历史新高,2023年他们出货了376万块GPU,而且今年还有增长趋势。但Sohu的出现可能会威胁到英伟达在AI领域的地位,特别是如果专门使用transformer模型的公司转用Sohu。

目前,许多专家都会担心人工智能数据中心这样的基础设施消耗太多的能源。Meta创始人马克·扎克伯格(Mark Zuckerberg)表示,电力供应将限制AI的发展,美国政府也开始讨论AI的电力需求。

去年出货的所有GPU消耗的电力超过130万户家庭的电力供应,如果Etched的Sohu能够成功,那么AI所需要的电力能够降低到可接受的水平,随着科技公司的计算需求增长,电网的电力供应也会变得可持续化。

相关内容

热门资讯

如何运用ETF构建中低风险组合... 近年来,“固收+部分权益投资”公募基金等中低风险策略的基金产品获得了投资者的青睐。基于中低风险偏好,...
1.8万枚!京企自主培育种蛋首... 在位于平谷区的北京市华都峪口禽业有限责任公司孵化基地,1.8万枚由其自主培育的种蛋近日在海关关员的监...
10万元起步的人形机器人还有多... 5月21日,具身智能企业智元机器人获悉,该公司研制的全智能灵动机器人灵犀X2正式开启合作伙伴招募。同...
摩根大通CEO戴蒙:美国存在滞... 摩根大通首席执行官杰米·戴蒙不能排除美国经济陷入滞胀的可能性,因为美国面临地缘政治、赤字和价格压力带...
关税成G7财长会议焦点议题 当地时间20日到22日,七国集团(G7)和欧盟的财长以及央行行长在加拿大艾伯塔省班夫举行会议。国际货...
一个谨慎、冷静的雷军让人觉得陌... “疾风知劲草,路遥知马力。” 作者|张麟 编辑|王博 沉寂了近两个月后,雷军再一次站在台上,介绍小米...
冷艺婕:5.22黄金修正下行可... 杜绝弄虚作假,以实事求是为准。大家好,我是冷艺婕。(添加冷老师即刻给出每日操作思路精准策略) 很多...
原创 揭... 有点扎心,但必须要承认! 这两年,政策托举、产品更新,甚至价格筑底,并没有完全带动起新房市场的热度...
宁波远洋连续3个交易日收盘价跌... 雷达财经 文|杨洋 编|李亦辉 5月22日,宁波远洋(证券代码:601022)发布公告称,公司股票于...
4.5万亿银行董事长任职资格获... 5月22日,华夏银行发布了关于该行董事、董事长任职资格获批的公告。 公告显示,近日华夏银行收到《国家...
IMCOCO获融资;奥利奥联名... -融资动态- 椰水全产业链公司「IMCOCO」完成Pre-A轮融资 近日,从事椰水全产业链业务...
一图看懂 | YU7、玄戒芯片... (财联社 唐叶天 孙罕颖)
快驴科技递表港交所,“寄生”超... 图片来源:视觉中国 蓝鲸新闻5月22日讯(记者 徐晓春)即时零售大战打得如火如荼,外卖、快递小哥背后...
券商首批152亿科创债落地!1... 来源:图虫创意 科技创新债券(下称“科创债”)发行正如火如荼。 5月22日,央行副行长、国家外汇局局...
突发!12.6万人爆仓!美元,... 美元,再遭抛售! 最近几天,美元持续下挫。5月21日,衡量美元对六种主要货币的美元指数再次跌破100...
新三板创新层公司海宝股份大宗交... 每经讯,2025年5月22日,新三板创新层公司海宝股份(874353,收盘价:1.02元)发生一笔大...
机器人ETF易方达(15953... 截至收盘,中证装备产业指数下跌0.8%,中证芯片产业指数下跌0.2%,国证机器人产业指数下跌0.7%...
以心为舟 以数作桨 以情破浪:... 今年以来,江西省鹰潭市月湖区烟草专卖局(以下简称月湖烟草)始终秉持“以客户为中心”的发展理念,以客户...
小米YU7标准版续航835km... 在5月22日晚间举行的小米15周年战略新品发布会上,小米YU7正式亮相。 小米创始人、董事长兼CEO...
半固态电池形成规模化出货 孚能... 5月22日,孚能科技(688567)在投资者关系活动记录表中表示,公司固态电池进展处于行业领先水平,...
绿地控股集团股份有限公司 第十... 证券代码:600606 股票简称:绿地控股 编号:临2025-025 绿地控股集团股份有限公司 第十...
玄戒O1、小米YU7等集中亮相... 红星资本局5月22日消息,小米15周年战略新品发布会举办,小米集团(01810.HK)董事长雷军回应...
原创 雷... 在5月22日晚举行的小米15周年战略新品发布会上,小米带来了一款全新自研的手机SoC芯片玄戒O1,这...
原创 特... 特朗普宣布的高关税政策,让美国的真实情况“岌岌可危”,甚至比美财长所说的还要“凶险”?就连特朗普自己...
“五年时间没让周围人知道病情”... 5月21日,辛柏青发布讣告透露妻子朱媛媛去世。朱媛媛自2020年确诊癌症后,五年间坚持工作,拍摄《送...
碳中和基金三年布局近百个项目,... 近三年来, 碳中和基金发挥国有资本引领作用, 积极撬动、引导各类资本投向绿色能源、 节能环保及安徽重...
原创 百... 谁在主持“妖股”金龙羽的资本游戏? 作者 | 于婞 编辑丨武丽娟 来源 | 野马财经 过去的2天,上...
AI开源狂飙,OpenAI们慌... 新智元报道 编辑:KingHZ 英智 【新智元导读】2025年,ChatGPT依旧领跑,但Deep...
48小时,美债、日债为什么相继... 近日,多国国债市场热闹异常,先有日本国债拍卖“崩盘”,后有美国国债拍卖表现创五年最差,一时间美债、日...