「LLM」这个名字不好,Karpathy认为不准确、马斯克怒批太愚蠢
创始人
2024-09-17 09:12:25

机器之心报道

编辑:陈陈

LLM 应该改名吗?你怎么看。

在 AI 领域,几乎每个人都在谈论大型语言模型,其英文全称为 Large Language Models,简写为 LLM。

因为 LLM 中有「Language」一词,因此,大家默认这种技术和语言密切相关。

然而,知名 AI 大牛 Andrej Karpathy 却对此有着独特的见解:

「大型语言模型(LLM)名字虽然带有语言二字,但它们其实与语言关系不大,这只是历史问题,更确切的名字应该是自回归 Transformer 或者其他。

LLM 更多是一种统计建模的通用技术,它们主要通过自回归 Transformer 来模拟 token 流,而这些 token 可以代表文本、图片、音频、动作选择、甚至是分子等任何东西。因此,只要能将问题转化为模拟一系列离散 token 的流程,理论上都可以应用 LLM 来解决。

实际上,随着大型语言模型技术栈的日益成熟,我们可能会看到越来越多的问题被纳入这种建模范式。也就是说,问题固定在使用 LLM 进行『下一个 token 的预测』,只是每个领域中 token 的用途和含义有所不同。

如果核心问题真的变成了预测下一个 token,那么深度学习框架(例如 PyTorch 及其同类框架, 因为 PyTorch 提供了过于广泛的操作和层的可配置性而显得过于普通)也可能过于普通,无法满足大多数问题随时间推移的需要。如果 80% 的问题只需要使用 LLM 来解决,那么成千上万个可以随意重新配置的操作和层又有什么用呢?我认为这不是真的,但我认为它只对了一半。」

Karpathy 的这番言论引来很多人围观,浏览量高达 20 多万。

Karpathy 曾是 OpenAI 的早期成员之一,之后加入特斯拉领导其自动驾驶的计算机视觉团队。之后他又回到过 OpenAI,领导着一个专注提升 ChatGPT 的 GPT-4 的小团队。今年 7 月,他宣布创立了一家名为 Eureka Labs 的 AI + 教育公司。

作为前排吃瓜群众的马斯克非常赞同的表示:这绝对需要一个新名字,「多模态 LLM(Multimodal Large Language Models)」是一个特别愚蠢的名字,因为第一个词与第三个词相矛盾!

机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 也非常赞同,他表示:如果将 LLM 改为自回归 Transformers 或者其他名字的话,那 Mamba、Jamba、Samba 可以申请加入吗。不管怎样,还是非常赞同 Karpathy 观点。

不过,来自 OpenAI 的研究者 Clive Chan 却表示:另一方面,也许所有可以用自回归方式表达的东西都可以被视为一种语言。任何事物都可以被转化为一串 token 流,因此从这个角度看,一切都是语言!

对于这种说法,Karpathy 回复到:当然,你可以想象说话纹理、说话分子等等。但我所观察到的是,语言这个词误导了人们认为大型语言模型(LLM)只限于文本应用。

在 Meta 从事 PyTorch 研究的 Horace He 表示:确实,深度学习框架可能在某些方面过于普遍。尽管如此,即便只是针对大型语言模型(LLM),实际运行的操作也有很大的变化。这包括新的注意力操作、混合专家模型(MoE)、不同变体的激活检查点、不同的位置嵌入等。

在 Horace He 看来,这些技术的多样性说明,即使是在专注于 LLM 的应用中,深度学习框架的通用性也是有其必要性的,以适应不断发展和变化的模型需求。

「像 LLMs、GPT 和 RLHF 这样的术语现在变成主流,这实在有些奇怪。通常,一个领域向更广泛的世界介绍自己时并不会这样做(在我看来,这也是有些机构品牌推广失败的原因)。」有人发表了这样的观点。

这种情况反映了复杂技术术语的普及可能并不总能有效地代表其真实的应用和影响,有时甚至可能导致公众理解上的困难。

还有网友认为,「Large」这个词用的也不好,因为今天的「大」在未来会显得「小」。

「 同样的情况也适用于电话和计算机领域,看起来最初的术语往往会保持使用。」

这不由得让我们想起 AI 领域各种命名方式,早期的名称往往因为先入为主的效应而被广泛沿用,即使随着技术的演进,这些名称可能已不再准确描述其功能了。

大型语言模型到底应不应该改名,你怎么看,欢迎评论区留言。

参考链接:https://x.com/karpathy/status/1835024197506187617

相关内容

热门资讯

重磅活动!王涵:长期视角下的经... 上证·首席讲坛”由上海证券报和中国首席经济学家论坛共同打造,致力于搭建高端交流平台,邀请业内顶级专家...
银行行业28日主力净流出6.1... 5月28日,银行行业上涨0.28%,今日主力资金流出6.1亿元,成分股21只上涨,17只下跌。 主力...
深铁5个月四次“输血”万科近1... 金融界5月28日消息 在万科深陷债务的关键节点,已经从万科退休多年的大佬王石罕见发声,正在尝试与万科...
原创 A... 今日的A股,成交量又只有万亿成交量了,比昨日更离谱的是沪深300成交量只有1600亿,TMT赛道的成...
医疗大模型浪潮:讯飞医疗领航,... 在医疗人工智能领域,大模型的发展正迎来政策与市场的双重机遇。近日,动脉智库发布了《2025医疗大模型...
食品饮料-零食行业:鸣鸣很忙(... 今天分享的是:食品饮料-零食行业:鸣鸣很忙(02143),招股说明书梳理,零食量贩龙头,引领万亿元赛...
收评:沪指震荡跌0.18%,医... 27日,两市主要股指盘中弱势下探,深证成指、创业板指一度跌约1%,全A成交额再度萎缩。 截至收盘,沪...
刚刚,备案!万亿巨头出手 【导读】泰康稳行完成私募基金管理人备案登记,泰康人寿首期投资规模预计为120亿元 中国基金报记者 吴...
助小微企业走出融资困境 小微企业创新迭代快捷、市场反应敏锐、细分领域广泛,在推动科技创新、吸纳人员就业、丰富文化业态等方面发...
越跌越买!红利又被抢疯了 上周三$中证红利ETF(SH515080)$创了阶段新高后有些回调,一下子又被买疯了,这周一和这周二...
李彦宏念念不忘,百度电商重启在... 文/华尔街科技眼 Leon 临近6.18大促,各大平台、商家都开始了预热。网红罗永浩于5月23日...
特朗普:若加拿大成为美国第51... 当地时间5月27日,美国总统特朗普在其社交媒体平台“真实社交”上发文表示,加拿大非常希望成为美国“金...
煤炭板块午后逆势上行,国企红利... 5月28日,三大股指午后小幅走低,而国企红利板块逆势上涨。截至下午13:30,国企红利ETF(159...
比亚迪回应山东经销商“资金链断... 针对近期“比亚迪山东经销商济南乾城汽车贸易有限公司‘资金链断裂’”传闻,比亚迪集团品牌及公关处相关人...
精致时代下,国际品牌如何赢得中... 汇聚行业论坛洞察,解读前沿报告观点,提炼关键趋势,为您呈现深度思考与精准研判。 作者|Huiyan ...
重磅!牧原递交港股IPO申请,... .................. 5月27日,牧原股份向香港联交所提交上市申请。牧原股份提到,按...
东南亚消费者为何愿为猫人买单?... 在国货出海浪潮奔涌的当下,越来越多中国品牌怀揣着“品牌全球化”的野心踏浪而行。 当多数玩家困守低价红...
又一场暴风雨来临?日本长债拍卖... 周三,投资者屏息以待日本40年期国债拍卖,因该国收益率波动持续冲击全球债券市场,全球借贷成本上周遭遇...
确认了!她接棒父亲任董事长 近日,利群商业集团股份有限公司(以下简称“利群股份”)发布公告称,现年42岁的徐瑞泽接棒父亲徐恭藻,...
液相捕获技术掀起肿瘤精准医疗革... 近年来,精准医疗领域迎来了前所未有的发展浪潮。从基因检测技术的迭代升级,到靶向药物的精准应用,再到免...
国电南瑞跌0.58%,成交额3... 5月27日,国电南瑞跌0.58%,成交额3.53亿元,换手率0.20%,总市值1775.89亿元。 ...
阳光电源:5月27日融资买入6... 证券之星消息,5月27日,阳光电源(300274)融资买入6679.61万元,融资偿还1.06亿元,...
新易盛:5月27日融资买入5.... 证券之星消息,5月27日,新易盛(300502)融资买入5.26亿元,融资偿还6.93亿元,融资净卖...
创业板系列指数走势分化,同类规... 截至午间收盘,创业板成长指数上涨0.7%,创业板指数上涨0.02%,创业板中盘200指数下跌0.3%...
深化“医险协同”模式,泰康绿通... 在长寿时代背景下,健康管理需求日益凸显,人们对于高品质就医资源的需求愈发迫切。作为一家大民生工程骨干...
普华永道港股连丢单,上海传出裁... 五一假期后,上海普华永道传出消息将进行裁员,涉及咨询、审计等多个业务条线。据时代财经了解,中国大区并...
什么情况?据传嘉能可购买大量L... 财联社5月28日讯(编辑 潇湘)有迹象显示,嘉能可公司近来可能一直在伦敦金属交易所(LME)买进俄罗...
字节否认为大额储户子女提供实习 近日,有网友在社交平台爆料,某银行私人银行可为高净值客户子女量身打造实践机会,其中不乏摩根大通、中金...
为人形机器人穿上“新衣” 这家... 《科创板日报》5月27日讯(记者 张洋洋)从跨界合作到跨界投资,各行业对人形机器人企业的布局全面开花...