李开复回应 Yi 大模型套壳 LLaMA 争议:受益于开源也贡献开源
IT之家
2023-11-16 12:55:09

原标题:李开复回应 Yi 大模型套壳 LLaMA 争议:受益于开源也贡献开源

IT之家 11 月 16 日消息,针对近日零一万物被质疑完全使用 LLaMA 架构,只对两个张量(Tensor)名称做修改,李开复在朋友圈进行了回应。

李开复表示:“全球大模型架构一路从 GPT2 --> Gopher --> Chinchilla --> Llama2 --> Yi,行业逐渐形成大模型的通用标准,就像做一个手机 App 开发者,不会去自创 iOS、Android 以外的全新基础架构01.AI起步受益于开源,也贡献开源,从社区中虚心学习,我们会持续进步。”

据IT之家此前报道,创新工场董事长兼 CEO 李开复于今年创办了 AI 大模型创业公司“零一万物”,该公司已推出 Yi-34B 和 Yi-6B 两个开源大模型,号称对学术研究完全开放,同步开放免费商用申请。

然而在 Yi-34B 的 Hugging Face 开源主页上,开发者 ehartford 质疑称该模型使用了 Meta LLaMA 的架构,只对两个张量(Tensor)名称进行了修改,分别为 input_layernorm 和 post_attention_layernorm。

零一万物开源团队总监 Richard Lin 回应称,这一命名问题是开发人员疏忽导致,开发人员在代码中进行了几次重命名,以满足实验要求。但是开发人员“忘记将张量名称修改回 LLaMA”,开发人员对此感到抱歉。

值得一提的是,原阿里首席 AI 科学家贾扬清吐槽国内某一新模型中用的其实是 LLaMA 架构,仅在代码中更改了几个变量名引发网络热议。在被指大模型回应并发布训练模型过程后,贾扬清最新发文,表示开源领域“魔改”要不得

昨日,零一万物官方对 Yi-34B 训练过程进行了说明,表示大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数。IT之家附回应全文:

就零一万物的观察和分析,大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段,基本上国际主流大模型都是基于 Transformer的架构,做 attention,activation,normalization,positional embedding 等部分的改动,LLaMA、Chinchilla、Gopher 等模型的架构和 GPT 架构大同小异,全球开源社区基于主流架构的模型变化非常之多,生态呈现欣欣向荣,国内已发布的开源模型也绝大多数采用渐成行业标准的 GPT / LLaMA 的架构。然而,大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数

模型训练过程好比做一道菜,架构只是决定了做菜的原材料和大致步骤,这在大多数人的认知中也逐步形成共识。要训练出好的模型,还需要更好的“原材料”(数据)和对每一个步骤细节的把控(训练方法和具体参数)。由于大模型技术发展还在非常初期,从技术观点来说,行业共识是与主流模型保持一致的模型结构,更有利于整体的适配与未来的迭代。

零一万物在训练模型过程中,沿用了 GPT / LLaMA 的基本架构,由于 LLaMA 社区的开源贡献,让零一万物可以快速起步。零一万物从零开始训练了 Yi-34B 和 Yi-6B 模型,并根据实际的训练框架重新实现了训练代码,用自建的数据管线构建了高质量配比的训练数据集(从 3PB 原始数据精选到 3T token 高质量数据)。除此以外,在 Infra 部分进行算法、硬件、软件联合端到端优化,实现训练效率倍级提升和极强的容错能力等原创性突破。这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用跟价值。

零一万物团队在训练前的实验中,尝试了不同的数据配比科学地选取了最优的数据配比方案,投注大部分精力调整训练方法、数据配比、数据工程、细节参数、baby sitting(训练过程监测)技巧等。这一系列超越模型架构之外,研究与工程并进且具有前沿突破性的研发任务,才是真正属于模型训练内核最为关键、能够形成大模型技术护城河 know-how 积累。在模型训练同时,零一万物也针对模型结构中的若干关键节点进行了大量的实验和对比验证。举例来说,我们实验了 Group Query Attention(GQA)、Multi-Head Attention(MHA)、Vanilla Attention 并选择了 GQA,实验了 Pre-Norm 和 Post-Norm 在不同网络宽度和深度上的变化,并选择了 Pre-Norm,使用了 RoPE ABF 作为 positional embedding 等。也正是在这些实验与探索过程中,为了执行对比实验的需要,模型对部分推理参数进行了重新命名。

在零一万物初次开源过程中,我们发现用和开源社区普遍使用的 LLaMA 架构会对开发者更为友好,对于沿用 LLaMA 部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,并非刻意隐瞒来源。零一万物对此提出说明,并表达诚挚的歉意,我们正在各开源平台重新提交模型及代码并补充 LLaMA 协议副本的流程中,承诺尽速完成各开源社区的版本更新。

我们非常感谢社区的反馈,零一万物在开源社区刚刚起步,希望和大家携手共创社区繁荣,在近期发布 Chat Model 之后,我们将择期发布技术报告,Yi Open-source 会尽最大努力虚心学习,持续进步。

相关内容

热门资讯

江丰电子:拟定增募资不超19.... 江丰电子披露向特定对象发行股票预案。在考虑从募集资金总额中扣除2,000万元的财务性投资后,本次发行...
创业板综指优化编制方案 7家公... 21世纪经济报道记者 杨坪 深圳报道 7月11日,记者获悉,在深交所公布优化创业板综合指数(简称创业...
阳光电源:股东计划减持公司股份... 每经AI快讯,阳光电源(SZ 300274,收盘价:76.16元)7月11日晚间发布公告称,公司副董...
分红险的“分红”从哪里来 近期,各家保险公司陆续披露2024年度分红型保险产品的红利实现率。“固定收益+浮动红利”的收益结构,...
财政部进一步加强国有商业保险公... 央广网北京7月11日消息(记者 马文静)日前,财政部发布《关于引导保险资金长期稳健投资 进一步加强国...
演讲实录|朱云来解析全球经贸格... 来源:市场资讯 当前,全球经贸格局正在经历深度的结构性调整,企业的全球化发展受到来自地缘政治、贸易壁...
银行股再创新高!42家A股银行... 来源:图虫 7月11日,银行板块再度走强,工商银行、农业银行、中国银行、建设银行四大行A股股价再创历...
郑氏点银:黄金留意3345,一... 郑氏点银:黄金留意3345,一旦站稳会继续拉升上攻 回顾昨日行情走势及出现的技术点: 第一,黄金方面...
上市券商迎中报预喜潮,国联民生... (图片来源:视觉中国) 蓝鲸新闻7月11日(记者 王婉莹)日前,上市券商陆续披露今年上半年的业绩预告...
瑞茂通涨1.31%,成交额1.... 来源:新浪证券-红岸工作室 7月11日,瑞茂通涨1.31%,成交额1.41亿元,换手率2.80%,总...
Shein希音已经以“保密形式... 据知情人士透露,Shein(希音)集团已以保密形式提交香港上市申请,标志着这家快时尚零售商向上市又迈...
国有商业保险公司长周期考核机制... 7月11日,财政部网站发布《关于引导保险资金长期稳健投资 进一步加强国有商业保险公司长周期考核的通知...
沪指本周震荡走高,上证50ET... 本周,上证50指数、上证180指数均上涨0.6%,上证中盘指数上涨0.2%。 每日经济新闻
PTA:7月10日基差走弱,供... 【7月10日PTA市场多因素影响行情】7月10日,PTA期货随成本端震荡收涨,现货市场商谈氛围一般。...
江南化工:7月10日召开董事会... 每经AI快讯,江南化工(SZ 002226,收盘价:5.62元)7月10日晚间发布公告称,公司第七届...
在中国,为什么两个CEO往往管... 文 | 镜相工作室,作者 | 阮怡玲,编辑 | 卢枕 随着喜马拉雅“卖身”给腾讯音乐,又一家采用联...
亚朵运营物资大降价!为了留住加... 红星资本局7月11日消息,在价格战与同质化竞争加剧的多重压力下,连锁酒店行业还面临服务体验与成本效率...
卫龙新CFO余风年薪1373万... DoNews7月11日消息,7月9日,卫龙公告,执行董事兼首席财务官彭宏志因个人职业发展安排,将于8...
澜起科技:拟发行境外上市股份H... 证券之星消息,澜起科技(688008)07月11日在投资者关系平台上答复投资者关心的问题。 投资者提...
螺纹钢期货:主力涨1.06%,... 【7月11日螺纹钢期货主力合约震荡上行,机构给出后市操作建议】7月11日盘中,螺纹钢期货主力合约震荡...
拿地14天极速亮相,建发宁波海... 潮新闻客户端 记者 郑青青 近日,宁波海曙区HS07-02-18地块的项目设计方案公示,公示时间为2...
推进全球化战略,电池巨头欣旺达... 排队赴港上市A股公司名单将再添一员,7月2日,电池巨头欣旺达发布《关于筹划发行H股股票并在香港联合交...
山东神光:非农数据影响,黄金白... 山东神光:非农数据影响,黄金白银投资新机遇 非农数据,即美国非农就业人数报告,是全球金融市场最为关注...
深挖巴蜀文化时代价值,成都设计... 7月11日,中共成都市委十四届七次全会召开。 “非常振奋人心!”成都设计咨询集团有限公司党委书记、...
邮储银行App热推ESG产品吸... 21世纪资管研究院研究员 唐曜华 实习生 姜博文近期债市震荡、股市站上3500点,部分“固收+权益”...
好消息!新一轮消费补贴要来了 7月9日 吉林省商务厅网站发布 《关于征集“政银企”联动开展 购车贴息政策实施金融机构的公告》 拟定...
蓝思科技港股首日大涨9%后跳水... 截至2025年7月11日中午收盘,蓝思科技港股、A股股价分别报收于19.20港元/股和22.74元/...
掌舵三年半,浙商银行董事长陆建... “人事有代谢,往来成古今”,商业银行董事长因到龄,辞去董事长等相关职务,是再正常不过了。 昨日晚间,...
下半年经济风口:科技引领,多元... 2025 年已悄然过半,在这半年里,全球市场风云变幻,地缘政治环境的复杂波动、科技领域的突飞猛进以及...
北京建筑企业启动主板IPO,多... 瑞财经 严明会 近日,多维联合集团股份有限公司(以下简称:多维联合集团)在北京证监局完成IPO辅导备...