李开复回应 Yi 大模型套壳 LLaMA 争议:受益于开源也贡献开源
IT之家
2023-11-16 12:55:09

原标题:李开复回应 Yi 大模型套壳 LLaMA 争议:受益于开源也贡献开源

IT之家 11 月 16 日消息,针对近日零一万物被质疑完全使用 LLaMA 架构,只对两个张量(Tensor)名称做修改,李开复在朋友圈进行了回应。

李开复表示:“全球大模型架构一路从 GPT2 --> Gopher --> Chinchilla --> Llama2 --> Yi,行业逐渐形成大模型的通用标准,就像做一个手机 App 开发者,不会去自创 iOS、Android 以外的全新基础架构01.AI起步受益于开源,也贡献开源,从社区中虚心学习,我们会持续进步。”

据IT之家此前报道,创新工场董事长兼 CEO 李开复于今年创办了 AI 大模型创业公司“零一万物”,该公司已推出 Yi-34B 和 Yi-6B 两个开源大模型,号称对学术研究完全开放,同步开放免费商用申请。

然而在 Yi-34B 的 Hugging Face 开源主页上,开发者 ehartford 质疑称该模型使用了 Meta LLaMA 的架构,只对两个张量(Tensor)名称进行了修改,分别为 input_layernorm 和 post_attention_layernorm。

零一万物开源团队总监 Richard Lin 回应称,这一命名问题是开发人员疏忽导致,开发人员在代码中进行了几次重命名,以满足实验要求。但是开发人员“忘记将张量名称修改回 LLaMA”,开发人员对此感到抱歉。

值得一提的是,原阿里首席 AI 科学家贾扬清吐槽国内某一新模型中用的其实是 LLaMA 架构,仅在代码中更改了几个变量名引发网络热议。在被指大模型回应并发布训练模型过程后,贾扬清最新发文,表示开源领域“魔改”要不得

昨日,零一万物官方对 Yi-34B 训练过程进行了说明,表示大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数。IT之家附回应全文:

就零一万物的观察和分析,大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段,基本上国际主流大模型都是基于 Transformer的架构,做 attention,activation,normalization,positional embedding 等部分的改动,LLaMA、Chinchilla、Gopher 等模型的架构和 GPT 架构大同小异,全球开源社区基于主流架构的模型变化非常之多,生态呈现欣欣向荣,国内已发布的开源模型也绝大多数采用渐成行业标准的 GPT / LLaMA 的架构。然而,大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数

模型训练过程好比做一道菜,架构只是决定了做菜的原材料和大致步骤,这在大多数人的认知中也逐步形成共识。要训练出好的模型,还需要更好的“原材料”(数据)和对每一个步骤细节的把控(训练方法和具体参数)。由于大模型技术发展还在非常初期,从技术观点来说,行业共识是与主流模型保持一致的模型结构,更有利于整体的适配与未来的迭代。

零一万物在训练模型过程中,沿用了 GPT / LLaMA 的基本架构,由于 LLaMA 社区的开源贡献,让零一万物可以快速起步。零一万物从零开始训练了 Yi-34B 和 Yi-6B 模型,并根据实际的训练框架重新实现了训练代码,用自建的数据管线构建了高质量配比的训练数据集(从 3PB 原始数据精选到 3T token 高质量数据)。除此以外,在 Infra 部分进行算法、硬件、软件联合端到端优化,实现训练效率倍级提升和极强的容错能力等原创性突破。这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用跟价值。

零一万物团队在训练前的实验中,尝试了不同的数据配比科学地选取了最优的数据配比方案,投注大部分精力调整训练方法、数据配比、数据工程、细节参数、baby sitting(训练过程监测)技巧等。这一系列超越模型架构之外,研究与工程并进且具有前沿突破性的研发任务,才是真正属于模型训练内核最为关键、能够形成大模型技术护城河 know-how 积累。在模型训练同时,零一万物也针对模型结构中的若干关键节点进行了大量的实验和对比验证。举例来说,我们实验了 Group Query Attention(GQA)、Multi-Head Attention(MHA)、Vanilla Attention 并选择了 GQA,实验了 Pre-Norm 和 Post-Norm 在不同网络宽度和深度上的变化,并选择了 Pre-Norm,使用了 RoPE ABF 作为 positional embedding 等。也正是在这些实验与探索过程中,为了执行对比实验的需要,模型对部分推理参数进行了重新命名。

在零一万物初次开源过程中,我们发现用和开源社区普遍使用的 LLaMA 架构会对开发者更为友好,对于沿用 LLaMA 部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,并非刻意隐瞒来源。零一万物对此提出说明,并表达诚挚的歉意,我们正在各开源平台重新提交模型及代码并补充 LLaMA 协议副本的流程中,承诺尽速完成各开源社区的版本更新。

我们非常感谢社区的反馈,零一万物在开源社区刚刚起步,希望和大家携手共创社区繁荣,在近期发布 Chat Model 之后,我们将择期发布技术报告,Yi Open-source 会尽最大努力虚心学习,持续进步。

相关内容

热门资讯

贵州白金酒股份有限公司深陷欠税... 近日,国家税务总局仁怀市税务局通报显示,贵州白金酒股份有限公司(下称“白金酒公司”)存在55.6万元...
2025美国品牌声誉百强榜公布... IT之家 5 月 24 日消息,2025 年《Axios Harris 品牌声誉调查》结果于美国当地...
南非运输公司获政府510亿兰特... 约翰内斯堡5月23日电 (记者 孙翔)南非交通部22日宣布,政府已批准向南非运输公司提供总额510亿...
“红利+科技”哑铃策略已热三年... 财联社5月24日讯(记者 周晓雅)来到“红利+科技”的哑铃策略被广泛讨论的第三个年头,红利主题基金的...
钟南山:国产新冠药物是有效的 中新网广州5月24日电 (记者 王坚)中国工程院院士、广州国家实验室主任钟南山24日通过网络连线在2...
【投融资动态】极豪科技A+轮融... 证券之星消息,根据天眼查APP于5月18日公布的信息整理,天津极豪科技有限公司A+轮融资,融资额未披...
原创 特... 据央视新闻消息,位于塔克拉玛干沙漠腹地的富满油田是我国目前油气资源量最大的超深油田。记者今天从中国石...
“涌金系”13年陪跑终结?凯利... 凯利泰董事会要变天? 作者 | 赵普 高远山 编辑丨武丽娟 来源 | 野马财经 ST凯利(30032...
重大交易达成?特朗普新表态,相... 特朗普改变立场了。 美国总统特朗普5月23日称,美国钢铁公司(简称“美钢”)与日本制铁公司(简称“日...
狂飙的泡泡玛特能否撑起3000... 21世纪经济报道记者 易佳颖 上海报道 5月22日,泡泡玛特(9992.HK)股价一度涨6%报229...
上海国际航运金融大厦更新:激活... 裙房改建商场,作为社区商业,会怎样? 上海国际航运金融大厦是陆家嘴金融贸易区域内的商办项目,2024...
美股、欧股,集体大跌!发生了什... 本文转自【央视财经】; 本周五,美国总统特朗普再次掀起贸易争端,他在其社交平台发文称建议从今年6月1...
52TOYS拟赴港上市!“蜡笔... 5月22日,乐自天成(又称“52TOYS”)向港交所递交招股书,计划赴港上市。这是继泡泡玛特、布鲁可...
价格创新低!光伏、锂电产业供需... 在供需失衡、市场看空情绪笼罩的背景下,备受关注的锂价和硅价在本周双双创出上市以来新低。 5月23日,...
原创 靠... 文 | 张佳儒 港股市场正迎来新一轮IPO热潮。Wind数据显示,截至5月21日,近一年港股IPO募...
比亚迪AH股齐创新高 盘中创历... 财联社5月24日讯(编辑 平方)据Choice数据统计显示,剔除新股次新股以及ST股,包括联合化学、...
德勤英国据悉将削减部分员工奖金 德勤(Deloitte)向其英国某咨询部门员工透露,由于财务业绩低于预期,员工的年度奖金将减少。 德...
浮动费率基金来了!投资者该怎么... 23日傍晚,首批新型浮动费率基金获得中国证监会批准注册,很快将向投资者发售。这批新型基金有哪些特点?...
特朗普“关税威胁”越多,美元和... 德银指出,美国的双赤字地位需要持续的外国资金流入来维持。一旦外资对美债和美元的兴趣冷却,后果可能是汇...
近八成银行高管降薪,最高降幅8... 钛媒体App 5月24日消息,近年来,在业绩承压必须“降本增效”的现实下,多数银行高管薪酬不可避免出...
中国卫生集团拟发行合计7亿股,... 中国卫生集团(00673)发布公告,公司拟进行认购事项及供股,以应对集团的财务挑战及解决资本需求,以...
京沪津消费下降,头部城市走势为... “最近经济形势怎样?”这是与专家访谈、企业座谈、百姓趣谈时常常绕不开的一个问题。 面对这样的问题,记...
1至4月份太铁货物发送量达2.... 原标题:【新数据 新看点】1至4月份——太铁货物发送量达2.52亿吨 今年以来,国铁太原局进一步优化...
赣州首个新规洋房交付太硬核,业... 在房地产行业,提前交付已属罕见,而赣州中海悦江府项目却以提前交付一期楼栋并同步启动二期部分楼栋交付的...
民间智慧丨均值回归不可避免 主持人 | 尹星 二次回压渐近 主持人:这周三泛舟就开始提示,A股短线情绪有转弱的迹象。是不是你所谓...
新型浮动费率基金来了!首批26... 记者了解到,继5月16日首批产品申报后,5月23日26只新型浮动费率基金获证监会注册,预计很快就会向...
A股市值管理进入新阶段,“激励... 文丨李壮 编辑丨承承 编者按:近20年来,我国市值管理政策不断完善,由2004年“国九条”提出资本市...
中国企业首个!纤纳光电以独立第... 记者获悉,杭州纤纳光电科技股份有限公司(简称“纤纳光电”)以第一通讯单位身份,在国际顶级学术期刊《科...
A股半导体大佬们,排队赴港上市 5月20日,看似普通的夜晚,半导体行业传来两条消息。兆易创新发布公告,宣布拟发行境外上市外资股(以下...
陕西旅游集团:积极推动阿根廷国... 北京时间5月24日消息,今天陕西旅游集团官方发布文章称:5月23日下午,阿根廷国会议员路易斯·阿尔比...