李开复回应 Yi 大模型套壳 LLaMA 争议:受益于开源也贡献开源
IT之家
2023-11-16 12:55:09

原标题:李开复回应 Yi 大模型套壳 LLaMA 争议:受益于开源也贡献开源

IT之家 11 月 16 日消息,针对近日零一万物被质疑完全使用 LLaMA 架构,只对两个张量(Tensor)名称做修改,李开复在朋友圈进行了回应。

李开复表示:“全球大模型架构一路从 GPT2 --> Gopher --> Chinchilla --> Llama2 --> Yi,行业逐渐形成大模型的通用标准,就像做一个手机 App 开发者,不会去自创 iOS、Android 以外的全新基础架构01.AI起步受益于开源,也贡献开源,从社区中虚心学习,我们会持续进步。”

据IT之家此前报道,创新工场董事长兼 CEO 李开复于今年创办了 AI 大模型创业公司“零一万物”,该公司已推出 Yi-34B 和 Yi-6B 两个开源大模型,号称对学术研究完全开放,同步开放免费商用申请。

然而在 Yi-34B 的 Hugging Face 开源主页上,开发者 ehartford 质疑称该模型使用了 Meta LLaMA 的架构,只对两个张量(Tensor)名称进行了修改,分别为 input_layernorm 和 post_attention_layernorm。

零一万物开源团队总监 Richard Lin 回应称,这一命名问题是开发人员疏忽导致,开发人员在代码中进行了几次重命名,以满足实验要求。但是开发人员“忘记将张量名称修改回 LLaMA”,开发人员对此感到抱歉。

值得一提的是,原阿里首席 AI 科学家贾扬清吐槽国内某一新模型中用的其实是 LLaMA 架构,仅在代码中更改了几个变量名引发网络热议。在被指大模型回应并发布训练模型过程后,贾扬清最新发文,表示开源领域“魔改”要不得

昨日,零一万物官方对 Yi-34B 训练过程进行了说明,表示大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数。IT之家附回应全文:

就零一万物的观察和分析,大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段,基本上国际主流大模型都是基于 Transformer的架构,做 attention,activation,normalization,positional embedding 等部分的改动,LLaMA、Chinchilla、Gopher 等模型的架构和 GPT 架构大同小异,全球开源社区基于主流架构的模型变化非常之多,生态呈现欣欣向荣,国内已发布的开源模型也绝大多数采用渐成行业标准的 GPT / LLaMA 的架构。然而,大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数

模型训练过程好比做一道菜,架构只是决定了做菜的原材料和大致步骤,这在大多数人的认知中也逐步形成共识。要训练出好的模型,还需要更好的“原材料”(数据)和对每一个步骤细节的把控(训练方法和具体参数)。由于大模型技术发展还在非常初期,从技术观点来说,行业共识是与主流模型保持一致的模型结构,更有利于整体的适配与未来的迭代。

零一万物在训练模型过程中,沿用了 GPT / LLaMA 的基本架构,由于 LLaMA 社区的开源贡献,让零一万物可以快速起步。零一万物从零开始训练了 Yi-34B 和 Yi-6B 模型,并根据实际的训练框架重新实现了训练代码,用自建的数据管线构建了高质量配比的训练数据集(从 3PB 原始数据精选到 3T token 高质量数据)。除此以外,在 Infra 部分进行算法、硬件、软件联合端到端优化,实现训练效率倍级提升和极强的容错能力等原创性突破。这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用跟价值。

零一万物团队在训练前的实验中,尝试了不同的数据配比科学地选取了最优的数据配比方案,投注大部分精力调整训练方法、数据配比、数据工程、细节参数、baby sitting(训练过程监测)技巧等。这一系列超越模型架构之外,研究与工程并进且具有前沿突破性的研发任务,才是真正属于模型训练内核最为关键、能够形成大模型技术护城河 know-how 积累。在模型训练同时,零一万物也针对模型结构中的若干关键节点进行了大量的实验和对比验证。举例来说,我们实验了 Group Query Attention(GQA)、Multi-Head Attention(MHA)、Vanilla Attention 并选择了 GQA,实验了 Pre-Norm 和 Post-Norm 在不同网络宽度和深度上的变化,并选择了 Pre-Norm,使用了 RoPE ABF 作为 positional embedding 等。也正是在这些实验与探索过程中,为了执行对比实验的需要,模型对部分推理参数进行了重新命名。

在零一万物初次开源过程中,我们发现用和开源社区普遍使用的 LLaMA 架构会对开发者更为友好,对于沿用 LLaMA 部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,并非刻意隐瞒来源。零一万物对此提出说明,并表达诚挚的歉意,我们正在各开源平台重新提交模型及代码并补充 LLaMA 协议副本的流程中,承诺尽速完成各开源社区的版本更新。

我们非常感谢社区的反馈,零一万物在开源社区刚刚起步,希望和大家携手共创社区繁荣,在近期发布 Chat Model 之后,我们将择期发布技术报告,Yi Open-source 会尽最大努力虚心学习,持续进步。

相关内容

热门资讯

人民日报力推“猪油控体重”?别... 最近朋友圈被一篇 “吃猪油能瘦还抗炎” 的文章刷爆,标注着 “中国科学报来源”“Nature 子刊研...
分享实测辅助∶掌上约牌辅助器脚... 亲,掌上约牌这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总...
年度报告 | 于613篇推文,... 每经记者|杨欢 刘艳美 每经编辑|杨欢 图片来源:摄图网_500349417 2025年的最后一...
正帆科技涨3.67%,成交额5... 来源:新浪证券-红岸工作室 12月31日,正帆科技涨3.67%,成交额5.13亿元,换手率5.50%...
实测攻略!四川功夫麻将辅助挂作... 本篇文章给大家谈谈怎样看出四川功夫麻将开挂开挂没,以及四川功夫麻将怎么看出来是开挂对应的知识点,希望...
实测攻略!一点山西麻将辅助挂作... 本篇文章给大家谈谈怎样看出一点山西麻将开挂开挂没,以及一点山西麻将怎么看出来是开挂对应的知识点,希望...
吕临华任浙商银行行长 | 简历 【大河财立方消息】12月31日,浙商银行公告,行长陈海强因工作安排辞职。 记者了解到,浙商银行董事会...
我来教大家“德州撲克-菠蘿外挂... 我来教大家“德州撲克-菠蘿外挂究竟是真的吗”(爆光开挂猫腻) 德州撲克-菠蘿辅助插件辅助器中分为三种...
实测攻略!博雅红河棋牌辅助挂作... 无需打开直接搜索微信:博雅红河棋牌有挂吗本司针对手游进行,选择我们的四大理由:1、软件助手是一款功能...
股权被冻、诉讼缠身,海辰储能I... 作者 | 封华 编辑 | 魏晓 储能赛道“新贵”海辰储能的IPO征程,仍未能拨开迷雾。 一方面,海辰...