DatologyAI 完成 5000 万美元 A 轮融资,投资者包括微软、Amplify、Radical、Elad Gil
AI新智界
2024-05-10 11:29:25

原标题:DatologyAI 完成 5000 万美元 A 轮融资,投资者包括微软、Amplify、Radical、Elad Gil

文章来源:有新Newin

图片来源:由无界AI生成

DatologyAI 成立于2023 年,在今年初宣布获得 1165 万美元种子轮融资后,刚刚宣布获得Felicis领投的 4600 万美元 A 轮融资,其它投资者包括Radical Ventures、Amplify Partners、Elad Gil、M12和Alexa Fund。

创始团队包括前 DeepMind和Meta AI 研究员Ari Morcos、前Twitter工程主管Bogdan Gaza 以及前MosaicML数据研究主管Matthew Leavitt。

DatologyAI 目前团队拥有 11 名员工,其目标是减少数据管理中所需的人工决策量(这些决策往往可能存在偏见或耗时)。

DatologyAI 早期知名天使投资人包括:谷歌首席科学家 Jeff Dean、AI 教父 Geoffrey Hinton、Meta 首席 AI 科学家 Yann LeCun、Quora 创始人& OpenAI 董事会成员 Adam D'Angelo、Cohere联合创始人 Aidan Gomez 和 Ivan Zhang、Contextual AI 创始人 Douwe Kiela、AI 副总裁 Naveen Rao 以及扩散模型发明者之一 Jascha Sohl-Dickstein 。

数据质量问题至今没有得到充分解决,是一个严重的疏忽,因为并非所有数据都是一样的,以正确的方式使用正确的数据训练模型可以对生成的模型产生巨大的影响。这不仅仅是性能的问题。

根据德勤的一项调查中,40% 的公司表示,与数据相关的挑战(包括彻底准备和清理数据)是阻碍其 AI计划的首要问题之一。另一项针对数据科学家的民意调查发现,科学家大约 45% 的时间花在数据准备任务上,例如“加载”和清理数据。

改进训练数据意味着改进:

  • 训练过程的效率,使您能够更快地将模型训练到相同或更好的性能,从而节省计算成本并使您的 ML 团队更加高效
  • 模型的性能不仅在一般情况下,而且在数据集中不常见的长尾查询上也表现出色,但对您的业务绝对至关重要
  • 模型的大小:更好的数据意味着更小、更便携的模型,服务成本显着降低并且性能相同

通过确定要训练的正确数据以及呈现这些数据的正确方式来解决这个问题,特别是在面对 PB 级未标记数据时,是一个非常具有挑战性且成本高昂的问题,需要专门的专业知识。但解决这个问题的好处是巨大的,它可以说是当今 AI 研究中最重要的主题之一。

DatologyAI 认为,制定 AI 利用标准的公司需要根据自己的专有数据训练自己的模型。其中许多公司拥有 PB 或更多的未标记且通常是非结构化的数据 - 如此之多,以至于他们无法对所有这些数据进行训练,即使他们愿意,因为它很快就会变得成本高昂(假设你甚至可以访问足够的计算!) 。

因此,标准做法是简单地随机选择数据的子集。与深度学习的大多数其他领域不同,这种实践的创新相对较少被采用。这是有问题的,因为对数据的随机子集进行训练有很多很多问题:

  • 模型将计算浪费在冗余数据上,从而减慢了训练速度并增加了成本。
  • 有些数据具有误导性,实际上会损害性能。例如,在无法编译的代码上训练代码生成模型将导致总体上更糟糕的模型。
  • 对于相同的计算预算,较慢的训练会导致性能较差。
  • 数据集不平衡且有长尾——损害性能和公平性。

底线是:使用错误的数据进行训练会导致模型更差,训练成本更高。但这仍然是标准做法。DatologyAI利用并执行最先进的研究来管理从 Blob 存储中的数据到用于训练代码的数据加载器的整个过程。客户可以部署到自己的基础设施(本地或通过 VPC),以确保客户数据永远不会面临风险。

区别于与其他数据管理初创公司更实际的方法。其他数据管理初创公司中,员工手动查看客户的私人数据以找出存在差距的地方,DataologyAI 则使用算法自动确定模型需要多少数据才能理解某个概念。

例如,模型需要更多复杂概念(例如狗,外观各异)的示例,而不是简单概念(例如大象,它们看起来相对相似)来理解它们。这些算法还确保模型能够看到足够多的罕见“边缘情况”,并且在训练过程中将数据划分为更易于管理的块。相关环节包括:

  • 哪些数据对于训练来说信息量最大?这是一个动态问题,它不仅随着单个数据点的变化而变化,而且随着整个数据集的变化而变化。
  • 每个概念需要多少冗余?不同的概念具有不同的复杂性,因此需要不同数量的冗余。解决这个问题需要自动识别这些概念、它们的复杂性以及实际需要多少冗余。
  • 如何平衡数据集?大多数数据都是长尾的:需要重新平衡数据集,以便模型学习整个分布,而不仅仅是模式。
  • 如何扩充数据?数据增强通常使用其他模型或合成数据,其功能非常强大,但必须以谨慎、有针对性的方式进行。
  • 如何从这些数据中排序和构建批次?尽管看似简单,但排序和批处理数据的方式会对学习速度产生巨大影响!

目前,DatologyAI可扩展到 PB 级数据,并支持任何数据模式,无论数据是文本、图像、视频、音频、表格还是基因组或地理空间数据等更奇特的模式。

天使投资者 YannLeCun 表示,模型的好坏取决于它们所训练的数据,但在数十亿或数万亿个示例中识别正确的训练数据是一个极具挑战性的问题。Ari 和他在 DatologyAI 的团队是解决这个问题的世界专家,相信他们正在构建的产品旨在为任何想要训练模型的人提供高质量的数据管理,这对于帮助 AI发挥作用至关重要。

Reference:

https://www.datologyai.com/post/datologyai-raises-46m-series-a

https://techcrunch.com/2024/02/22/datologyai-is-building-tech-to-automatically-curate-ai-training-data-sets/

相关内容

热门资讯

金明精机:自主研发再结硕果 取... 中证智能财讯 金明精机(300281)5月27日晚间公告,公司近期取得四项国家专利,并取得了国家知识...
中上协:截至4月30日,境内股... 扬子晚报网5月28日讯(记者 马燕)5月28日,据中国上市公司协会微信公众号消息,中上协发布4月统计...
短债锁利 权益突围 理财公司应... “就目前来看,本轮降准降息落地后,理财产品资产端利率在短期内未出现明显下降,反而有所回升。实际上,今...
快手可灵AI一季度营收1.5亿... 近日,快手科技发布2025年第一季度业绩。在AI大模型与平台生态深度融合的背景下,本季度,快手业绩表...
GTCFX:创新技术引领外汇交... 摘要: 发现GTCFX如何通过创新技术彻底改变外汇交易,带您领略未来金融新趋势!了解更多,开启您的交...
原创 美... 据大河报报道,当地时间5月19日,美国白宫官员表示,美国总统特朗普与俄罗斯总统普京进行电话会谈。稍早...
促进海外业务发展 牧原股份拟港... 5月27日,牧原股份向港交所提交H股发行上市的申请,联席保荐人为摩根士丹利、中信证券、高盛。 牧原...
江苏银行宁波分行获批开业,分行... 5月26日,宁波金融监管局发布批复,同意解散宁波江北富民村镇银行,全部资产、负债、业务、网点、员工及...
金荣中国:黄金震荡调整待走强 黄金开盘延续隔夜尾盘止跌回升之力,先行表现走强,但需进一步走强,仍需突破回落趋势线压力,否则将仍有再...
【投融资动态】大化国瑞B轮融资... 证券之星消息,根据天眼查APP于5月26日公布的信息整理,辽宁国瑞新材料有限公司B轮融资,融资额数亿...
比亚迪回应网传“一经销商集团暴... 针对近期“比亚迪山东经销商济南乾城汽车贸易有限公司‘资金链断裂’”传闻,比亚迪集团品牌及公关处相关人...
以色列防长:已摧毁胡塞武装最后... 以色列国防部长卡茨5月28日说,以军空袭也门萨那机场。 卡茨表示,此次袭击摧毁了胡塞武装仍在使用的最...
午报三大指数窄幅震荡涨跌不一,... 一、【早盘盘面回顾】 财联社5月28日讯,市场早盘窄幅震荡,三大指数涨跌不一。沪深两市半日成交额65...
16个区全覆盖!蔚来能源实现天... 2025年5月28日,蔚来换电站|天津和平安泊城市港湾正式启用,蔚来能源实现天津换电县县通,全市16...
机构席位买入968.59万 北... 每经讯,2025年5月28日,北交所上市公司胜业电气(920128,收盘价:39.52元)登上龙虎榜...
小红书虚拟赛道,保姆级流程拆解... 今天给大家带来小红书虚拟赛道,轻松10W+的详细流程拆解。 先上案例,这是在小红书卖简历模板套装,一...
北方华创大跌2.76%!华泰柏... 5月28日,北方华创股票收盘大跌2.76%,天眼查工商信息显示,北方华创科技集团股份有限公司成立于2...
股民诉讼潮下的“护身符”,今年... 本报(chinatimes.net.cn)记者吴敏 北京报道 当监管重锤与诉讼浪潮共振,董事会的座椅...
【财经早晚报】字节将禁用第三方... 今天值得关注的国内外新闻有: 1. 外交部:中国对沙特、阿曼、科威特、巴林4国试行免签 2. 工信部...
GTCFX:多元化产品组合满足... 摘要: 探索GTCFX多元化产品组合,满足您的交易需求,实现投资目标的最佳选择。立即点击了解更多,开...
上汽大众成立动力系统新公司 含... 每经AI快讯,天眼查App显示,近日,上海峰梅动力系统有限公司成立,法定代表人为李文辉,注册资本10...
惠民消费券叠加世界美酒!宁夏·... 6月9日-11日,第五届中国(宁夏)国际葡萄酒文化旅游博览会-国际葡萄酒名庄名酒展将在银川国际会展中...
基金分红:华夏合肥高新产园RE... 证券之星消息,5月28日发布《华夏基金管理有限公司关于华夏合肥高新创新产业园封闭式基础设施证券投资基...
凯辉创新基金三期完成10亿美元... 5月28日,凯辉基金正式宣布旗下凯辉创新基金三期圆满完成最终关账,基金管理规模达10亿美元,成为欧盟...
直击蓝晓科技股东大会:董事长高... 界面新闻记者 | 陈慧东 2024年,蓝晓科技(300487.SZ)营业收入25.54亿元,同比增...
总起价近20亿!深圳光明挂牌一... 粤进深 赵盼盼 5月28日,深圳光明区挂牌一宗宅地,宗地号为A509-0074,挂牌起始价19.94...
清华大学互联网产业研究院院长朱... 5月28日,由北京商报社、《中外企业文化》杂志社主办的“2025深蓝媒体智库年度论坛”在北京国际饭店...
原创 A... 昨夜的美股高歌猛进,虽然这与A股的关系不大,但是美股大型科技股的上涨跟我们多少还有些关联吧,比如说看...
原创 深... 文丨詹詹 郭小兴 编辑丨杜海 来源丨新商悟 (本文约为800字) 近期,深蓝汽车可谓连遭舆论风波。...
原创 武... 武清,已经找到了楼市“甜区”。 今年以来,大打改善牌,核心地段的改善洋房掀起一股热潮。 城投春上...