OpenAI最强竞对Claude再次出牌
创始人
2024-10-26 12:13:15

出品|虎嗅科技组

作者|余杨

编辑|苗正卿

头图|视觉中国

10月22日,由Anthropic开发的Claude 3.5迎来重磅升级,发布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude模型也被称为“十四行诗”(Sonnet),Anthropic公司在为其模型命名时,借鉴了文学艺术作品中的术语,其中包括“俳句”(Haiku)、“十四行诗”(Sonnet)和“杰作”(Opus),这些名称不仅代表了模型的不同版本,也反映了它们在功能和性能上的特点。

Claude 3.5 Sonnet 有着更强的编程能力,全新功能的computer use(计算机使用),支持像人类一样操作计算机,可以遵循用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与自己计算机的交互方式。

目前,Claude 3.5 Sonnet 已投入使用。

Claude系列大语言模型,一直被广泛认为是OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。Anthropic在X中发布了模型基准测试结果,与GPT和Gemini在多个领域进行横向对比。

这些领域包括研究生水平的推理能力(GPQA Diamond)、本科生水平的知识掌握(MMLUPro)、代码编写能力(Code HumanEval)、数学问题解决能力(MATH)、视觉问答能力(MMMU)以及代理编码(SWE-bench Verified)和代理工具使用(TAU-bench)。

在研究生水平推理测试(GPQA Diamond)中,Claude 3.5 Sonnet以65.0%的准确率拔得头筹,Claude 3.5 Haiku则以41.6%的准确率则稍显逊色。而Gemini 1.5 Pro 的准确率为59.1%,居于第二。在本科生水平知识测试(MMLUPro)中,Claude 3.5 Sonnet再次以78.0%的准确率领先,而Gemini 1.5 Pro 则以75.8%的准确率紧随其后。

在此次主打的代码编写能力测试(Code HumanEval)中,Claude 3.5 Sonnet以93.7%的准确率取得了最佳成绩,GPT-4o系列模型在这一测试中也展现了不错的性能,准确率为90.2%和87.2%。

虽然在数学问题解决测试(MATH)中,Claude 3.5系列稍显逊色,Gemini 1.5 Pro 仍然碾压全场,但对于视觉问答测试(MMMU)和代理编码测试(SWE-bench Verified),Claude 3.5 Sonnet和Claude 3.5 Haiku仍有着不俗的表现。

而TO B的代理工具使用测试(TAU-bench),则直接关系到大模型的应用能力,此次主要测试了零售和航空领域。Claude 3.5 Sonnet在零售和航空领域的准确率分别为69.2%和46.0%,而Claude 3.5 Haiku在零售和航空领域的准确率分别为51.0%和22.8%。

需要注意的是,OpenAI的o1模型家族由于其依赖于广泛的预响应计算时间,与典型模型存在根本差异,这使得性能比较变得困难,因此在本次评估中被排除在外。

这可能不够具像化。

Anthropic提供了一个演示,在2分钟的视频中,研究员给Claude提出了一个指令:

我的朋友要来旧金山,我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点,查看一下开车时间和日出时间,然后安排一个日历活动,让我们有足够的时间到达那里吗?

Claude的回应首先是,“让我搜索谷歌寻找最佳日出观赏地点”,并自行打开了Google开始搜索。

Claude以用户的居住地为出发点,在地图中check了驾驶时间,随后,Claude不仅打开了一个新的网页确认明天的日出时间,还在日历中设置了行程提醒,并附上了Notes,URL和附件。

开发者展示出Claude如何操控了自己的笔记本电脑,丝滑地完成了一个任务。

Anthropic表示,“我们并没有制作特定工具来帮助 Claude 完成单个任务,而是教它通用的计算机技能——允许它使用为人类设计的各种标准工具和软件程序。我们构建了一个 API,使 Claude 能够感知计算机界面并与之交互。该 API 使 Claude 能够将提示翻译成计算机命令。开发人员可以使用它来自动执行重复性任务、进行测试和 QA 以及进行开放式研究”。

在其他的demo中,开发者还让Claude填写了一份来自蚂蚁设备公司的供应商请求表,需要填写的数据散布在电脑的各个角落,Claude跨应用进行了搜索,切换到CRM系统中,滚动页面,查找填表所需的所有信息,然后提交了表格。

AI操作电脑的能力代表了一种全新的人工智能开发方法,国内开发者也显示出在该领域深入的努力。

10月23日,在荣耀MagicOS 9.0发布会上,新升级的YOYO智能体也展现出 AI 手机端操作能力的类似特质,不仅帮演示者提交了咖啡订单,还填写了博物馆场馆预约信息。

一部分关注者对此满怀期待,认为这意味着工作中许多不得不做的繁琐事项,都可以交由AI 代劳了。

不过,虽然Claude已经取得了一些成绩,但我们日常使用电脑时的许多操作,如拖拽、缩放等,Claude都还无法做到。

并且,它的操作仍然相对缓慢,且像人类一样会出错。在一次演示中,Claude不小心点击停止了一个长时间运行的屏幕录制,导致所有录像都付诸东流。而在另一次编码演示中,Claude则突然“走神”,开始饶有兴趣地浏览起黄石国家公园的照片。

但瑕不掩瑜,这并不妨碍我们像莎士比亚一样,将Claude的新技术比作“夏日”。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

正在改变与想要改变世界的人,都在

相关内容

热门资讯

1至4月全国铁路完成固定资产投... 5月11日电 据“中国铁路”微信公众号消息,今年1至4月,铁路建设优质高效推进,全国铁路完成固定资产...
“美元霸权”出现亚洲裂痕:“去... 财联社5月9日讯(编辑 潇湘)随着上月特朗普反复无常的关税政策引发美国资产抛售潮,一波最新的“去美元...
IPO雷达|瑞博生物转战港股,... 近日,港交所官网显示,苏州瑞博生物技术股份有限公司(简称“瑞博生物”)递交港交所上市申请,中金公司和...
原创 守... 家人们,2025年还未过半,这日子就过得不太平。央行前阵子公布了一组数据,2024年住户存款新增了1...
虚拟产品有什么项目:用一份标准... 如今,越来越多的人走进婚姻,也走出婚姻。而一个看似简单的离婚协议书,正在小红薯上悄悄变成一门火热的副...
机构:美联储将淡化关税带来的暂... 格隆汇5月9日|瑞典北欧斯安银行指出,在风险上升的同时,美联储正在等待更多的明确性。贸易政策和经济前...
A股ESG治理迈入新阶段 承承 编者按: 7月1日,修订版《信披办法》正式施行,叠加配套的《上市公司可持续发展报告指引》和《编...
银行股逆势走强,机构增持信号明... 近期A股市场震荡调整之际,银行板块再度展现强劲韧性。5月9日,银行股逆市飘红,多只个股股价创历史新高...
美关税战已经打到婴儿 美国新手... 在美国的婴幼儿用品商店,美国政府滥施关税的负面效应也在逐渐显现。不少零售商表示,婴儿车、座椅等商品进...
中国光大银行主承销首批7单科技... 光大银行9日消息,由该行主承销的7单全国首批科技创新债券于5月8日统一公告亮相,有序开展发行。 上...
“内鬼”梁伟被查,两天前还公开... 据贵州省纪委监委5月10日消息:贵州省总工会党组成员、副主席梁伟涉嫌严重违纪违法,目前正接受审查调查...
货币政策加大宏观调控强度 为贯彻中央政治局会议精神,进一步实施好适度宽松的货币政策,中国人民银行行长潘功胜近日在国新办新闻发布...
HR软件初创公司融资4.5亿美... 自AI大模型风靡以来,其他IT领域很少出现令人惊喜的消息。不过人力资源软件初创公司 Rippling...
试行首月 外贸信托落地三单股权... 今年4月,《国家金融监督管理总局北京监管局 北京市市场监督管理局关于做好股权信托财产登记工作的通知(...
长城证券成功发行深交所首支证券... 长城证券5月9日发布公告,公司2025年面向专业投资者公开发行科技创新公司债券(第一期),发行规模为...
李嘉诚,突然出手! 李嘉诚旗下企业在北京开发长达二十余年的住宅项目——御翠园再度降价,七折抛售,价格下降近百万。引发市场...
部分银行一季度收入利润负增长 ... 长线资金继续布局。 5月9日,建设银行(601939.SH)、江苏银行(600919.SH)、浦发银...
万能险最低保证利率可调 保险行... 《通知》强化了万能险设计、结算和投资监管,万能险新业务允许最低保证利率可调,利差损风险继续下降,万能...
雷军突然发文! 5月10日,雷军发博文打卡健身,这是他2025年第42次打卡。 他表示,“ 过去一个多月,是我创办小...
ETF快速审批时代来了!指数基... 最近证监会说要改革公募基金,多搞点"中低波动"的产品,还要让指数基金(比如大家熟悉的ETF)注册更快...
禾昌聚合蓄力升级高附加值产品 ... 5月9日,苏州禾昌聚合材料股份有限公司(以下简称“禾昌聚合”)举行2024年年度报告业绩说明会。会上...
宝泰隆:当前整体市场环境波动大... 宝泰隆(601011)5月9日召开2024年度暨2025年第一季度业绩说明会,公司董事长焦强,董事、...
北京通州新盘接连入市 金隅花溪... 观点网五月以来,北京已有三个新房项目取得预售许可证。 其中,金隅花溪云锦在5月1日取得预售许可证,准...
原创 工... 5月7日,上海嘉定的工行客户金条风波,就像一颗投入平静湖面的石子,激起千层浪。客户在工行上海市嘉定支...
快评|印巴为何停火?已达成“一... 据央视新闻报道,当地时间5月10日,巴基斯坦外长达尔表示,巴基斯坦和印度已同意立即停火。同日,印度外...
市场监管总局和中国消费者协会联... 市场监管总局和中国消费者协会5月9日联合发布直播带货消费提示,提醒消费者科学认知、理性消费,帮助广大...
国外节日礼物进入订购旺季 义乌... 据统计,每年有数十亿美元的国外节日礼物用品从义乌出口到世界各地,占全球市场近80%的份额。眼下,义乌...
义乌市麦昔日用品有限公司淘汰中... 如今,生活条件好了,没有人还在为基本的温饱问题而烦恼,追求创意生活,潮流生活的人越来越多,而义乌市麦...
增持银行股!险资又出手了 5月9日,港交所披露的信息显示,平安人寿于5月6日增持招商银行347.55万股H股,持股比例由11....
华桥汇利(中国)投资基金管理有... 根据海关总署的最新数据,今年前四个月,中国的货物贸易进出口总值达到了十四点一四万亿元人民币,同比增长...