大家有没有听说过马斯克的新AI模型Grok 3?在刚刚结束的发布会上,这个被称为“地球上最聪明的人工智能”的家伙可谓是大放异彩,不仅在各项基准测试中遥遥领先于ChatGPT,还展示了生成复杂动画和游戏的能力。用户反馈却让人意外,它在实际应用中却频频出错,这到底是怎么回事?让我们一起深入了解一下!
2024年2月17日,马斯克旗下的AI公司xAI正式发布了Grok 3及其精简版Grok 3 mini,在一场观看人数超过100万的直播发布会上,马斯克亲自向大家展示了这一新模型的强大功能。Grok 3被誉为“地球上最聪明的人工智能”,其背后的超级计算机集群Colossus拥有20万块GPU,成为其训练模型的强大后盾。
基于Colossus的强大算力,Grok 3在各项AI基准测试中都取得了优异的成绩,尤其是在数学、科学和编程领域的表现令人刮目相看。在美国数学邀请赛(AIME)中,Grok 3获得了52分的高分,而ChatGPT仅仅获得了20分的成绩。在GPQA测试中,Grok 3获得了75分的满分,而ChatGPT则只有57分。编程能力的测试中,Grok 3也以57分的成绩大幅度领先于ChatGPT的28分。
在发布会中,马斯克还展示了Grok 3生成复杂动画和游戏的能力,这在其他AI模型中几乎是闻所未闻的。尽管如此,用户反馈Grok 3在实际应用中并不尽如人意,尤其是在处理特定问题时,Grok 3的回答竟然出现了错误。显然,模型的训练还没有完全覆盖所有的知识领域。
值得一提的是,Grok 3虽然在基准测试中表现突出,但仍然没有解决“表情符号之谜”的问题,这个困扰AI模型多年的难题依然让它无从下手。
OpenAI的联合创始人Andrej Karpathy在发布会后也对Grok 3给予了高度评价,他表示Grok 3的体验与ChatGPT的o1pro相似,但在某些方面更胜一筹,例如在数学、科学和编程方面的表现就要强于DeepSeekR1和Gemini 2.0 Flash Thinking。Karpathy曾经是特斯拉的人工智能负责人,此番对Grok 3的评价,相当于给了马斯克一剂强心针。
Grok 3是第一个在AI基准测试平台lmarena.ai上得分超过1400分的模型,1400分在这个平台上已经是一个天花板级别的分数了,其他模型如ChatGPT也就1000多分的样子。Grok 3能够取得这样的成绩,离不开Colossus超级计算机集群的支持。
尽管Grok 3在各项基准测试中表现优异,但用户反馈却显示其实际应用能力有所欠缺。用户提到他们使用Grok 3解决实际问题时,它给出的答案有时候会出现错误,这让用户对它的稳定性产生了疑虑。此外,有用户表示,Grok 3对一些特定领域的问题回答得不够精准,比如经济学和社会学的问题,这可能是因为模型训练时没有覆盖到这些领域。
后续对Grok 3的评测将成为它能否在市场上占有一席之地的重要参考。目前来看,它已经吸引了很多人的关注,但是能否真正留住用户,还需要看它后续的表现。
总之,Grok 3在理论上的表现让人期待,但在实际应用中却暴露了不少问题,看来马斯克和他的团队还有很多工作要做。你们觉得Grok 3能否在未来真正打破AI的瓶颈,成为用户心目中的“AI之王”?欢迎在评论区聊聊你的看法,别忘了点赞支持哦!