导读

大家有没有听说过马斯克的新AI模型Grok 3？在刚刚结束的发布会上，这个被称为“地球上最聪明的人工智能”的家伙可谓是大放异彩，不仅在各项基准测试中遥遥领先于ChatGPT，还展示了生成复杂动画和游戏的能力。用户反馈却让人意外，它在实际应用中却频频出错，这到底是怎么回事？让我们一起深入了解一下！

Grok 3发布掀起AI讨论热潮

2024年2月17日，马斯克旗下的AI公司xAI正式发布了Grok 3及其精简版Grok 3 mini，在一场观看人数超过100万的直播发布会上，马斯克亲自向大家展示了这一新模型的强大功能。Grok 3被誉为“地球上最聪明的人工智能”，其背后的超级计算机集群Colossus拥有20万块GPU，成为其训练模型的强大后盾。

基于Colossus的强大算力，Grok 3在各项AI基准测试中都取得了优异的成绩，尤其是在数学、科学和编程领域的表现令人刮目相看。在美国数学邀请赛(AIME)中，Grok 3获得了52分的高分，而ChatGPT仅仅获得了20分的成绩。在GPQA测试中，Grok 3获得了75分的满分，而ChatGPT则只有57分。编程能力的测试中，Grok 3也以57分的成绩大幅度领先于ChatGPT的28分。

在发布会中，马斯克还展示了Grok 3生成复杂动画和游戏的能力，这在其他AI模型中几乎是闻所未闻的。尽管如此，用户反馈Grok 3在实际应用中并不尽如人意，尤其是在处理特定问题时，Grok 3的回答竟然出现了错误。显然，模型的训练还没有完全覆盖所有的知识领域。

值得一提的是，Grok 3虽然在基准测试中表现突出，但仍然没有解决“表情符号之谜”的问题，这个困扰AI模型多年的难题依然让它无从下手。

Karpathy点赞Grok 3

OpenAI的联合创始人Andrej Karpathy在发布会后也对Grok 3给予了高度评价，他表示Grok 3的体验与ChatGPT的o1pro相似，但在某些方面更胜一筹，例如在数学、科学和编程方面的表现就要强于DeepSeekR1和Gemini 2.0 Flash Thinking。Karpathy曾经是特斯拉的人工智能负责人，此番对Grok 3的评价，相当于给了马斯克一剂强心针。

Grok 3是第一个在AI基准测试平台lmarena.ai上得分超过1400分的模型，1400分在这个平台上已经是一个天花板级别的分数了，其他模型如ChatGPT也就1000多分的样子。Grok 3能够取得这样的成绩，离不开Colossus超级计算机集群的支持。

用户反馈与市场前景

尽管Grok 3在各项基准测试中表现优异，但用户反馈却显示其实际应用能力有所欠缺。用户提到他们使用Grok 3解决实际问题时，它给出的答案有时候会出现错误，这让用户对它的稳定性产生了疑虑。此外，有用户表示，Grok 3对一些特定领域的问题回答得不够精准，比如经济学和社会学的问题，这可能是因为模型训练时没有覆盖到这些领域。

后续对Grok 3的评测将成为它能否在市场上占有一席之地的重要参考。目前来看，它已经吸引了很多人的关注，但是能否真正留住用户，还需要看它后续的表现。

结语

总之，Grok 3在理论上的表现让人期待，但在实际应用中却暴露了不少问题，看来马斯克和他的团队还有很多工作要做。你们觉得Grok 3能否在未来真正打破AI的瓶颈，成为用户心目中的“AI之王”？欢迎在评论区聊聊你的看法，别忘了点赞支持哦！

上一篇：2月19日A股物流板块收盘：音飞储存领涨10.00%

下一篇：盐湖股份连跌4天，华泰柏瑞基金旗下1只基金位列前十大股东

原创 20万张GPU“烧出”地表最强AI？马斯克的Grok3超1400分登顶排行榜

导读

Grok 3发布掀起AI讨论热潮

Karpathy点赞Grok 3

用户反馈与市场前景

结语

相关内容

热门资讯