20万块英伟达芯片练出Grok 3：测试得分均高于竞争对手，运算能力是上代10倍

预热许久的“地表最聪明AI”Grok 3正式亮相。

2月18日，特斯拉创始人埃隆·马斯克旗下xAI推出最新大模型Grok 3，并在直播中进行了现场演示。马斯克称，非常高兴能够推出 Grok3，它的能力将在短时间内比Grok2强大了十倍。“xAI和Grok的目的是理解宇宙的本质。”

功能完整的Grok 3将在一周后正式上线，不过用户依旧需要“钞能力”才能体验到最新版本的Grok。

直播介绍，Grok 3测试版现已面向马斯克旗下X平台的X Premium订阅用户开放，“我们今天将推出Grok3，首先从X上的Premium Plus订阅者开始，他们将是第一批获得访问权限的人。请确保更新您的X应用程序以探索所有高级功能，因为我们刚刚发布了更新。如果您有兴趣尽早使用Grok 3，请注册Premium Plus。”

xAI还针对Grok 3开发了新的订阅功能。“此外，我们还将为想要获得最先进功能和尽早使用新功能的忠实粉丝推出一项名为Super Grok的单独订阅。这项服务适用于Grok应用程序和新网站grok.com。”据报道，

马斯克表示，预计一周之后Grok 3的所有功能将正式上线。他说，“如果你想要一个更完善的版本，可能值得等待一周，但每天都会有所改进。我们还在开发语音交互功能，以便你可以拥有对话体验。我今天早些时候试过了，效果很好，尽管它仍然需要一些完善。我们的目标是让你可以像和人交谈一样和它交谈。我认为这将是Grok3最好的体验之一，但这应该还要一周左右的时间。”

马斯克说，计划在每次发布新版本时，对上一版本进行开源，也就是说，几个月后Grok 2即将开源。

xAI工程师介绍，虽然Grok起步较晚，但在MMLU（大规模多任务语言理解基准测试）得分上以超快地速度追上了ChatGPT，Grok 3和轻量化的Grok 3 mini在多方面性能上都超过或媲美Gemini、DeepSeek和GPT-4o等对手。

据介绍，Grok 3在数学推理、科学逻辑推理和代码写作等项目的Benchmark测试（基准测试）中均取得了比DeepSeek-v3、GPT-4o、Gemini-2 Pro更优的效果。Grok 3分别得分为52、75和57。Grok 3 mini分别得分为40、65和41。这两个模型的得分都高于Gemini、DeepSeek、Claude和GPT。

工程师说，“大约五天前，AIME2025竞赛结束了，高中生们在一个特定的基准上竞争。然后我们让两个模型在同一场考试中在同一基准上竞争。有趣的是，更大的Grok3推理模型在这场考试中表现更好。这表明，与较小的模型相比，较大的模型具有更强的泛化能力。然而，在去年的考试中，较小的模型表现更好，因为它更有效地学习了以前的考试。”