马斯克 XAI 团队推出 Grok 3：基准测试超越竞业，可视化思考、懂创造新游戏

2025-02-18 06:31:00

2025 年 2 月 18 日，马斯克带领着 XAI 团队正式发布了最新的人工智慧模型 Grok 3，并在发布会上展示了该模型在数学推理、科学理解与编码能力方面的卓越表现。除了传统的基准测试成绩外，Grok 3 还在即时推理与创造力应用上带来了突破性的体验，显示出未来 AI 模型在应对复杂问题和创意任务方面的潜力。

超越基准测试：Grok 3 在 AI 竞技场获得胜利

Grok 3 在三大领域接受测试：

数学推理（AIME 高中竞赛数学标准）

科学知识（涵盖博士级问题）

编码能力（包含竞技编程与 LeetCode 风格的技术面试题）

在所有测试中，Grok 3 均表现优异，不仅超越市场上的竞争对手，甚至其较小版本 Grok 3 Mini 也达到了尖端水准。

为了验证 AI 是否仅仅是记忆教材与开源程式码，XAI 在 Chatbot Arena 平台上进行了一场盲测竞技。该测试完全去除品牌与 UI，让用户在不知情的情况下比较两个 AI 的回答，最终 Grok 3 在所有类别中排名第一，ELO 分数突破 1,400，并仍持续攀升，展现了强大的实战能力。

Grok 3 展示即时推理与创造力

Grok 3 不仅能解决标准化的测试问题，还展现了即时思考与创造能力。

3D 火箭动画：AI 的思考历程

XAI 团队在现场输入了一个挑战性问题：「生成一个动画 3D 图，模拟从地球发射火箭、降落火星，并在下个发射窗口返回地球。」 Grok 3 在处理这类问题时，提供了一个创新的功能：「思考过程」可视化。用户可以即时查看 AI 的推理步骤，甚至「进入」Grok 3 内部，阅读其处理问题的方式。

由于这是即时演示，存在 AI 出错的可能，因此 XAI 启动了多个并行实例，以确保至少有一个版本能够成功执行。这展现了 AI 在复杂任务中的灵活性，以及 XAI 团队对于 AI 即时推理透明化的探索。

AI 创造新游戏：Tetris + Bejeweled

另一个引人注目的展示是 Grok 3 自主创造游戏的能力。团队挑战 AI：「设计一款融合俄罗斯方块（Tetris）与宝石方块（Bejeweled）的游戏。」这种创意任务要求 AI 不仅要理解两款游戏的核心机制，还要产生全新的游戏设计。

传统 AI 可能会直接复制既有游戏，但 Grok 3 真正创造了一款可玩的新游戏，证明其在推理之外，也具备组合创新与应用能力。

为了让 AI 在这类高难度任务中表现更好，XAI 启用了「Big Brain Mode」，让模型使用更多计算资源，以提高其推理与创意能力。这显示未来的 AI 不仅能模仿，还能产生全新的概念与解决方案。

Grok 3 的未来潜力

Grok 3 目前仍在持续训练中，XAI 团队强调：「我们现在展示的只是 Grok 3 的测试版本，但它已经在多项指标上领先市场。随着持续优化，未来的完整版本将更具竞争力。」

此外，XAI 也在训练 Grok 3 Mini Reasoning（精简版推理模型），尽管它的规模较小，却在某些情境下超越完整版本，显示 AI 在长时间训练后仍有极大的成长潜力。

Grok 3 的发布，不仅证明了 AI 在数学、科学与编码方面的强大能力，更向世界展示了 AI 即时思考与创造新概念的可能性。这次展示的两大亮点 —「AI 思考历程的可视化」与「自主创造全新游戏」——意味着 AI 不再只是资讯的整理者，而正在成为真正的问题解决者与创新推动者。

这篇文章马斯克 XAI 团队推出 Grok 3：基准测试超越竞业，可视化思考、懂创造新游戏最早出现于链新闻 ABMedia。

XAI-0.7%

GROK-1.49%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
1
分享

0/400

Ltx999

· 02-18 09:12

牛！