Команда Ілона Маска з XAI випустила Grok 3: тест Бенчмарк, що перевершує конкурентів, візуалізує мислення, розуміє створення нових ігор

2025-02-18 06:31:00

18 февраля 2025 года Маск и XAI команда официально выпустили новую модель искусственного интеллекта Grok 3 и продемонстрировали ее выдающиеся результаты в математическом рассуждении, научном понимании и способности к кодированию на пресс-конференции. Помимо традиционных тестовых оценок Бенчмарк, Grok 3 также обеспечивает прорывные возможности в области мгновенного рассуждения и творческих приложений, демонстрируя потенциал будущих моделей искусственного интеллекта в решении сложных проблем и креативных задач.

Превзойти тест Бенчмарк: Grok 3 одержал победу на арене искусственного интеллекта

GROK 3 проходит тестирование в трех крупных областях:

Математическое мышление (стандарт математики соревнований AIME для старшей школы)

Научные знания (охватывают проблемы докторантов)

Способности к кодированию (включая задачи по соревновательному программированию и технические вопросы в стиле LeetCode)

Во всех тестах Grok 3 проявляет себя отлично, не только превзойдя конкурентов на рынке, но даже более маленькая версия Grok 3 Mini достигла передового уровня.

Для проверки, является ли искусственный интеллект только запоминанием материала и открытым программным обеспечением, XAI провела слепой тестовый матч на платформе Chatbot Arena. Этот тест полностью убрал бренд и пользовательский интерфейс, позволяя пользователям сравнивать ответы двух искусственных интеллектов, не зная, какой из них отвечает. В конечном итоге Grok 3 занял первое место во всех категориях, его рейтинг Elo превысил 1,400 и продолжает расти, продемонстрировав мощные боевые навыки.

GROK 3 демонстрирует мгновенное мышление и креативность

GROK 3 не только решает проблемы стандартизированных тестов, но также демонстрирует способность к мгновенному мышлению и творчеству.

3D анимация ракеты: мыслительный процесс искусственного интеллекта

Команда XAI на месте представила сложную задачу: «Создать анимационную 3D-графику, симулирующую запуск ракеты с Земли, посадку на Марс и возвращение на Землю в следующем окне запуска.» При работе над такими задачами Grok 3 предоставляет инновационную функцию: визуализацию «процесса мышления». Пользователи могут мгновенно видеть шаги рассуждений ИИ, даже «войти» во внутренности Grok 3 и изучить способ решения проблем.

Поскольку это демонстрация в реальном времени, существует возможность ошибки искусственного интеллекта, поэтому XAI запускает несколько параллельных экземпляров, чтобы гарантировать успешное выполнение хотя бы одной версии. Это демонстрирует гибкость искусственного интеллекта в сложных задачах, а также исследования команды XAI в области прозрачности мгновенного вывода искусственного интеллекта.

AI создает новую игру: Tetris + Bejeweled

Еще одним впечатляющим демонстрационным примером является способность Grok 3 автоматически создавать игры. Команда бросила вызов искусственному интеллекту: "Создайте игру, объединяющую Tetris и Bejeweled". Это творческое задание требует от ИИ не только понимания основных механик двух игр, но и создания совершенно нового дизайна игры.

Традиционный искусственный интеллект, возможно, просто скопирует существующую игру, но Grok 3 действительно создал новую игру, доказав свою способность к комбинированию инноваций и применению вне области рассуждений.

Для того чтобы искусственный интеллект лучше справлялся с такими сложными задачами, XAI включает 'Режим Большого Мозга', позволяющий модели использовать больше вычислительных ресурсов для улучшения её логики и творческих способностей. Это показывает, что в будущем искусственный интеллект сможет не только имитировать, но и создавать новые концепции и решения.

Будущий потенциал Grok 3

GROK 3 в настоящее время продолжает тренировки, команда XAI подчеркивает: "Мы сейчас показываем только тестовую версию GROK 3, но она уже лидирует на рынке по многим показателям. С продолжением оптимизации полная версия будет более конкурентоспособной в будущем."

Кроме того, XAI также обучает Grok 3 Mini Reasoning (упрощенную модель рассуждения), которая, хотя и меньше по размеру, в определенных ситуациях превосходит полную версию, что показывает огромный потенциал роста искусственного интеллекта после длительного обучения.

Релиз Grok 3 не только подтверждает мощные возможности ИИ в математике, науке и кодировании, но и демонстрирует миру возможность мгновенного мышления и создания новых концепций ИИ. Два ключевых момента этого демонстрационного материала - "визуализация мыслительного процесса ИИ" и "автономное создание совершенно новой игры" - означают, что ИИ больше не просто упорядочивает информацию, а становится настоящим решателем проблем и стимулятором инноваций.

Эта статья Маска XAI команда запустила Grok 3: тестирование Бенчмарк превышает конкурентов, понимание визуализации мышления, создание новых игр появилась в Chain News ABMedia.

XAI1.52%

GROK-1.41%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
1
Поделиться

комментарий

0/400

Ltx999

· 02-18 09:12

бык!

Посмотреть ОригиналОтветить0

Тема
1/3
1Simple Earn Annual Rate 24.4%
28k Популярность
2Gate Launchpad List IKA
33k Популярность
3ETH Trading Volume Surges
28k Популярность
4Gate ETH 10th Anniversary Celebration
20k Популярность
5Trump’s AI Strategy
18k Популярность

Закрепить

Карта сайта