Маск XAI команда представляє Grok 3: тестування Бенчмарк перевершує конкурентів, візуалізація думок, розуміння створення нових ігор

2025 року 18 лютого Маск очолив команду XAI та офіційно представив найновішу модель штучного інтелекту Grok 3, демонструючи її виняткові можливості в математичному мисленні, науковому розумінні та кодуванні під час прес-конференції. Окрім традиційних тестів Бенчмарк, Grok 3 також забезпечив проривний досвід у реальному часі та творчих застосуваннях, що свідчить про потенціал майбутніх моделей штучного інтелекту в розв'язанні складних завдань та творчих завдань.

Перевершення тесту Бенчмарк: Grok 3 переміг в арені штучного інтелекту

GROK 3 проходить тестування в трьох ключових галузях:

Математичне мислення (стандарт AIME для старшої школи)

Наукові знання (охоплює питання на рівні докторантури)

Навички кодування (включаючи завдання з програмування та технічні питання у стилі LeetCode)

У всіх тестах Grok 3 проявився відмінно, випередивши не лише конкурентів на ринку, а й досягнувши передового рівня навіть його менша версія, Grok 3 Mini.

Для підтвердження того, що штучний інтелект полягає лише в запам'ятовуванні матеріалів та відкритому програмному забезпеченні, XAI провела сліпий турнір на платформі Chatbot Arena. Цей тест повністю позбавлений брендів та користувацького інтерфейсу, що дозволяє користувачам порівняти відповіді двох ШІ, не знаючи про це. В результаті Grok 3 посів перше місце у всіх категоріях, його рейтинг Elo перевищив 1,400 і продовжує зростати, демонструючи велику бойову ефективність.

GROK 3 демонструє миттєвий розсуд та творчість

GROK 3 не лише вирішує проблеми стандартизованого тестування, але також демонструє здатність до миттєвого мислення та творчості.

  1. Анімація 3D-ракети: процес мислення штучного інтелекту

Команда XAI на місці поставила складне завдання: "Створити анімаційну 3D-карту, що симулює запуск ракети з Землі, посадку на Марс і повернення на Землю під час наступного вікна запуску". Коли Grok 3 вирішує такі завдання, він надає інноваційну функцію: візуалізацію "процесу мислення". Користувач може миттєво переглянути кроки мислення штучного інтелекту, навіть "потрапити" всередину Grok 3 і дізнатися, як він вирішує проблему.

Оскільки це демонстрація в реальному часі, є можливість помилки штучного інтелекту, тому XAI запускає кілька паралельних екземплярів, щоб забезпечити успішне виконання принаймні однієї версії. Це демонструє гнучкість ШІ в складних завданнях, а також дослідження команди XAI у сфері транспарентності миттєвого розуміння ШІ.

  1. AI створює нову гру: Tetris + Bejeweled

Ще одним вражаючим виступом була здатність Grok 3 автономно створювати гру. Команда виклику для штучного інтелекту: "розробити гру, що поєднує в собі Tetris та Bejeweled". Це творче завдання вимагало від штучного інтелекту не лише розуміння основних механік обох ігор, але й створення зовсім нового дизайну гри.

Традиційний штучний інтелект може просто копіювати існуючі гри, але Grok 3 справді створив гру, яку можна грати, довівши, що він має можливості поєднання інновацій та застосування поза межами мислення.

Для того щоб забезпечити кращу продуктивність штучного інтелекту в таких складних завданнях, XAI використовує режим "Великий мозок", що дозволяє моделі використовувати більше обчислювальних ресурсів для покращення її мислення та творчих здібностей. Це показує, що у майбутньому штучний інтелект здатний не лише імітувати, але й створювати абсолютно нові концепції та рішення.

GROK 3 має потенціал у майбутньому

GROK 3 залишається в процесі тренування, команда XAI підкреслює: "Те, що ми показуємо зараз, лише тестова версія GROK 3, але вона вже лідирує на багатьох показниках на ринку. З постійною оптимізацією, майбутня повна версія буде ще більш конкурентоспроможною."

Крім того, XAI також навчає Grok 3 Mini Reasoning (спрощена модель мислення), яка, хоча й має менший масштаб, в деяких випадках перевершує повну версію, що свідчить про великий потенціал зростання штучного інтелекту після тривалої тренування.

GROK 3 випуск не лише підтверджує потужність штучного інтелекту в математиці, науці та кодуванні, але й демонструє можливість миттєвого мислення та творення нових концепцій. Два основні аспекти цього випуску - "візуалізація процесу мислення штучного інтелекту" та "самостійне створення нової гри" - свідчать про те, що штучний інтелект більше не є лише організатором інформації, а стає справжнім розв'язувачем проблем та промоутером інновацій.

Ця стаття Маск XAI команда випустила Grok 3: Бенчмарк тест перевершує конкуренцію, візуалізація мислення, розуміння створення нових ігор, спочатку з'явилася на новинах ланцюга ABMedia.

XAI1.52%
GROK-1.41%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 1
  • Поділіться
Прокоментувати
0/400
Ltx999vip
· 02-18 09:12
бик!
Переглянути оригіналвідповісти на0
  • Закріпити