L'équipe XAI de Musk lance Grok 3: les tests de référence dépassent la concurrence, permettant une réflexion visuelle et la création de nouveaux jeux.

2025-02-18 06:31:00

Le 18 février 2025, Musk a officiellement présenté le dernier modèle d'intelligence artificielle, Grok 3, avec l'équipe XAI, et a présenté ses performances exceptionnelles en mathématiques, compréhension scientifique et capacité de codage lors de la conférence de presse. En plus des performances aux tests de référence traditionnels, Grok 3 a également apporté une expérience révolutionnaire en inférence en temps réel et en créativité, démontrant le potentiel des futurs modèles d'IA pour relever des défis complexes et des tâches créatives.

Dépassement du test Benchmark : Grok 3 remporte la victoire dans l'arène de l'IA

GROK 3 est testé dans trois grands domaines :

Raisonnement mathématique (norme de mathématiques de compétition AIME pour lycée)

Connaissances scientifiques (couvrant des problèmes de niveau doctoral)

Capacité de codage (y compris des questions techniques de type compétition et LeetCode)

Dans tous les tests, le Grok 3 a performé de manière exceptionnelle, surpassant non seulement ses concurrents sur le marché, mais atteignant même un niveau de pointe que son plus petit homologue, le Grok 3 Mini.

Pour vérifier si l'IA se limite à mémoriser des matériaux pédagogiques et des codes source open source, XAI a organisé une compétition à l'aveugle sur la plateforme Chatbot Arena. Ce test a complètement éliminé la marque et l'interface utilisateur, permettant aux utilisateurs de comparer les réponses de deux IA sans le savoir. Finalement, Grok 3 s'est classé premier dans toutes les catégories, avec un score ELO dépassant 1 400 et continuant de progresser, démontrant ainsi une puissante capacité en situation réelle.

GROK 3 démontre l'inférence en temps réel et la créativité

GROK 3 non seulement résout les problèmes de test standardisés, mais montre également la capacité de réflexion et de création en temps réel.

Animation de fusée 3D : le processus de réflexion de l'IA

L'équipe XAI a posé un défi sur place : "Créer une animation en 3D simulant le lancement d'une fusée depuis la Terre, l'atterrissage sur Mars, et le retour sur Terre lors de la prochaine fenêtre de lancement." Lors de la résolution de ce type de problème, Grok 3 a introduit une fonctionnalité novatrice : la visualisation du "processus de réflexion". Les utilisateurs peuvent observer en temps réel les étapes de raisonnement de l'IA, voire même "entrer" à l'intérieur de Grok 3 pour comprendre sa manière de résoudre les problèmes.

Comme il s'agit d'une démonstration en temps réel, il existe une possibilité d'erreur de l'IA, donc XAI a lancé plusieurs instances en parallèle pour garantir qu'au moins une version puisse s'exécuter avec succès. Cela montre la flexibilité de l'IA dans les tâches complexes, ainsi que l'exploration par l'équipe XAI de la transparence de l'inférence en temps réel de l'IA.

L'IA crée de nouveaux jeux : Tetris + Bejeweled

Une autre démonstration remarquable est la capacité de Grok 3 à créer des jeux de manière autonome. L'équipe a défié l'IA : "Concevoir un jeu qui fusionne Tetris et Bejeweled." Cette tâche créative exige de l'IA non seulement qu'elle comprenne les mécanismes essentiels des deux jeux, mais qu'elle crée également un nouveau design de jeu.

L'IA traditionnelle pourrait simplement copier des jeux existants, mais Grok 3 a réellement créé un nouveau jeu jouable, prouvant qu'il possède également des capacités d'innovation et d'application en dehors du raisonnement.

Pour permettre à l'IA de mieux performer dans de telles tâches difficiles, XAI a activé le « Big Brain Mode », permettant au modèle d'utiliser plus de ressources de calcul pour améliorer sa capacité de raisonnement et créative. Cela montre que l'IA future pourra non seulement imiter, mais aussi générer de nouveaux concepts et solutions.

Le potentiel futur de GROK 3

GROK 3 est actuellement en cours de formation, l'équipe XAI souligne : "Ce que nous montrons actuellement n'est que la version de test de GROK 3, mais il est en avance sur le marché dans de nombreux aspects. Avec une optimisation continue, la version complète future sera plus compétitive."

De plus, XAI entraîne également Grok 3 Mini Reasoning (version simplifiée du modèle de raisonnement), qui, bien que de taille plus petite, dépasse la version complète dans certains contextes, démontrant ainsi le grand potentiel de croissance de l'IA après une formation prolongée.

La sortie de Grok 3 prouve non seulement la puissance de l'IA en mathématiques, en sciences et en codage, mais montre également au monde la possibilité pour l'IA de réfléchir instantanément et de créer de nouveaux concepts. Les deux points forts de cette démonstration - la visualisation du processus de réflexion de l'IA et la création autonome de nouveaux jeux - signifient que l'IA n'est plus seulement un organisateur d'informations, mais devient véritablement un résolveur de problèmes et un moteur d'innovation.

Cet article présente la sortie de Grok 3 par l'équipe XAI de Musk : des tests de benchmark qui dépassent la concurrence, permettant une réflexion visuelle et la création de nouveaux jeux. Il est apparu pour la première fois dans les nouvelles de la chaîne ABMedia.

XAI0.81%

GROK-1.24%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
1
Partager

Commentaire

0/400

Ltx999

· 02-18 09:12

bull！

Voir l'originalRépondre0

Rubrique
1/3
1Simple Earn Annual Rate 24.4%
28k Popularité
2Gate Launchpad List IKA
32k Popularité
3ETH Trading Volume Surges
28k Popularité
4Gate ETH 10th Anniversary Celebration
20k Popularité
5Trump’s AI Strategy
16k Popularité

Épingler