【Apprentissage par renforcement pour les agents d'ingénierie en apprentissage automatique】



Montrez qu'un petit modèle paramétrique 3B (Qwen2.5-3B) entraîné avec RL peut surpasser des modèles frontaliers beaucoup plus grands (Claude-3.5-Sonnet, GPT-4o) sur des tâches d'ingénierie ML - atteignant 22 % en moyenne.
GPT8.04%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 7
  • Reposter
  • Partager
Commentaire
0/400
screenshot_gainsvip
· 09-08 06:20
Un petit modèle donne une leçon à un grand modèle
Voir l'originalRépondre0
0xDreamChaservip
· 09-08 06:20
Ça commence à avoir un certain goût.
Voir l'originalRépondre0
CryingOldWalletvip
· 09-08 06:18
Tout ne va pas, mais je suis le meilleur dans tout ce qui est compétition.
Voir l'originalRépondre0
RuntimeErrorvip
· 09-08 06:14
Le petit modèle surpasse le grand modèle 666
Voir l'originalRépondre0
GasFeeBeggarvip
· 09-08 06:14
Petit modèle écrase grand modèle ? Bull !
Voir l'originalRépondre0
ZKSherlockvip
· 09-08 05:57
en réalité, une optimisation assez élégante des ressources informatiques... bien que les implications en matière de confidentialité nécessitent un examen approfondi.
Voir l'originalRépondre0
BlockchainGrillervip
· 09-08 05:55
Le petit modèle a mis le grand modèle à terre ?
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)