【Apprentissage par renforcement pour les agents d'ingénierie en apprentissage automatique】
Montrez qu'un petit modèle paramétrique 3B (Qwen2.5-3B) entraîné avec RL peut surpasser des modèles frontaliers beaucoup plus grands (Claude-3.5-Sonnet, GPT-4o) sur des tâches d'ingénierie ML - atteignant 22 % en moyenne.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
14 J'aime
Récompense
14
7
Reposter
Partager
Commentaire
0/400
screenshot_gains
· 09-08 06:20
Un petit modèle donne une leçon à un grand modèle
Voir l'originalRépondre0
0xDreamChaser
· 09-08 06:20
Ça commence à avoir un certain goût.
Voir l'originalRépondre0
CryingOldWallet
· 09-08 06:18
Tout ne va pas, mais je suis le meilleur dans tout ce qui est compétition.
Voir l'originalRépondre0
RuntimeError
· 09-08 06:14
Le petit modèle surpasse le grand modèle 666
Voir l'originalRépondre0
GasFeeBeggar
· 09-08 06:14
Petit modèle écrase grand modèle ? Bull !
Voir l'originalRépondre0
ZKSherlock
· 09-08 05:57
en réalité, une optimisation assez élégante des ressources informatiques... bien que les implications en matière de confidentialité nécessitent un examen approfondi.
【Apprentissage par renforcement pour les agents d'ingénierie en apprentissage automatique】
Montrez qu'un petit modèle paramétrique 3B (Qwen2.5-3B) entraîné avec RL peut surpasser des modèles frontaliers beaucoup plus grands (Claude-3.5-Sonnet, GPT-4o) sur des tâches d'ingénierie ML - atteignant 22 % en moyenne.