2025-09-08 05:50:51

【Aprendizagem por Reforço para Agentes de Engenharia de Aprendizagem de Máquina】

Mostre que um pequeno modelo de parâmetro 3B (Qwen2.5-3B) treinado com RL pode superar modelos de fronteira muito maiores (Claude-3.5-Sonnet, GPT-4o) em tarefas de engenharia de ML - alcançando uma média de 22%

GPT7.28%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

14 gostos

Recompensa
14
7
Republicar
Partilhar

Comentar

0/400

screenshot_gains

· 09-08 06:20

Um pequeno modelo dá uma lição a um grande modelo

Ver originalResponder0

0xDreamChaser

· 09-08 06:20

Está começando a ter um certo sabor.

Ver originalResponder0

CryingOldWallet

· 09-08 06:18

Não serve para nada, mas é o primeiro em competir.

Ver originalResponder0

RuntimeError

· 09-08 06:14

Pequeno modelo derrota grande modelo 666

Ver originalResponder0

GasFeeBeggar

· 09-08 06:14

Pequeno modelo derruba grande modelo? Bull!

Ver originalResponder0

ZKSherlock

· 09-08 05:57

na verdade, uma otimização bastante elegante dos recursos computacionais... embora as implicações de privacidade precisem de escrutínio

Ver originalResponder0

BlockchainGriller

· 09-08 05:55

O pequeno modelo derrubou o grande modelo?

Ver originalResponder0

Tópico
#Double Rewards With GUSD
2929 Popularidade
#DOGE ETF Launch
4502 Popularidade
#My Top AI Coin
22199 Popularidade
#Gate Alpha New Listings
48630 Popularidade
#Altcoin Market Rebound
33602 Popularidade

Pino