【Посилене навчання для агентів машинного навчання】



Покажіть, що маленька 3B параметрична модель (Qwen2.5-3B), навчена з використанням RL, може перевершити набагато більші фронтові моделі (Claude-3.5-Sonnet, GPT-4o) у задачах ML інженерії - досягнувши 22% в середньому.
GPT-3.07%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 9
  • Репост
  • Поділіться
Прокоментувати
0/400
NFTRegretDiaryvip
· 1год тому
Вітчизняне світло, вперед!
Переглянути оригіналвідповісти на0
screenshot_gainsvip
· 09-08 06:20
Маленька модель навчила велику модель
Переглянути оригіналвідповісти на0
0xDreamChaservip
· 09-08 06:20
Трохи вийшло в духу.
Переглянути оригіналвідповісти на0
CryingOldWalletvip
· 09-08 06:18
Що не потрібно, все не виходить, а в тому, що потрібно, перший.
Переглянути оригіналвідповісти на0
RuntimeErrorvip
· 09-08 06:14
Маленька модель перемогла велику модель 666
Переглянути оригіналвідповісти на0
GasFeeBeggarvip
· 09-08 06:14
Маленька модель б'є велику модель? бик вау
Переглянути оригіналвідповісти на0
ZKSherlockvip
· 09-08 05:57
насправді досить елегантна оптимізація обчислювальних ресурсів... хоча питання конфіденційності потребують уважності
Переглянути оригіналвідповісти на0
BlockchainGrillervip
· 09-08 05:55
Маленька модель перемогла велику модель?
Переглянути оригіналвідповісти на0
  • Закріпити