【Посилене навчання для агентів машинного навчання】
Покажіть, що маленька 3B параметрична модель (Qwen2.5-3B), навчена з використанням RL, може перевершити набагато більші фронтові моделі (Claude-3.5-Sonnet, GPT-4o) у задачах ML інженерії - досягнувши 22% в середньому.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
15 лайків
Нагородити
15
9
Репост
Поділіться
Прокоментувати
0/400
NFTRegretDiary
· 1год тому
Вітчизняне світло, вперед!
Переглянути оригіналвідповісти на0
screenshot_gains
· 09-08 06:20
Маленька модель навчила велику модель
Переглянути оригіналвідповісти на0
0xDreamChaser
· 09-08 06:20
Трохи вийшло в духу.
Переглянути оригіналвідповісти на0
CryingOldWallet
· 09-08 06:18
Що не потрібно, все не виходить, а в тому, що потрібно, перший.
Переглянути оригіналвідповісти на0
RuntimeError
· 09-08 06:14
Маленька модель перемогла велику модель 666
Переглянути оригіналвідповісти на0
GasFeeBeggar
· 09-08 06:14
Маленька модель б'є велику модель? бик вау
Переглянути оригіналвідповісти на0
ZKSherlock
· 09-08 05:57
насправді досить елегантна оптимізація обчислювальних ресурсів... хоча питання конфіденційності потребують уважності
【Посилене навчання для агентів машинного навчання】
Покажіть, що маленька 3B параметрична модель (Qwen2.5-3B), навчена з використанням RL, може перевершити набагато більші фронтові моделі (Claude-3.5-Sonnet, GPT-4o) у задачах ML інженерії - досягнувши 22% в середньому.