【Укрепляющее обучение для агентов машинного обучения】



Покажите, что небольшая 3B параметрическая модель (Qwen2.5-3B), обученная с помощью RL, может превзойти гораздо более крупные фронтовые модели (Claude-3.5-Sonnet, GPT-4o) по задачам ML-инженерии - достигая в среднем 22%.
GPT7.84%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • Репост
  • Поделиться
комментарий
0/400
NFTRegretDiaryvip
· 4ч назад
Свет отечественного производства, вперед!
Посмотреть ОригиналОтветить0
screenshot_gainsvip
· 09-08 06:20
Маленькая модель дает урок большой модели
Посмотреть ОригиналОтветить0
0xDreamChaservip
· 09-08 06:20
Уже начинает ощущаться.
Посмотреть ОригиналОтветить0
CryingOldWalletvip
· 09-08 06:18
Ничего не получится, а в соревнованиях всегда первый.
Посмотреть ОригиналОтветить0
RuntimeErrorvip
· 09-08 06:14
Маленькая модель побеждает большую модель 666
Посмотреть ОригиналОтветить0
GasFeeBeggarvip
· 09-08 06:14
Маленькая модель может победить большую модель? Бык ва!
Посмотреть ОригиналОтветить0
ZKSherlockvip
· 09-08 05:57
на самом деле это довольно элегантная оптимизация вычислительных ресурсов... хотя вопросы конфиденциальности требуют внимательного рассмотрения
Посмотреть ОригиналОтветить0
BlockchainGrillervip
· 09-08 05:55
Маленькая модель победила большую модель?
Посмотреть ОригиналОтветить0
  • Закрепить