【Укрепляющее обучение для агентов машинного обучения】
Покажите, что небольшая 3B параметрическая модель (Qwen2.5-3B), обученная с помощью RL, может превзойти гораздо более крупные фронтовые модели (Claude-3.5-Sonnet, GPT-4o) по задачам ML-инженерии - достигая в среднем 22%.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
16 Лайков
Награда
16
9
Репост
Поделиться
комментарий
0/400
NFTRegretDiary
· 4ч назад
Свет отечественного производства, вперед!
Посмотреть ОригиналОтветить0
screenshot_gains
· 09-08 06:20
Маленькая модель дает урок большой модели
Посмотреть ОригиналОтветить0
0xDreamChaser
· 09-08 06:20
Уже начинает ощущаться.
Посмотреть ОригиналОтветить0
CryingOldWallet
· 09-08 06:18
Ничего не получится, а в соревнованиях всегда первый.
Посмотреть ОригиналОтветить0
RuntimeError
· 09-08 06:14
Маленькая модель побеждает большую модель 666
Посмотреть ОригиналОтветить0
GasFeeBeggar
· 09-08 06:14
Маленькая модель может победить большую модель? Бык ва!
Посмотреть ОригиналОтветить0
ZKSherlock
· 09-08 05:57
на самом деле это довольно элегантная оптимизация вычислительных ресурсов... хотя вопросы конфиденциальности требуют внимательного рассмотрения
【Укрепляющее обучение для агентов машинного обучения】
Покажите, что небольшая 3B параметрическая модель (Qwen2.5-3B), обученная с помощью RL, может превзойти гораздо более крупные фронтовые модели (Claude-3.5-Sonnet, GPT-4o) по задачам ML-инженерии - достигая в среднем 22%.