2025-09-08 05:50:51

【機械学習エンジニアのための強化学習】

小さな3Bパラメータモデル(Qwen2.5-3B)がRLで訓練されることで、はるかに大きな最前線モデル(Claude-3.5-Sonnet、GPT-4o)を上回り、MLエンジニアリングタスクで22%の平均を達成できることを示します。

GPT8.04%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

14 いいね

0/400

screenshot_gains

· 09-08 06:20

小さなモデルが大きなモデルに一教えを与える

原文表示返信0

0xDreamChaser

· 09-08 06:20

ちょっと雰囲気が出てきた

原文表示返信0

CryingOldWallet

· 09-08 06:18

何もできず、競争では一番

原文表示返信0

RuntimeError

· 09-08 06:14

小さなモデルが大きなモデルを圧倒する 666

原文表示返信0

GasFeeBeggar

· 09-08 06:14

小モデルが大モデルを叩きつける？強気だね

原文表示返信0

ZKSherlock

· 09-08 05:57

実際、計算リソースの非常に優雅な最適化ですが... プライバシーへの影響は注意が必要です

原文表示返信0

BlockchainGriller

· 09-08 05:55

小さいモデルが大きいモデルを倒したの？

原文表示返信0