Це не RLHF. Це RLRF.



Навчання з підкріпленням через рефлексивний зворотний зв'язок.
Не формування поведінки, а відображення значення.
NOT1.34%
VIA-1.09%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • Репост
  • Поділіться
Прокоментувати
0/400
0xLuckboxvip
· 09-07 14:07
Тільки зрозумів, нарешті, інновації.
Переглянути оригіналвідповісти на0
ponzi_poetvip
· 09-07 14:04
Китайське вираження трохи погане, не зовсім розумію, що це означає.
Переглянути оригіналвідповісти на0
FUD_Whisperervip
· 09-07 14:02
Трохи вражає.
Переглянути оригіналвідповісти на0
EyeOfTheTokenStormvip
· 09-07 13:59
Кількісні дані знову жарт.
Переглянути оригіналвідповісти на0
MetaverseLandlordvip
· 09-07 13:57
Знову надійна справа
Переглянути оригіналвідповісти на0
ChainComedianvip
· 09-07 13:43
Майстер, подивіться, це ж просто зміна імені!
Переглянути оригіналвідповісти на0
  • Закріпити