У цьому документі представлено floq (flow-matching Q-функції), новий підхід до навчання критиків у навчанні з підкріпленням, що використовує ітераційні обчислення та техніки збігання потоку.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
У цьому документі представлено floq (flow-matching Q-функції), новий підхід до навчання критиків у навчанні з підкріпленням, що використовує ітераційні обчислення та техніки збігання потоку.