ось де з'являється FastVLM



вони накладають MLP для проекції візуальних токенів з FastViTHD у світ LLM

результат: набагато менше токенів (, наприклад, в 4 рази менше, ніж FastViT, в 16 разів менше, ніж ViT‑L/14 при роздільній здатності 336 пікселів ). Я маю на увазі, що це велике зниження кількості токенів і складності, тоді як
IN3.73%
MLP1.81%
PIXEL3.93%
TOKEN5.57%
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
0/400
GasFeeLovervip
· 7год тому
Так і буде, що тут хвалити?
Переглянути оригіналвідповісти на0
ser_we_are_earlyvip
· 7год тому
Схоже, FastVLM справді дивовижний!
Переглянути оригіналвідповісти на0
BlockchainBardvip
· 7год тому
Вражаюче, шокований кількістю токенів.
Переглянути оригіналвідповісти на0
WhaleWatchervip
· 7год тому
Знову зробили щось нове!
Переглянути оригіналвідповісти на0
DiamondHandsvip
· 7год тому
А-а-а, мене трохи збило з пантелику...
Переглянути оригіналвідповісти на0
  • Закріпити