они накладывают MLP для проекции визуальных токенов из FastViTHD в мир LLM
результат: значительно меньше токенов (, например, в 4 раза меньше, чем FastViT, в 16 раз меньше, чем ViT‑L/14 при разрешении 336 пикселей ). Я имею в виду, что это большое снижение количества токенов и сложности, в то время как
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
10 Лайков
Награда
10
5
Репост
Поделиться
комментарий
0/400
GasFeeLover
· 9ч назад
Ну и ладно, что тут хорошего хвалить.
Посмотреть ОригиналОтветить0
ser_we_are_early
· 9ч назад
Кажется, FastVLM действительно удивительный.
Посмотреть ОригиналОтветить0
BlockchainBard
· 9ч назад
Ужасно удивлен, количество токенов шокировало.
Посмотреть ОригиналОтветить0
WhaleWatcher
· 9ч назад
Снова придумали что-то новое!
Посмотреть ОригиналОтветить0
DiamondHands
· 9ч назад
Аааа, я немного в недоумении от того, что меня дует...
вот где вступает в дело FastVLM
они накладывают MLP для проекции визуальных токенов из FastViTHD в мир LLM
результат: значительно меньше токенов (, например, в 4 раза меньше, чем FastViT, в 16 раз меньше, чем ViT‑L/14 при разрешении 336 пикселей ). Я имею в виду, что это большое снижение количества токенов и сложности, в то время как