Источник: Кубит
Большая модель Али с открытым исходным кодом и новая~
Вслед за Tongyi Qianwen-7B (Qwen-7B) Alibaba Cloud запустила крупномасштабную модель визуального языка Qwen-VL, исходный код которой будет открыт сразу после выхода в Интернет.
В частности, Qwen-VL — это мультимодальная большая модель, основанная на Tongyi Qianwen-7B, которая поддерживает несколько входных данных, таких как изображения, текст и кадры обнаружения, а также поддерживает вывод кадров обнаружения в дополнение к тексту.
Например, 🌰 мы вводим изображение Арнии в форме вопросов и ответов, Qwen-VL-Chat может не только обобщить содержание изображения, но и найти Арнию на изображении.
В тестовом задании Qwen-VL продемонстрировал силу «шестиугольного воина» и в стандартной английской оценке четырех типов мультимодальных задач (Zero-shot Caption/VQA/DocVQA/Grounding) достиг показателя SOTA.
Как только появилась новость об открытом исходном коде, она привлекла большое внимание.
Давайте посмотрим на конкретное выступление~
Давайте посмотрим на характеристики моделей серии Qwen-VL в целом:
Что касается сценариев, Qwen-VL можно использовать в таких сценариях, как ответы на вопросы знаний, ответы на вопросы по изображениям, ответы на вопросы по документам и детальное визуальное позиционирование.
Например, если друг-иностранец, который не понимает по-китайски, идет в больницу на прием к врачу, глядя на карту-путеводитель одной головой и двумя большими, и не знает, как добраться до соответствующего отделения, он может напрямую бросить карту. и вопросы Квен-ВЛ, и пусть он следует, информация изображения действует как переводчик.
Давайте проверим ввод и сравнение нескольких изображений:
Хотя он и не узнал Арнию, его эмоциональное суждение действительно было весьма точным (ручная собачья голова).
С точки зрения визуального позиционирования, даже если картинка очень сложная и на ней много персонажей, Квен-ВЛ может точно найти Халка и Человека-паука по требованиям.
Что касается технических деталей, Qwen-VL использует Qwen-7B в качестве базовой языковой модели, вводит визуальный кодировщик ViT в архитектуру модели и соединяет их через адаптер визуального языка с учетом положения, так что модель поддерживает ввод визуального сигнала. .
Конкретный процесс обучения разделен на три этапа:
Исследователи протестировали Qwen-VL на стандартных тестах по английскому языку в четырех категориях мультимодальных задач (Zero-shot Caption/VQA/DocVQA/Grounding).
Результаты показывают, что Qwen-VL достигает лучших результатов среди LVLM с открытым исходным кодом того же размера.
Кроме того, исследователи создали набор тестов TouchStone на основе механизма оценки GPT-4.
В этом сравнительном тесте Qwen-VL-Chat достиг уровня SOTA.
Если вас интересует Qwen-VL, в сообществе Modak и Huggingface есть демоверсии, которые вы можете попробовать напрямую, ссылка находится в конце статьи~
Qwen-VL поддерживает исследователей и разработчиков для проведения вторичных разработок, а также допускает коммерческое использование, но следует отметить, что для коммерческого использования необходимо сначала заполнить анкету-заявку.
Ссылка на проект:
-Чат
Бумажный адрес: