Большая модель Али снова в открытом исходном коде! Способен читать изображения и узнавать объекты, на основе Tongyi Qianwen 7B, имеется в продаже.

巴比特_

2023-08-26 08:03:47

Источник: Кубит

Большая модель Али с открытым исходным кодом и новая~

Вслед за Tongyi Qianwen-7B (Qwen-7B) Alibaba Cloud запустила крупномасштабную модель визуального языка Qwen-VL, исходный код которой будет открыт сразу после выхода в Интернет.

В частности, Qwen-VL — это мультимодальная большая модель, основанная на Tongyi Qianwen-7B, которая поддерживает несколько входных данных, таких как изображения, текст и кадры обнаружения, а также поддерживает вывод кадров обнаружения в дополнение к тексту.

Например, 🌰 мы вводим изображение Арнии в форме вопросов и ответов, Qwen-VL-Chat может не только обобщить содержание изображения, но и найти Арнию на изображении.

В тестовом задании Qwen-VL продемонстрировал силу «шестиугольного воина» и в стандартной английской оценке четырех типов мультимодальных задач (Zero-shot Caption/VQA/DocVQA/Grounding) достиг показателя SOTA.

Как только появилась новость об открытом исходном коде, она привлекла большое внимание.

Давайте посмотрим на конкретное выступление~

Первая универсальная модель, поддерживающая позиционирование открытого домена в Китае

Давайте посмотрим на характеристики моделей серии Qwen-VL в целом:

Многоязычный диалог: поддержка многоязычного диалога, сквозная поддержка распознавания длинного текста на китайском и английском языках в картинках;
Диалог с чередованием нескольких изображений: поддержка ввода и сравнения нескольких изображений, задание вопросов и ответов по изображениям, создание литературы из нескольких изображений и т. д.;
Первая модель общего назначения, поддерживающая позиционирование открытого домена на китайском языке: рамка обнаружения отмечается с помощью выражения языка открытого домена на китайском языке, то есть целевой объект можно точно найти на экране;
Детальное распознавание и понимание: по сравнению с разрешением 224, используемым в других LVLM с открытым исходным кодом (крупномасштабная модель визуального языка), Qwen-VL является первой моделью LVLM с открытым исходным кодом и разрешением 448. Более высокие разрешения могут улучшить детальное распознавание текста, ответы на вопросы в документе и аннотации в поле обнаружения.

Что касается сценариев, Qwen-VL можно использовать в таких сценариях, как ответы на вопросы знаний, ответы на вопросы по изображениям, ответы на вопросы по документам и детальное визуальное позиционирование.

Например, если друг-иностранец, который не понимает по-китайски, идет в больницу на прием к врачу, глядя на карту-путеводитель одной головой и двумя большими, и не знает, как добраться до соответствующего отделения, он может напрямую бросить карту. и вопросы Квен-ВЛ, и пусть он следует, информация изображения действует как переводчик.

Давайте проверим ввод и сравнение нескольких изображений:

Хотя он и не узнал Арнию, его эмоциональное суждение действительно было весьма точным (ручная собачья голова).

С точки зрения визуального позиционирования, даже если картинка очень сложная и на ней много персонажей, Квен-ВЛ может точно найти Халка и Человека-паука по требованиям.

Что касается технических деталей, Qwen-VL использует Qwen-7B в качестве базовой языковой модели, вводит визуальный кодировщик ViT в архитектуру модели и соединяет их через адаптер визуального языка с учетом положения, так что модель поддерживает ввод визуального сигнала. .

Конкретный процесс обучения разделен на три этапа:

Предварительное обучение: оптимизируйте только визуальный кодировщик и адаптер визуального языка, заморозьте языковую модель. При использовании крупномасштабных парных данных изображение-текст разрешение входного изображения составляет 224x224.
Многозадачная предварительная тренировка: вводите многозадачные визуальные языковые данные более высокого разрешения (448x448), такие как VQA, текстовый VQA, справочное понимание и т. д., для совместной многозадачной предварительной тренировки.
Контролируемая тонкая настройка: заморозка визуального кодировщика, оптимизация языковой модели и адаптеров. Используйте данные диалогового взаимодействия для оперативной настройки и получения окончательной модели Qwen-VL-Chat с интерактивными возможностями.

Исследователи протестировали Qwen-VL на стандартных тестах по английскому языку в четырех категориях мультимодальных задач (Zero-shot Caption/VQA/DocVQA/Grounding).

Результаты показывают, что Qwen-VL достигает лучших результатов среди LVLM с открытым исходным кодом того же размера.

Кроме того, исследователи создали набор тестов TouchStone на основе механизма оценки GPT-4.

В этом сравнительном тесте Qwen-VL-Chat достиг уровня SOTA.

Если вас интересует Qwen-VL, в сообществе Modak и Huggingface есть демоверсии, которые вы можете попробовать напрямую, ссылка находится в конце статьи~

Qwen-VL поддерживает исследователей и разработчиков для проведения вторичных разработок, а также допускает коммерческое использование, но следует отметить, что для коммерческого использования необходимо сначала заполнить анкету-заявку.

Ссылка на проект:

-Чат

Бумажный адрес:

Посмотреть Оригинал

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

комментарий

0/400

Нет комментариев