出典: 量子ビット
アリのオープンソース大規模モデルと新しいモデル~
Tongyi Qianwen-7B (Qwen-7B) に続き、Alibaba Cloud は 大規模ビジュアル言語モデル Qwen-VL をリリースしました。これはオンラインになるとすぐに直接オープンソース化されます。
具体的には、Qwen-VL は、Tongyi Qianwen-7B をベースにしたマルチモーダル大規模モデルで、画像、テキスト、検出フレームなどの複数の入力をサポートし、テキストに加えて検出フレームの出力もサポートします。
たとえば、🌰 質問と回答の形式で Arnia の写真を入力すると、Qwen-VL-Chat は写真の内容を要約するだけでなく、写真内の Arnia の位置を特定することもできます。
Qwen-VLは、テスト課題において「六角戦士」の強さを実証し、4種類のマルチモーダル課題(ゼロショットキャプション/VQA/DocVQA/グラウンディング)の標準英語評価においてSOTAを達成しました。
オープンソースのニュースが出るとすぐに、大きな注目を集めました。
具体的なパフォーマンスを見てみましょう〜
Qwen-VLシリーズモデル全体の特徴を見てみましょう。
シナリオに関しては、Qwen-VL は知識質問応答、画像質問応答、文書質問応答、きめ細かい視覚的位置決めなどのシナリオで使用できます。
例えば、中国語が理解できない外国人の友人が病院に診察に行き、頭と二つの大きな地図を前にして、該当する科への行き方が分からない場合、地図を直接投げることができます。 Qwen-VL に質問し、画像情報を翻訳者として追跡させます。
複数画像の入力と比較をテストしてみましょう。
彼はアルニアを認識しませんでしたが、彼の感情的な判断は確かに非常に正確でした(手動の犬の頭)。
視覚的な位置決め能力の点では、絵が非常に複雑でキャラクターが多い場合でも、Qwen-VL は要件に応じてハルクとスパイダーマンを正確に見つけることができます。
技術的な詳細に関しては、Qwen-VL はベース言語モデルとして Qwen-7B を使用し、モデル アーキテクチャにビジュアル エンコーダー ViT を導入し、位置認識ビジュアル言語アダプターを介して 2 つを接続するため、モデルはビジュアル信号入力をサポートします。 。
具体的なトレーニング プロセスは 3 つのステップに分かれています。
研究者らは、マルチモーダル タスクの 4 つのカテゴリ (ゼロショット キャプション/VQA/DocVQA/グラウンディング) における標準的な英語評価で Qwen-VL をテストしました。
結果は、Qwen-VL が同じサイズのオープンソース LVLM よりも最良の結果を達成していることを示しています。
さらに、研究者らは GPT-4 スコアリング メカニズムに基づいてテスト セット TouchStone を構築しました。
今回の比較テストでは、Qwen-VL-Chat が SOTA を達成しました。
Qwen-VL に興味がある場合は、Modak Community と Huggingface にデモがあり、直接試すことができます。リンクは記事の最後にあります~
Qwen-VLは研究者や開発者の二次開発をサポートしており、商用利用も可能ですが、商用利用の場合は事前にアンケート申請が必要となりますので注意してください。
プロジェクトリンク:
-チャット
用紙のアドレス:
245k 人気度
34k 人気度
30k 人気度
52k 人気度
大型モデルもオープンソース化アリ!市販のTongyi Qianwen 7Bに基づいて、画像を読み取り、オブジェクトを認識できます。
出典: 量子ビット
Tongyi Qianwen-7B (Qwen-7B) に続き、Alibaba Cloud は 大規模ビジュアル言語モデル Qwen-VL をリリースしました。これはオンラインになるとすぐに直接オープンソース化されます。
たとえば、🌰 質問と回答の形式で Arnia の写真を入力すると、Qwen-VL-Chat は写真の内容を要約するだけでなく、写真内の Arnia の位置を特定することもできます。
中国のオープンドメインポジショニングをサポートする初の一般モデル
Qwen-VLシリーズモデル全体の特徴を見てみましょう。
シナリオに関しては、Qwen-VL は知識質問応答、画像質問応答、文書質問応答、きめ細かい視覚的位置決めなどのシナリオで使用できます。
例えば、中国語が理解できない外国人の友人が病院に診察に行き、頭と二つの大きな地図を前にして、該当する科への行き方が分からない場合、地図を直接投げることができます。 Qwen-VL に質問し、画像情報を翻訳者として追跡させます。
視覚的な位置決め能力の点では、絵が非常に複雑でキャラクターが多い場合でも、Qwen-VL は要件に応じてハルクとスパイダーマンを正確に見つけることができます。
研究者らは、マルチモーダル タスクの 4 つのカテゴリ (ゼロショット キャプション/VQA/DocVQA/グラウンディング) における標準的な英語評価で Qwen-VL をテストしました。
さらに、研究者らは GPT-4 スコアリング メカニズムに基づいてテスト セット TouchStone を構築しました。
Qwen-VL に興味がある場合は、Modak Community と Huggingface にデモがあり、直接試すことができます。リンクは記事の最後にあります~
Qwen-VLは研究者や開発者の二次開発をサポートしており、商用利用も可能ですが、商用利用の場合は事前にアンケート申請が必要となりますので注意してください。
プロジェクトリンク:
-チャット
用紙のアドレス: