xAI Grok-1.5V視覚モデル公開:RealWorldQAベンチマークでGPT-4Vを上回る

xAIが初の視覚マルチモーダルモデルGrok-1.5Vを正式リリースし、RealWorldQAベンチマークテストでOpenAIのGPT-4Vを上回る性能を示した。

xAIは先日、同社初のマルチモーダル視覚モデルであるGrok-1.5Vを正式にリリースした。このモデルはRealWorldQAベンチマークテストで優れた性能を示し、OpenAIのGPT-4Vを上回った。同モデルは実世界の画像理解に特化しており、写真、グラフ、図面など多様な視覚データを効率的に処理できる。Elon MuskがXプラットフォームで自ら宣伝投稿を行い、わずか数時間で5万件を超えるインタラクションを記録し、AI業界で大きな話題となった。これはxAIがテキストモデルから視覚マルチモーダル分野への重要な飛躍を示している。

背景:xAIの急速な進化とマルチモーダルへの野心

xAIは2023年にElon Muskによって設立され、宇宙の真理を探求することを目指している。同社の中核製品であるGrokシリーズのチャットボットは急速に進化を遂げている。2024年3月、Grok-1.5は数学とコードのベンチマークでGPT-3.5を上回り、今回のGrok-1.5Vはさらに視覚分野へと拡張された。従来のAI企業とは異なり、xAIはXプラットフォームへのリアルタイムデータアクセスを重視し、イノベーションを加速するため一部モデルのオープンソース化を約束している。

Grok-1.5Vのリリースは、マルチモーダルAI競争が白熱化する中で行われた。OpenAIのGPT-4V、GoogleのGemini、AnthropicのClaudeはすでに視覚分野に参入しているが、xAIは「実世界理解」を強調し、実験室データではなく日常生活シーンに最適化している点で差別化を図っている。

中核内容:RealWorldQAでの優位性と強力な視覚能力

Grok-1.5VはRealWorldQAベンチマークで68.7%のスコアを獲得し、GPT-4Vの67.7%を上回った。これは実世界の空間理解を公開評価する初のテストセットで、スマートフォンで撮影された数百枚の写真を含み、方向、物体の数え上げ、常識推論などを評価する。

モデルの特徴:

  • 文書とグラフの理解:手書きメモ、商品リスト、科学的グラフを解読し、90%以上の精度を達成
  • 実写真の処理:街頭の航空写真や室内の雑然とした写真など、ぼやけた画像や複数物体のシーンを認識
  • マルチモーダル対話:テキストと画像を組み合わせ、「この回路図を説明して」や「写真から天気を推測して」などのタスクをサポート

xAI公式ブログによると、Grok-1.5Vは混合エキスパートアーキテクチャ(MoE)を採用し、パラメータ規模は3000億を超える。すでにGrokチャットインターフェースに統合され、ユーザーがアップロードした画像に即座に応答できる。現在、X Premiumサブスクライバーに無料で提供され、世界中の数百万人のユーザーをカバーしている。

「Grok-1.5Vは実世界の視覚理解で先行しており、これはxAIのAGI追求におけるもう一つのマイルストーンだ」——xAI公式ツイート

各方面の見解:Muskのツイートが議論を巻き起こし、業界の評価は分かれる

Elon Muskは4月12日にXで投稿:「Grok-1.5VがRealWorldQAでGPT-4Vを打ち負かした!実験室の完璧な写真ではなく、実世界の混沌を理解できる」この投稿は2.5万いいね、1.2万リツイートを獲得し、コメント欄には数千人のAI従事者からのフィードバックが殺到した。

AI研究者のAndrej Karpathy(元OpenAI)は「RealWorldQAは良いベンチマークで、xAIの進歩は評価に値するが、規模化された展開はまだ観察が必要」とコメント。清華大学の朱軍教授は「Grok-1.5Vは実用性を強調し、無料公開戦略はエコシステムを加速させるが、プライバシーとバイアスの問題には警戒が必要」と述べた。

OpenAIからの公式回答はまだないが、X上でのユーザー比較テストでは、Grok-1.5Vはグラフ解析でより正確で、GPT-4Vは創造的生成で優位を示している。Meta AIの責任者Yann LeCunは「競争が進歩を推進する、より多くのオープンソースベンチマークを期待する」と投稿した。

影響分析:OpenAIへの挑戦、視覚AI情勢の再編

Grok-1.5Vのリリースは業界に大きな影響を与えている。まず、OpenAIの視覚分野での覇権に挑戦している。GPT-4Vは強力だが有料APIが必要なのに対し、Grokは無料+リアルタイムXデータで開発者を引き付けている。次に、xAIエコシステムの拡大を推進している:将来的にはTeslaの自動運転視覚やSpaceXの衛星画像分析と統合される可能性がある。

より広い視点では、マルチモーダルAIが「実世界」時代に突入した。MMM-Uなどの従来のベンチマークは合成データに依存しているが、RealWorldQAはスマートフォン写真を導入し、より実用に即している。xAIのこの動きは競合他社の反復を刺激し、Google Gemini 1.5の視覚モジュールのアップグレードなどにつながる可能性がある。

リスクも存在する:視覚モデルはデータ汚染の影響を受けやすく、xAIはセキュリティフィルタリングを強化する必要がある。規制面では、EUのAI法案がXデータの使用を審査する可能性がある。経済面では、無料戦略でユーザーは獲得できるが、収益化はPremiumサブスクリプションに依存し、年間収益は10億ドルを超えると予測される。

データによると、リリース後XプラットフォームのGrok使用量は30%急増し、NVDAなどのAI関連株は2%上昇した。

結語:視覚AI新時代におけるxAIの競争

Grok-1.5Vは技術的ブレークスルーであるだけでなく、xAIによるOpenAIへの正面からの挑戦でもある。優れたベンチマークとオープン戦略により、「真理の追求」がテキストに留まらないことを証明した。将来、Grok-2の反復により、視覚+言語+行動のマルチモーダル融合がAGIプロセスを加速させるだろう。AI業界の競争はますます激化しているが、最大の恩恵を受けるのはユーザーである——よりスマートで実用的なツールがまもなく普及する時代が到来する。