Alibaba の HopChain、視覚言語モデルの多段推論能力を改善
Alibaba の Qwen チームが開発した HopChain は、視覚言語モデルが複数ステップの推論で失敗する問題に対応。多段階の画像質問を自動生成し、ベンチマーク24個中20個で性能向上を実現した。
複数ステップ推論での課題
視覚言語モデル(VLM)は、画像に関する複数ステップの推論が必要なタスクで失敗しやすい。小さな視覚的な誤認識がステップを重ねるごとに増幅され、最終的に完全に誤った結論に至るという課題がある。オブジェクトの数を1つ誤認識したり、空間的な関係を見誤ったりすると、その誤りが推論チェーン全体に波及し、タスク全体が失敗に終わるのだ。
HopChain のアプローチ
Alibaba の Qwen チームが開発した HopChain は、この問題に対応するフレームワークだ。自動的に多段階の画像質問を生成し、各ステップでモデルに視覚詳細の再確認を強制する。
HopChain の構成要素は以下の通り:
- 交互する質問タイプ:単一オブジェクトの認識と複数オブジェクトの比較を交互に実施
- 依存チェーン:各質問が前のステップの識別結果に依存し、段階的に検証
- 自動検証機構:各チェーンの終わりに一意の数字を配置し、自動的に答えを検証
このアプローチにより、モデルは各ステップで一貫性を保ちながら推論を進める。
性能向上の結果
HopChain は複数のベンチマークで顕著な改善を実現した。24個のベンチマークのうち20個で性能が向上したという。具体的には:
- 小型 Qwen モデル:EMMA スコアが 53 から 58 に向上
- 大型モデル:BabyVision スコアが 28.61 から 32.22 に改善
- ビデオ領域への拡張:静止画でのみ訓練したにもかかわらず、動画理解能力も向上
データ生成パイプラインは4段階で構成され、人間による品質管理が行われている。オブジェクト識別、セグメンテーション、多段階質問生成、4人の独立した注釈者による検証を経て、最終的なデータセットが完成される。
視覚言語モデルの進化
この研究成果は、視覚言語モデルが単なる画像特徴の抽出ではなく、複雑な推論タスクに対応する必要性を示している。HopChain の手法は、モデルが段階的に視覚情報を統合し、論理的な一貫性を保ちながら推論を進める能力を強化する。今後、このようなアプローチがマルチモーダル AI の実用性向上に寄与すると期待される。