複数ステップ推論での課題

視覚言語モデル(VLM)は、画像に関する複数ステップの推論が必要なタスクで失敗しやすい。小さな視覚的な誤認識がステップを重ねるごとに増幅され、最終的に完全に誤った結論に至るという課題がある。オブジェクトの数を1つ誤認識したり、空間的な関係を見誤ったりすると、その誤りが推論チェーン全体に波及し、タスク全体が失敗に終わるのだ。

HopChain のアプローチ

Alibaba の Qwen チームが開発した HopChain は、この問題に対応するフレームワークだ。自動的に多段階の画像質問を生成し、各ステップでモデルに視覚詳細の再確認を強制する。

HopChain の構成要素は以下の通り:

  • 交互する質問タイプ:単一オブジェクトの認識と複数オブジェクトの比較を交互に実施
  • 依存チェーン:各質問が前のステップの識別結果に依存し、段階的に検証
  • 自動検証機構:各チェーンの終わりに一意の数字を配置し、自動的に答えを検証

このアプローチにより、モデルは各ステップで一貫性を保ちながら推論を進める。

性能向上の結果

HopChain は複数のベンチマークで顕著な改善を実現した。24個のベンチマークのうち20個で性能が向上したという。具体的には:

  • 小型 Qwen モデル:EMMA スコアが 53 から 58 に向上
  • 大型モデル:BabyVision スコアが 28.61 から 32.22 に改善
  • ビデオ領域への拡張:静止画でのみ訓練したにもかかわらず、動画理解能力も向上

データ生成パイプラインは4段階で構成され、人間による品質管理が行われている。オブジェクト識別、セグメンテーション、多段階質問生成、4人の独立した注釈者による検証を経て、最終的なデータセットが完成される。

視覚言語モデルの進化

この研究成果は、視覚言語モデルが単なる画像特徴の抽出ではなく、複雑な推論タスクに対応する必要性を示している。HopChain の手法は、モデルが段階的に視覚情報を統合し、論理的な一貫性を保ちながら推論を進める能力を強化する。今後、このようなアプローチがマルチモーダル AI の実用性向上に寄与すると期待される。