その他 2026年3月26日 ARC-AGI-3が示す「前線モデル1%未満」の謎 ARC-AGI-3が提案したゲーム型の新ベンチマークでは主要な前線モデルが1%未満にとどまり、評価設計が能力の見え方を左右することと、透明性や再現性、データ倫理の整備が現場導入の鍵であることを示唆しています。 ARC-AGI-3 大規模言語モデル 評価設計 再現性 続きを読む