Epoch AIが暴いたAIベンチの盲点

2026年1月10日 20:30

Photo by Roman Wimmers on Unsplash

💡

Epoch AIの分析は、AIベンチマークの透明性と再現性を高める方向性を示し、実務での評価改善や意思決定の質向上に役立つ具体的な対策を促します。

Epoch AIが暴いたAIベンチの盲点

AIの性能を比較する際によく使われるベンチマーク。ベンチマークとは、AIモデルの性能を同じ基準で測るための評価テストです。ですが、最新のEpoch AIの分析は、その

記事をシェア

参考ソース

THE DECODER

技術の記事

テクノロジー

2026年8月1日

Google Earth の AI フェイク衛星画像ツール、わずか24時間で撤回——信頼性危機が露呈

Google が Google Earth に統合した AI 画像生成ツール「Nano Banana 2」は、リリース翌日に撤回された。衛星画像への信頼を損なうリスクが批判を集め、より強力な保護措置の実装まで機能を停止。AI 時代における「真実の証拠」の定義が問われている。

Google Chrome が AI でセキュリティ加速——2 ヶ月で過去 2 年分を上回る 1,072 件のバグ修正

テクノロジー

2026年7月31日

Google Chrome が AI でセキュリティ加速——2 ヶ月で過去 2 年分を上回る 1,072 件のバグ修正

Google は Chrome 149 と 150 で過去 2 年間の合計を上回る 1,072 件のセキュリティバグを修正。AI が脆弱性検出を工業規模化し、指数関数的な加速が始まった。一方 Microsoft も同傾向を報告し、ブラウザセキュリティの新時代が到来。

Google の AI 自動研究システム Science One が発表——Chain-of-Evidence で論文の信頼性を検証可能に

テクノロジー

2026年7月31日

Google の AI 自動研究システム Science One が発表——Chain-of-Evidence で論文の信頼性を検証可能に

Google Research は自動研究フレームワーク Science One を発表。すべての主張を記録された根拠に紐付け、幻想的参考文献の問題を 100% 排除する。AI 論文の学術的信用性を根本的に改善する技術。

OpenAI が GPT-5.6 Sol で Claude Opus 5 を ARC-AGI-3 で上回ったと主張——測定方法の公平性が争点

OpenAI は独自の API 設定を使用することで ARC-AGI-3 で Opus 5 を上回ったと発表。しかし公式環境では 7.8% に落ちるため、ベンチマーク比較の公平性が問われています。

テクノロジー

2026年7月19日

医療用AIが患者の命を誤判定する恐れ——放射線科医より信頼度が低い結果

インド・CRASH Labが開発したRadLE 2.0ベンチマーク。人間の放射線科医を超えると期待されたAIが、実は間違った診断でも高い信頼度を示す。Claude Fable 5や他モデルも、『知らないことを知らない』リスクが明らかに。

OpenAI、GPT-5.6 を 3 つのモデルで展開──Sol が Fable 5 を上回る性能、コーディングで 54% 効率化

LLM・生成AI

2026年7月10日

OpenAI、GPT-5.6 を 3 つのモデルで展開──Sol が Fable 5 を上回る性能、コーディングで 54% 効率化

OpenAI は GPT-5.6 ファミリーを Sol（高性能）、Terra（中位）、Luna（低価格）の 3 層で提供。Sol は Anthropic の Fable 5 より 2.8 ポイント上回るコーディング性能を実現し、サイバーセキュリティに特化した仕様。

EUが AI インフラに€30B投資、最大7つの gigafactory 構想——ただし米国の 1/20 規模

欧州委員会が AI 計算ファシリティに€30B相当の投資を表明。11月に応募締切、2027年から建設開始予定。AMD・Nvidia・Qualcomm とハード確保で合意。

EU AI インフラ投資データセンター政策

Google Deepmind、Gemini Robotics 2 発表——卓上アームから人型ロボットまで、汎用ロボット制御モデル

ロボティクス

2026年8月1日

Google Deepmind、Gemini Robotics 2 発表——卓上アームから人型ロボットまで、汎用ロボット制御モデル

ビジョン言語行動（VLA）モデルの最新版。高度な推論レイヤー Gemini Robotics ER 2 を同時発表。複雑なロボット制御タスクが可能に。

ロボット Google DeepMind Gemini ビジョン言語モデル AI

テクノロジー

2026年8月1日

Google Earth の AI フェイク衛星画像ツール、わずか24時間で撤回——信頼性危機が露呈

Google AI画像生成信頼性誤情報対策 Nano Banana

GPT-5.6が80%値下げ、DeepSeekが60%安く同性能——2026年夏のAIモデル選択ガイド

LLM・生成AI

2026年8月1日

GPT-5.6が80%値下げ、DeepSeekが60%安く同性能——2026年夏のAIモデル選択ガイド

OpenAIがGPT-5.6 Lunaを80%値下げ（$0.20/Mトークン）、DeepSeek V4 Flashが同等性能をさらに60%安く提供——AI API料金が激変した2026年夏、開発コストを最大85%削減できるモデル選択の実践ガイド。

GPT-5.6 DeepSeek Claude Opus 5 AIモデル比較 API料金

DeepSeek V4 Flash、GPT-5.6 Luna に匹敵する性能を 60% 低コスト実現——7 月 31 日アップデート

LLM・生成AI

2026年8月1日

DeepSeek V4 Flash、GPT-5.6 Luna に匹敵する性能を 60% 低コスト実現——7 月 31 日アップデート

DeepSeek が 0731 アップデートでフラッシュモデルを大幅強化。Artificial Analysis Index で 40→50 へ 10 ポイント急騰。OpenAI の GPT-5.6 Luna（51 ポイント）にわずか 1 ポイント差で肉薄。

DeepSeek V4 Flash モデル更新価格競争 OpenAI

Thinking Machines、Inkling Small リリース——27.6B パラメータで Inkling に匹敵、3 倍効率化

LLM・生成AI

2026年8月1日

Thinking Machines、Inkling Small リリース——27.6B パラメータで Inkling に匹敵、3 倍効率化

元 OpenAI CTO Mira Murati が率いる Thinking Machines が、Inkling の 3 分の 1 のサイズながら推論ベンチマークで肉薄する Inkling Small をリリース。トークン効率は業界最高水準。

Thinking Machines Inkling Small オープンソース効率型モデル Mira Murati

すべての記事を見る

Epoch AIが暴いたAIベンチの盲点

Epoch AIが暴いたAIベンチの盲点

記事をシェア

タグ

参考ソース

OpenAI医療AI、病院が導入する3つの理由

CES 2026で見た、生活を変えるAI体験

Epoch AIが暴いたAIベンチの盲点

Epoch AIが暴いたAIベンチの盲点

記事をシェア

タグ

参考ソース

OpenAI医療AI、病院が導入する3つの理由

CES 2026で見た、生活を変えるAI体験

技術の記事

関連タグの記事

最新記事