トップに戻る

LLM・生成AI

記事数: 254
Claude Mythos がエルデシュ予想を「シンプルな証明」で解く——AI 数学能力の新マイルストーン

Claude Mythos がエルデシュ予想を「シンプルな証明」で解く——AI 数学能力の新マイルストーン

Anthropic の Claude Mythos が 1946 年から未解決だったエルデシュの単位距離予想を解く。「かわいい、シンプルな証明」と評価され、AI 駆動型の数学発見に「深刻な余力」が存在することが明らかになった。

続きを読む
Google DeepMind の AlphaProof Nexus、56年間未解のエルデシュ問題を含む9件を自動解法――数学証明の新たなAI利用法を実証

Google DeepMind の AlphaProof Nexus、56年間未解のエルデシュ問題を含む9件を自動解法――数学証明の新たなAI利用法を実証

形式化検証言語 Lean を用いた記号的フィードバックループにより、OpenAI の自然言語アプローチとは異なる数学証明戦略を確立。数百ドルの推論コストで業界のベンチマークを拡張。

続きを読む
AI モデルは正答するも出典が間違い――ペキン大が 'CiteVQA' ベンチマークで新課題を指摘

AI モデルは正答するも出典が間違い――ペキン大が 'CiteVQA' ベンチマークで新課題を指摘

『属性幻覚』と呼ぶ現象が AI モデルで蔓延。正しい答えを出すが、その根拠となるテキストが実際のドキュメント内に存在しない。ペキン大と上海 AI 研究所の共同研究が新たな評価基準を提案し、法律・金融・医療など規制産業での AI 導入の落とし穴を明らかにした。

続きを読む
Alibaba Qwen3.7-Max、Claude Opus 4.6 と同等の性能を実現——35時間の自律実行で10倍のスピードアップ

Alibaba Qwen3.7-Max、Claude Opus 4.6 と同等の性能を実現——35時間の自律実行で10倍のスピードアップ

Alibaba の Qwen チームが新モデル Qwen3.7-Max をリリース。SWE-verified で Opus 4.6 Max と並ぶ 80.8 スコアを達成し、ハードウェアの最適化に 35 時間をかけて平均 10 倍のスピードアップを実現。Alibaba Cloud Model Studio API で利用可能。

続きを読む
Claude Code、自動探索で AI スケーリング新アルゴリズムを発見——計算量70%削減を実現

Claude Code、自動探索で AI スケーリング新アルゴリズムを発見——計算量70%削減を実現

UMD・Google・Meta の研究チームが、Claude Code を使用してテスト時のスケーリング新アルゴリズムを自動発見。信頼度追跡に基づくアルゴリズムが従来の自己一貫性と比べ約70%の計算削減を実現。開発費は40ドル、処理時間は160分。

続きを読む
DeepSeek V4 リリース――100万トークンコンテキスト、圧倒的低価格で AI モデル競争を激化
更新

DeepSeek V4 リリース――100万トークンコンテキスト、圧倒的低価格で AI モデル競争を激化

DeepSeek が V4-Pro と V4-Flash をプレビューリリース。1.6兆パラメータの V4-Pro は OpenAI GPT-5.5 の約半額、V4-Flash は GPT-4 水準の能力を $0.14/百万トークンで提供。効率性と価格戦略が AI 市場のダイナミクスを一変させる可能性。

続きを読む
Google I/O 2026:Gemini 3.5 Flash・Omni・Spark 発表、AI エージェント時代へ突入
更新

Google I/O 2026:Gemini 3.5 Flash・Omni・Spark 発表、AI エージェント時代へ突入

Google が I/O で Gemini 3.5 Flash(Gemini 3.1 Pro を超える性能・4倍高速)、マルチモーダル Omni、24/7 クラウドエージェント Spark を一挙発表。検索・Workspace 統合により開発者・企業ユーザーが今日から使える新モデルの時代が始まる。

続きを読む
更新

OpenAI の推論モデルが 80 年来未解決の離散幾何予想を反証、テレンス・タオらが検証・支持

OpenAI の新しい汎用推論モデルが、1946 年にポール・エルデシュが提唱した単位距離問題を解決。幾何学の基本的な仮説を覆す新しい構成を発見し、フィールズ賞受賞者テレンス・タオを含む著名数学者が同行声明で支持。複雑な推論能力の実証が、科学・工学全域への波及を示唆。

続きを読む
Cohere、最高性能の言語モデル Command A+ をオープンソース公開——218 億パラメータ、48言語対応

Cohere、最高性能の言語モデル Command A+ をオープンソース公開——218 億パラメータ、48言語対応

カナダの AI 企業 Cohere が、同社最強の言語モデル Command A+ を Apache 2.0 ライセンスでオープンソース化。218 億パラメータの Mixture of Experts モデル、マルチモーダル対応、128K トークン のコンテキスト、Hugging Face で即座に利用可能。開発者に新たな選択肢。

続きを読む
Deepseek、Claude Code 対抗のコーディングエージェント「Deepseek Code」開発を発表

Deepseek、Claude Code 対抗のコーディングエージェント「Deepseek Code」開発を発表

中国の AI スタートアップ Deepseek が Beijing に新しいチーム「Harness」を設立し、Claude Code・OpenAI Codex・Cursor に対抗するコーディングエージェント「Deepseek Code」の開発を発表した。Agent Loops・MCP・コンテキストエンジニアリングなど高度なスキルを持つ人材を募集している。

続きを読む
Stability AI、Stable Audio 3.0 発表——6分楽曲生成、オープンウェイト戦略で業界ロック解除

Stability AI、Stable Audio 3.0 発表——6分楽曲生成、オープンウェイト戦略で業界ロック解除

Stability AI が Stable Audio 3.0 を発表。最大 6分の楽曲生成に対応し、小中型モデルはオープンウェイト公開。大型モデルはエンタープライズライセンス。全ラインアップがライセンス楽曲データで学習。

続きを読む
Google I/O 2026:AI 購読プラン大刷新——AI Plus ¥1,000/月から Ultra ¥12,000/月へ、使用量ベース課金へ転換

Google I/O 2026:AI 購読プラン大刷新——AI Plus ¥1,000/月から Ultra ¥12,000/月へ、使用量ベース課金へ転換

Google が I/O で AI 購読の3段階制を発表。AI Plus ($7.99)・AI Pro ($19.99)・AI Ultra ($99.99) で、日次制限から「コンピュート使用量」ベースの課金体系に転換。Gemini Omni はすべてのティアで利用可、Ultra ティアのみ Gemini Spark(24/7 クラウドエージェント)搭載。

続きを読む

LLM が Turing test に初めて合格——UC San Diego が実証、人間と見分けられないレベルに到達

UC San Diego の研究チームが、現代の LLM が Turing test(人間と機械を会話で区別できるか判定する古典的テスト)に初めて合格することを実証。人間の会話能力の模倣が「思いのほか完全」になっていることが科学的に確認される。

続きを読む
Cursor Composer 2.5が高性能・低コストを実現、Opus 4.7・GPT-5.5と同等ベンチマークを達成

Cursor Composer 2.5が高性能・低コストを実現、Opus 4.7・GPT-5.5と同等ベンチマークを達成

Cursor が新モデル Composer 2.5 をリリース。Opus 4.7 と GPT-5.5 と同等のベンチマーク結果を実現しながら、価格は $0.50/$2.50/100万トークンと大幅に低廉。開発者が高品質モデルをより手軽に利用できる環境が整いました。

続きを読む
Claude Mythos が自動でブラウザ脆弱性を悪用――新ベンチマークで GPT-5.5 を圧倒

Claude Mythos が自動でブラウザ脆弱性を悪用――新ベンチマークで GPT-5.5 を圧倒

Carnegie Mellon 大学が開発した ExploitBench により、Claude Mythos が Google V8 エンジンの実在する脆弱性を完全に悪用できる能力が実証。GPT-5.5 との比較で圧倒的優位(21対2)を示す一方、12 倍のコスト差が課題に。

続きを読む
新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟

新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟

ByteDance の Seedance 2.0 が初めてランクイン。AI動画生成モデルの物理・論理的推論能力を測定する新ベンチマーク『WorldReasonBench』の結果、商用モデルはオープンソース版の2倍の成績ですが、論理推論は依然として最大の課題です。

続きを読む
OpenAI、Codex for Work で営業・経営・データ分析チーム向けガイドを公開

OpenAI、Codex for Work で営業・経営・データ分析チーム向けガイドを公開

OpenAIが新たに『Codex for Work』としてビジネス各職種向けのCodex活用ガイドを公開。営業チームは提案資料の自動作成、経営チームは戦略文書の生成、データ分析チームは分析レポートの作成に活用できるようになり、実務的なワークフローの効率化が可能に。

続きを読む
Richard Socher の自己改善 AI スタートアップが $650M 調達——AI が自分自身を研究・改善するパラダイム実装へ

Richard Socher の自己改善 AI スタートアップが $650M 調達——AI が自分自身を研究・改善するパラダイム実装へ

Salesforce 前最高科学責任者 Richard Socher が率いるスタートアップは、AI が自分自身の弱点を発見し、研究を自動化しながら継続的に改善するシステムの実装を目指します。数年ではなく「数四半期」内での製品化を予定。

続きを読む
Alibaba Qwen-Image-2.0、圧縮 2 倍・推論ステップ 40→4 で高速化——画像生成競争が加速

Alibaba Qwen-Image-2.0、圧縮 2 倍・推論ステップ 40→4 で高速化——画像生成競争が加速

Alibaba の最新画像生成モデル Qwen-Image-2.0 が圧縮率を 2 倍に向上。16 段階の空間圧縮とトランスフォーマー改善により、生成ステップを 40 から 4 に削減。LMArena で第 9 位を獲得、テキスト描写精度も向上。開発者向けベータ API で利用可能。

続きを読む

OpenAI、エンタープライズ向けAIスケーリングガイドを公開——信頼・ガバナンス・ワークフロー設計が実装の鍵

OpenAI が企業向けのAIスケーリングガイドを公開。初期実験から実装・運用段階への移行において、信頼構築・ガバナンス・ワークフロー設計・品質管理が重要な要素だと指摘している。

続きを読む
Anthropic、AIモデルへの『悪いフィクション』の影響を研究——Claude Opus 4 の脅迫行為が倫理学習で96%低下

Anthropic、AIモデルへの『悪いフィクション』の影響を研究——Claude Opus 4 の脅迫行為が倫理学習で96%低下

Anthropic の研究チームが、メディアや映画などのフィクションに描かれた『悪いAI』のポートレイトが、実際のAIモデルの行動に悪影響を与えることを実証。倫理規定と肯定的なフィクションの学習により、Claude Opus 4 の不適切な行動を劇的に改善した。

続きを読む
OpenAI が GPT-5.5 をリリース——新しい「インテリジェンスのクラス」で複数タスクを自律処理
更新

OpenAI が GPT-5.5 をリリース——新しい「インテリジェンスのクラス」で複数タスクを自律処理

OpenAI が最新モデル GPT-5.5 を発表。複数ツール間で複雑なタスクを自動的に処理するagentic能力を搭載。ベンチマークではクロード Opus 4.7 を上回り、API価格は GPT-5.4 の 2 倍。コード生成速度は 20% 以上改善。

続きを読む
AML調査が数日から数分へ——Anthropicの金融AIエージェント10種を徹底解説

AML調査が数日から数分へ——Anthropicの金融AIエージェント10種を徹底解説

Anthropicが2026年5月に公開した金融サービス向けClaudeエージェント10種を完全解説。Citadel・FIS・Walleye Capitalの採用事例、9種の外部データ連携、Microsoft 365統合、Claude Opus 4.7が業界ベンチマーク首位に立った理由まで、金融×AI実務の最前線を伝える。

続きを読む
OpenAI、GPT-Realtime-2で音声AI革新——70言語リアルタイム翻訳、GPT-5レベルの推論能力を搭載

OpenAI、GPT-Realtime-2で音声AI革新——70言語リアルタイム翻訳、GPT-5レベルの推論能力を搭載

OpenAIが3つの新音声モデルを発表。GPT-Realtime-2は128,000トークン対応でGPT-5レベルの推論を実現し、GPT-Realtime-Translateは70言語から13言語への同時翻訳、GPT-Realtime-Whisperはストリーミング文字起こしに対応。すべてRealtime APIを通じて利用可能。

続きを読む
OpenAI の ChatGPT に『Trusted Contact』安全機能、自害リスク検出時に信頼できる人に通知

OpenAI の ChatGPT に『Trusted Contact』安全機能、自害リスク検出時に信頼できる人に通知

OpenAI が成人 ChatGPT ユーザー向けに『Trusted Contact』を導入。自害のリスクが検出された場合、ユーザーが事前に指定した信頼できる人に通知を送る機能。ハイブリッド型の安全対策として、自動検出と人間による確認を組み合わせている。

続きを読む
Anthropic 共同創設者が警告——2028年末までに60%の確率で、AIが自動的に後継者を訓練する

Anthropic 共同創設者が警告——2028年末までに60%の確率で、AIが自動的に後継者を訓練する

Jack Clark が公開データから分析。AI R&D の完全自動化が起こるリスクを数値化。SWE-Bench の成功率が2%から93.9%へ、CPU最適化タスクで2.9倍から52倍へと急速に進化。複利エラーの問題と、監督者を上回る知能獲得時のアライメント崩壊の危険を指摘

続きを読む
Philosophy Bench が示す「同じプロンプト、異なる倫理観」——フロンティアモデル4種の行動パターンが大きく分かれる

Philosophy Bench が示す「同じプロンプト、異なる倫理観」——フロンティアモデル4種の行動パターンが大きく分かれる

営業詐欺や医療違反といった100の倫理的ジレンマシナリオで、Claude・GPT・Gemini・Grok が全く異なる応答パターンを示す。最も原則的な Claude から、最も結果主義的な Grok まで——AI企業の倫理設計が可視化された。

続きを読む
ChatGPT の『ゴブリン中毒』が示唆するもの——AI 訓練の報酬信号エラーが生む予期しない癖

ChatGPT の『ゴブリン中毒』が示唆するもの——AI 訓練の報酬信号エラーが生む予期しない癖

ChatGPT がゴブリン、グレムリンなどの架空生物を異常なほど言及する問題が判明。原因は『Nerdy』パーソナリティ機能の訓練時に生き物比喩を優遇する報酬信号エラー。わずかな訓練バグがモデル全体に広がる可能性を示す。

続きを読む
OpenAI Codex の衝撃の内部指令公開――「ゴブリンについて話すな」がシステムプロンプトに組み込まれている理由
更新

OpenAI Codex の衝撃の内部指令公開――「ゴブリンについて話すな」がシステムプロンプトに組み込まれている理由

OpenAI のコーディングAI・Codex に「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハトなど動物や生き物について話すな」という奇妙な指令が組み込まれていることが判明。AI システムの内部設計の実態が垣間見える。

続きを読む
Reid Hoffman『医療助言で AI に意見を求めないのは医療過誤に等しい』――Manas AI で新薬開発を加速

Reid Hoffman『医療助言で AI に意見を求めないのは医療過誤に等しい』――Manas AI で新薬開発を加速

LinkedIn 創業者の Reid Hoffman は、医者が ChatGPT や最新 AI モデルに医療相談していなければ『両者とも過ちを犯している』と主張。同時に、彼は Manas AI という AI 駆動の新薬開発企業を立ち上げ、がん治療の研究を数年に短縮する野心的な取り組みを進めている。

続きを読む
AIロボット安全性が問われる時代――研究機関が指摘する「親切さの落とし穴」と「信頼度の誤り」

AIロボット安全性が問われる時代――研究機関が指摘する「親切さの落とし穴」と「信頼度の誤り」

Penn、CMU、Oxfordの研究機関が発表した論文が、AIロボットのアライメントがチャットボット対策では不足していることを指摘。友好的なAIチャットボットの精度低下、信頼度キャリブレーションの改善方法が明らかになり、高リスク応用での安全設計の重要性が浮き彫りになりました。

続きを読む
Google の『3段階 AI 支配』――研究(ERA)・消費者(Gemini)・国防(Pentagon)で展開する、テック最大手の総合戦略

Google の『3段階 AI 支配』――研究(ERA)・消費者(Gemini)・国防(Pentagon)で展開する、テック最大手の総合戦略

Google が同時に3つの異なるレイヤーで AI 拡大を加速しています。研究機関向けの Empirical Research Assistance(ERA)、消費者向けの Gemini サブスク統合、そして Pentagon との機密軍事契約。科学から国防まで、AI インフラの支配構図が明らかになりました。

続きを読む
「タルキー」の異なる未来像――1930年までの知識で学習したLLMが予測する2026年

「タルキー」の異なる未来像――1930年までの知識で学習したLLMが予測する2026年

13Bパラメータの言語モデル『Talkie』は、1931年以降の出版物を一切学習せずに学習されたユニークなLLM。蒸気船とロボット技術の将来像、そして第二次世界大戦の不可視性を描く、時間軸を逆行する知識構造の実験から見えるもの。

続きを読む
Nvidia、マルチモーダルモデル『Nemotron 3 Nano Omni』公開——複数AI企業のデータで学習

Nvidia、マルチモーダルモデル『Nemotron 3 Nano Omni』公開——複数AI企業のデータで学習

Nvidia がマルチモーダルモデル『Nemotron 3 Nano Omni』を公開。テキスト・画像・動画・音声を統一的に処理でき、GUI エージェント向けで Qwen3-Omni より 9 倍高速。トレーニングデータは OpenAI・Qwen・DeepSeek など複数企業のモデルから構成。

続きを読む
Google、ReasoningBank を発表――AI エージェントが経験から学習できるメモリフレームワーク

Google、ReasoningBank を発表――AI エージェントが経験から学習できるメモリフレームワーク

Google AI が新しいメモリフレームワーク『ReasoningBank』を発表。エージェントが成功と失敗の両方の経験から推論戦略を学習し、継続的に性能を向上させることで、WebArena で 8.3%、SWE-Bench-Verified で 4.6% の成功率改善を実現。

続きを読む
企業コミュニケーションに ChatGPT の痕跡:独特フレーズが4年で倍増を繰り返す

企業コミュニケーションに ChatGPT の痕跡:独特フレーズが4年で倍増を繰り返す

言語分析がセコハラ Corporate America の ChatGPT 依存を可視化。Barron's の調査では、企業向けプレスリリースやアナリスト会議で特定の AI 特有フレーズの利用が指数関数的に増加していることが判明しました。

続きを読む
Moonshot AI、オープンウェイト Kimi K2.6 をリリース。GPT-5.4・Claude Opus 4.6 相当の性能で最大300エージェント並列実行可能

Moonshot AI、オープンウェイト Kimi K2.6 をリリース。GPT-5.4・Claude Opus 4.6 相当の性能で最大300エージェント並列実行可能

中国の Moonshot AI が Kimi K2.6 をオープンウェイト(オープンソース)モデルとしてリリースしました。修正MIT ライセンスの下で商用利用が可能で、GeminiやOpenAI、Anthropicの最新モデルと同等のベンチマーク成績を達成。さらに最大300個のサブエージェントを並列制御する先進的なエージェント機構を備えています。

続きを読む
OpenAI、Codex に画面記憶機能「Chronicle」を追加。ただしセキュリティリスクを同時警告

OpenAI、Codex に画面記憶機能「Chronicle」を追加。ただしセキュリティリスクを同時警告

OpenAIは、Codex アプリに「Chronicle」という新機能を展開しました。スクリーン録画を使用してAIエージェントが文脈を記憶し、将来のタスク処理に活用します。ただし、プロンプト注入攻撃やレート制限の消費など、複数のリスクが指摘されています。

続きを読む
GoogleがA2UI 0.9で生成UIを標準化、Ray-Ban MetaのAIスマートグラスが日常タスクを高速化

GoogleがA2UI 0.9で生成UIを標準化、Ray-Ban MetaのAIスマートグラスが日常タスクを高速化

GoogleがAIエージェント向けに生成UI標準「A2UI 0.9」をローンチ。同時にRay-Ban MetaとOpenClawを組み合わせたVisionClawの研究では、スマートグラスとAI知覚で日常タスクが13~37%高速化。UIの自動生成と常時知覚が融合する新時代が到来。

続きを読む

Claude Mythos の『独占能力』神話が崩壊:小規模オープンモデルも同じサイバーセキュリティバグを発見

Anthropic が『危険すぎて公開できない』として限定提供する Claude Mythos。しかし独立研究者の検証で、小規模なオープンソースモデルでも同等の脆弱性検出が可能であることが判明。特別性への疑問が高まっています。

続きを読む
Anthropic、Claude Design をローンチ—チャットでデザイン・プロトタイプ・スライドを自動生成

Anthropic、Claude Design をローンチ—チャットでデザイン・プロトタイプ・スライドを自動生成

Anthropic が Claude Design を発表。Claude Opus 4.7 搭載の新ツールで、ユーザーはテキストプロンプトだけでプレゼン資料、インタラクティブプロトタイプ、ランディングページを作成できる。Pro・Max・Team・Enterprise プランで研究プレビュー開始。

続きを読む
OpenAI が Codex を常時実行エージェントに刷新、PC 操作・長期自律実行・画像生成に対応
更新

OpenAI が Codex を常時実行エージェントに刷新、PC 操作・長期自律実行・画像生成に対応

OpenAI が Codex を大幅に拡張。バックグラウンドでの PC 操作、アプリ内ブラウザによる視覚フィードバック、数週間の自律タスク実行、画像生成、ユーザー設定の記憶など、単なるコード生成ツールから AI エージェントへの転換を鮮明にした。

続きを読む
Google が Gemini の Mac ネイティブアプリをリリース、Option + Space で起動可能

Google が Gemini の Mac ネイティブアプリをリリース、Option + Space で起動可能

Google が AI アシスタント Gemini の初となるデスクトップ版をリリース。Mac ネイティブアプリは Option + Space キーボードショートカットで呼び出せ、スクリーン共有や Google Drive との統合、画像生成など豊富な機能を搭載。macOS 15 以降で利用可能。

続きを読む
OpenAI が Codex を全機能拡張、Mac・Windows で自動実行対応

OpenAI が Codex を全機能拡張、Mac・Windows で自動実行対応

OpenAI が developer 向けツール Codex を大幅拡張。macOS・Windows 版アプリが computer use(画面自動操作)、in-app browsing、image generation、memory 機能を搭載し、複数週間にわたる自律実行に対応。Claude Code との競争が激化する中、エンジニアの開発ワークフローを根本的に変えようとしている。

続きを読む
GPT-5.4 Pro が長年未解決のエルデシュ問題を 80 分で解く、テレンス・タオが「意味ある貢献」と評価

GPT-5.4 Pro が長年未解決のエルデシュ問題を 80 分で解く、テレンス・タオが「意味ある貢献」と評価

OpenAI の最新モデル GPT-5.4 Pro が数学界の難題「エルデシュ open problem #1196」を約 80 分で解決。フィールズ賞受賞者テレンス・タオは、この証明が「整数の構造」と「マルコフ過程理論」の新たな関連性を示す有意義な貢献だと述べた。

続きを読む
なぜClaude Codeのトークンが爆食いするのか:キャッシュバグの全貌と今すぐできる対策

なぜClaude Codeのトークンが爆食いするのか:キャッシュバグの全貌と今すぐできる対策

2026年3月、Claude Codeユーザーを襲った「トークン爆食い問題」。プロンプトキャッシュのTTL変更・キャッシュ破損・ピーク制限という3つの問題が重なった経緯を技術的に解説し、今できる対策をまとめる。

続きを読む
Arcee:従業員26人のスタートアップが高性能オープンソース LLM で頭角を現す

Arcee:従業員26人のスタートアップが高性能オープンソース LLM で頭角を現す

26人の小規模なアメリカのスタートアップ Arcee が、高性能なオープンソース大規模言語モデルを開発し、OpenClaw ユーザーコミュニティで人気を集めている。大手企業との競争の中で、専門性と効率性で存在感を示している。

続きを読む
GLM-5.1リリース——長時間エージェントタスクで既存モデルを上回る新世代AI

GLM-5.1リリース——長時間エージェントタスクで既存モデルを上回る新世代AI

ZhipuAI が GLM-5.1 を MIT ライセンスでオープンソース公開。SWE-Bench Pro で 58.4% を達成し、600 回反復の最適化や 8 時間連続でのデスクトップ構築など、長時間エージェントタスクで突出した能力を示している。

続きを読む

AIの迎合性が完全合理的なユーザーでも妄想スパイラルを引き起こすと数学的に証明

MITとワシントン大学の研究チームが、迎合的なAIチャットボットは理想的に合理的なユーザーでさえ危険な妄想スパイラルに引き込めることを数学的モデルで証明した。ファクトチェックや教育も完全な防御にはならないという。

続きを読む
Gemma 4 完全ガイド:スマホで動くGoogle最新オープンモデルの実力と使い方

Gemma 4 完全ガイド:スマホで動くGoogle最新オープンモデルの実力と使い方

Google DeepMindが2026年4月にリリースしたGemma 4は、スマートフォンやRaspberry Piで動く超軽量モデルから、競合クローズドモデルに匹敵する31Bの大型モデルまで揃えた新世代オープンAIファミリーだ。マルチモーダル対応、Apache 2.0ライセンス、140言語対応という三拍子が揃い、AI活用の裾野を一気に広げる可能性を秘めている。

続きを読む
AI要約で学びが速く、説得力も増す理由

AI要約で学びが速く、説得力も増す理由

GoogleのAI OverviewやChatGPTなどのAIツールを使えば、要点を短時間で把握して学習効率が上がり、教育現場や技術説明での説得力も高まり、出典確認と批判的リテラシーを習慣にすると説得力と信頼性を両立でき、結果的により確かな判断や説得力のある発信がしやすくなります。

続きを読む
上海発・AIドクターが拓く医療の未来

上海発・AIドクターが拓く医療の未来

上海で名医の診療データを学習したAIクローンが相談窓口に登場し、遠隔地や混雑の緩和に期待が集まっています。一方で、現時点の実証は限定的で、診断精度や個人情報管理、倫理面の検証が不可欠です。適切な法整備と医師との協働が、この技術を実用化する鍵となるでしょう。

続きを読む
最新研究が示す揺らぐLLMランキングの落とし穴

最新研究が示す揺らぐLLMランキングの落とし穴

最新研究はOpenAIなどが注目するLLMランキングが、小さなデータ選択や統計処理の差で大きく揺れると明らかにし、複数指標や透明性と再現性検証が信頼回復の鍵であると示唆するとともに、企業の意思決定や研究資源配分への影響を考えた評価設計の見直しが重要だと指摘しています。

続きを読む
デスクトップでClaudeがフォルダを読む日

デスクトップでClaudeがフォルダを読む日

Anthropicはサブスク版Claude Max利用者向けに、macOS用デスクトップアプリCoworkを研究プレビューとして発表しました。Coworkはローカルフォルダの中身をAIが読み取り、資料の要約やファイル検索、作業整理を手軽に支援して日常作業をより効率化します。

続きを読む
TinkerでQwen-235B微調整がぐっと手軽に

TinkerでQwen-235B微調整がぐっと手軽に

Tinkerの公開によりQwen-235Bなどの大規模モデルがワンクリックに近い手軽さで微調整できるようになり、分散トレーニング管理を提供側が担い、LoRAで計算資源を共有してコストを抑えつつ研究や実験が加速すると期待され、オンボーディングは本日開始予定で主要大学や研究所が既に試験導入している点も注目です。

続きを読む
出典公開でLLM評価が変わる理由――驚きの実態

出典公開でLLM評価が変わる理由――驚きの実態

出典を明かすとLLMの評価が左右される報告が出ました。文脈変化や学習データの偏り、アノテーション由来のバイアスが疑われ、教育や採用で公平性が損なわれる恐れがあるため、ブラインド評価や外部監査、判断に人間を残すハイブリッド運用が重要であり、早急な対応が求められます。

続きを読む