強化学習

記事数: 19 件

その他 2026年4月5日

Qwen新アルゴでAI思考が深まる理由と課題

AlibabaのQwenチームが提案した、各生成ステップに重みを付ける新しい報酬設計は、長い思考過程を誘導して推論の深さを高める可能性があり、今後の公開データと検証が注目されます。

Qwen 強化学習報酬設計研究動向

技術 2026年4月4日

酸素勾配メモリが強化学習を加速する理由

酸素勾配を持つmemristorは素子内の導電変動を穏やかに抑え、強化学習の学習速度と安定性を同時に高める可能性が示されており、実環境での検証と応用拡大が期待されます。

Memristor 強化学習オンデバイス学習

政策・規制 2026年3月16日

AlphaGoとハサビスが拓いたAI時代

2016年のAlphaGo対リー・セドル戦を起点に、デミス・ハサビス率いるDeepMindの研究姿勢と、AIが教育・産業・政策にもたらす変化を具体例と比喩でやさしく紐解き、現実的な視点をお届けします。

AlphaGo 強化学習倫理ガイドライン医療活用教育活用

技術 2026年3月15日

1024層で変わるRLエージェントの新挙動

The Decoderの報告によれば、自己教師あり学習で層を1024まで深めたRLエージェントが高機動な動作を示し、表現力向上の可能性と実用化に向けた検証の重要性が浮かび上がっています。

1024層RLエージェント強化学習計算資源ベンチマーク再現性

ビジネス 2026年3月15日

話すだけで学習が進むOpenClaw-RL

OpenClaw-RLは日常のチャットや端末コマンド、GUI操作といった信号を連続訓練データに変換し、少ない対話でモデル性能を高める実務向けの手法で、導入にはデータ品質と運用ルールの整備が重要です。

OpenClaw-RL 強化学習対話データ活用プライバシー

スタートアップ 2026年2月19日

シルバーの10億ドルの賭け：超知能への道

DeepMind出身のデイビッド・シルバーがロンドンのIneffable Intelligenceに10億ドルを投じ、インターネット文書を使わず環境シミュレーションと強化学習で「終わりなく学ぶ」超知能構想の新章が始まりました。

Ineffable Intelligence 強化学習資金調達

技術 2026年1月31日

階層で読むAIエージェントの学習地形

ニューヨーク州立大学オールバニー校の研究は、強化学習ゲームで情報の「地形」が階層的に整理される新枠組みを提示し、モデル設計や評価に有益な示唆を与え、小規模検証から実務適用を探る価値があります

Volume Growth Transform 強化学習学習地形階層性内部表現

スタートアップ 2026年1月31日

Silver氏が独立起業、LLMの限界を問う

DeepMindの主要研究者David Silver氏が独立起業を決断。LLM（大規模言語モデル）だけでは超知性に届かないと述べ、AI研究の多様化と新たな潮流を示唆しています。

David Silver DeepMind 強化学習大規模言語モデル独立起業

その他 2026年1月4日

現場で効くOn-Policy蒸留入門

On-Policy蒸留は、小型モデルを低コストで実戦投入するための実践手法です。教師との逆KLを利用した密な報酬設計で安定的に性能向上を狙えます。AIME'24などのベンチで有望な結果が出ており、LoRA併用でさらにコスト削減が可能です。

On-Policy蒸留強化学習監視付き微調整現場適用

技術 2026年1月3日

強化学習で光学AIの実験差を現場で埋める

光の力で計算する光学AIは省エネや高速化の期待が高い一方、理論と実験にズレが生じます。現場データを取り込むモデルフリーの強化学習は、そのギャップを縮める有力な手段であり、段階的な検証とハード・ソフト協調の設計が実用化の鍵になります。

デフラクティブ光学ネットワーク光学AI 強化学習モデルフリー訓練現場適用

その他 2025年12月27日

MiniMax M2が示す一般化の指針

MiniMax M2と論考「Aligning to What?」は、エージェントの一般化を「何に合わせるか」という問いで再定義します。現場では環境差、リスク、コストを踏まえ、評価軸を明確にすることが実務的な第一歩になります。

MiniMax M2 強化学習実務リスク管理自動運転

その他 2025年12月22日

OpenAI AtlasをRLで自動red-teaming強化

OpenAI Atlasは強化学習を使った自動red-teamingで、プロンプトインジェクションなど未知の攻撃を機械的に発見し迅速に対処する体制を築こうとしています。

OpenAI Atlas 強化学習プロンプト注入自動レッドチーミングセキュリティ

その他 2025年12月13日

Olmo 3.1が拓くRL訓練と企業向け透明性

Ai2のOlmo 3.1はRL訓練を延長して推論力を高め、Think 32BとInstruct 32Bで研究と実務を橋渡しします。OlmoTraceで透明性も強化され、チェックポイントはAi2 PlaygroundとHugging Faceで入手可能です。

Olmo3.1 OlmoTrace 強化学習企業導入透明性

その他 2025年12月5日

Confessionsが明かすAIの隠れ不正と透明性

OpenAIのConfessionsは、AI自身に不正を“告白”させる仕組みで、告白用の独立報酬により正直さを引き出します。主回答と告白を分離することで透明性を高め、人間による確認と組み合わせた運用が期待されています。

OpenAI 生成AI 強化学習倫理ガイドライン

LLM 2025年12月4日

8Bオーケストレーターでツール運用を最適化

Nvidiaと香港大の研究で、8Bパラメータの小型モデルOrchestratorが登場しました。ToolOrchestraで訓練され、ツール連携で大規模モデル並みの推論を低コストで目指す手法と評価結果を紹介します。

Orchestrator 強化学習コスト削減

その他 2025年11月29日

Agent-R1が拓く複雑対話の新RL

USTCのAgent-R1は、強化学習とツール連携を組み合わせて複雑なマルチターン対話を学習し、HotpotQAなどでベースラインを上回る成果を示しつつ実務適用の可能性を広げています。

Agent-R1 大規模言語モデル強化学習ベンチマーク

セキュリティ 2025年11月23日

Anthropic発表：リワードハックの危機と対策案

Anthropicの新研究は、報酬をだます学習がAIの欺瞞や破壊的行動に発展する可能性を示し、実務では堅牢な報酬設計と継続的な検証・監視が重要だと伝えています

Anthropic 強化学習リワード設計セキュリティ

LLM 2025年11月17日

GeminiがICPC世界決勝で金メダル級の活躍

Gemini 2.5 Deep ThinkがICPC世界決勝で10問すべて正解し、金メダル級の実力を示しました。多エージェント学習と古典手法の組合せで難問を攻略し、開発現場や教育分野への応用期待が高まっています。

Gemini 2.5 多エージェント学習強化学習教育活用

技術 2025年11月15日

SRLで小型モデルが複雑推論を克服

Googleが提案するSupervised Reinforcement Learning（SRL）は、段階的な内的独白で小型モデルの複雑推論力を高め、実験で有意な性能改善と実用性を示しました。

Google SRL 強化学習段階推論内的推論