ByteDance の研究が長文書処理の訓練方法を刷新、QA学習が転記よりも5~6ポイント効率化
マルチモーダル言語モデルの長文書処理能力は、アーキテクチャではなくデータセット設計で大きく向上することが判明。より小規模なモデルでも業界標準の性能を目指せる可能性が広がった。
続きを読むマルチモーダル言語モデルの長文書処理能力は、アーキテクチャではなくデータセット設計で大きく向上することが判明。より小規模なモデルでも業界標準の性能を目指せる可能性が広がった。
続きを読むカナダの AI 企業 Cohere が、同社最強の言語モデル Command A+ を Apache 2.0 ライセンスでオープンソース化。218 億パラメータの Mixture of Experts モデル、マルチモーダル対応、128K トークン のコンテキスト、Hugging Face で即座に利用可能。開発者に新たな選択肢。
続きを読む数学者Timothy Gowersが実験。ChatGPT 5.5 Proは数論のオープン問題を30分以内に解き、MIT研究者も『完全にオリジナルな発想』と評価。LLMの数学推論が研究レベルに到達。
続きを読むTencent が極度に圧縮された AI 翻訳モデル「Hy-MT1.5-1.25bit」をオープンウェイト公開。3.3GB から 440MB に圧縮し、33言語をサポート。スマートフォンで完全オフライン実行でき、商用サービスと同等の翻訳精度を実現。
続きを読む13Bパラメータの言語モデル『Talkie』は、1931年以降の出版物を一切学習せずに学習されたユニークなLLM。蒸気船とロボット技術の将来像、そして第二次世界大戦の不可視性を描く、時間軸を逆行する知識構造の実験から見えるもの。
続きを読む