NextAI 海外で話題の最新AIニュース

タグ一覧に戻る

マルチモーダル

記事数: 79 件

Gemma 4 完全ガイド：スマホで動くGoogle最新オープンモデルの実力と使い方

LLM・生成AI 2026年4月6日

Gemma 4 完全ガイド：スマホで動くGoogle最新オープンモデルの実力と使い方

Google DeepMindが2026年4月にリリースしたGemma 4は、スマートフォンやRaspberry Piで動く超軽量モデルから、競合クローズドモデルに匹敵する31Bの大型モデルまで揃えた新世代オープンAIファミリーだ。マルチモーダル対応、Apache 2.0ライセンス、140言語対応という三拍子が揃い、AI活用の裾野を一気に広げる可能性を秘めている。

Gemma 4 Google DeepMind オープンソースAI マルチモーダルエッジAI

続きを読む

GLM-5V-Turboで変わるフロント開発

その他 2026年4月3日

GLM-5V-Turboで変わるフロント開発

中国のZhipu AIが公開したGLM-5V-Turboは、画像・映像・テキストを扱うマルチモーダルモデルとしてデザインモックをそのままフロントエンドコードに変換する可能性が期待されています。

GLM-5V-Turbo マルチモーダルコード生成セキュリティ

続きを読む

Gemma4がApache 2.0へ、端末AIの新時代

政策・規制 2026年4月2日

Gemma4がApache 2.0へ、端末AIの新時代

GoogleのGemma4が商用利用や改変を許すApache 2.0へ移行し、端末上での推論が現実味を帯びたことで、開発自由度の向上と低遅延やプライバシー強化の恩恵が広がると期待されます。

Gemma4 Apache-2.0 オンデバイスAI マルチモーダル

続きを読む

Nvidiaが288GPUでMLPerf新記録、評価軸が移る

技術 2026年4月2日

Nvidiaが288GPUでMLPerf新記録、評価軸が移る

Nvidiaが288台GPUでMLPerf推論の新記録を達成しました。今回からマルチモーダルや動画モデルが評価に加わり、AMDやIntelは別の評価軸で競っているため、単純な比較ではなく指標の見方が重要になってきています。

NVIDIA マルチモーダルベンチマーク

続きを読む

音声でコードを書く時代へ：Qwen3.5-Omniの挑戦

その他 2026年3月31日

音声でコードを書く時代へ：Qwen3.5-Omniの挑戦

AlibabaのQwen3.5-Omniは、テキスト・画像・音声・映像を扱うオムニモーダルAIで、音声指示と動画入力を組み合わせてコード生成が可能になりつつある点が注目されています。

Qwen3.5-Omni マルチモーダル音声指示コード生成

続きを読む

見えない画像を“描く”AIと評価の盲点の真実

その他 2026年3月30日

見えない画像を“描く”AIと評価の盲点の真実

Stanfordの研究は、画像が与えられていないのに具体的な描写を生成する「未見描写」を明らかにし、評価方法や透明性の改善がAIの信頼向上につながることを示唆しています。

GPT-5 Gemini 3 Pro Claude Opus マルチモーダルベンチマーク

続きを読む

Metaの新AIが予測する脳反応の実力

技術 2026年3月28日

Metaの新AIが予測する脳反応の実力

Metaの新AIは画像や音声に対する脳反応を、個人よりも典型的な群平均との差として高精度に予測する可能性を示し、研究応用と倫理・プライバシー配慮の重要性を示唆しています。

Meta マルチモーダル医療活用プライバシー

続きを読む

Conntourが700万ドル調達、映像検索に革新

スタートアップ 2026年3月27日

Conntourが700万ドル調達、映像検索に革新

ConntourがGeneral CatalystとYCの支援で700万ドルを調達し、警備映像を日常語で検索するAI開発を加速して現場の意思決定を迅速化すると期待されます。

Conntour マルチモーダル資金調達プライバシー

続きを読む

Gemini 3.1とSearch Liveが拓く会話型検索

その他 2026年3月26日

Gemini 3.1とSearch Liveが拓く会話型検索

Gemini 3.1のFlash LiveとSearch Liveの全球展開により、音声とカメラを組み合わせたリアルタイム対話型検索が身近になり、開発者ツール公開でエコシステム拡大が期待できます。

Gemini マルチモーダルプライバシー

続きを読む

その他 2026年3月26日

スクショで動くMolmoWeb、4億・8億対決

AI2が公開したMolmoWebは、スクリーンショットだけでウェブを横断するエージェントで、4億・8億パラメータの小規模モデルで透明性と実用性の両立を目指しており、検証が進めば業界の評価基準向上に寄与すると期待できます。

MolmoWeb マルチモーダルセキュリティ

続きを読む

ビジネス 2026年3月24日

S2Vecで読み解く都市の新言語と実務影響

S2Vecは都市の多様なデータを言葉のようにベクトル化し新たな分析視点と実務応用の可能性を示しますので、本稿では仕組みや具体例、導入の注意点、まずは小規模な検証から始める実務的な勧めまでをわかりやすく整理しました。

S2Vec マルチモーダル空間データ埋込み都市計画実務活用

続きを読む

Uni-1はNano Bananaに挑む新勢力

その他 2026年3月24日

Uni-1はNano Bananaに挑む新勢力

Luma AIのUni-1は画像理解と生成を一体化し、生成時にプロンプトを推論する能力を持つ新しい試みです。実用化には評価やエコシステムの整備が鍵になりますが、将来性のあるプロジェクトです。

Uni-1 Nano Banana 画像生成マルチモーダルプロンプト推論

続きを読む

画面読み取りAIの新局面：Littlebirdが1100万ドル調達

その他 2026年3月24日

画面読み取りAIの新局面：Littlebirdが1100万ドル調達

Littlebirdが1100万ドルを調達し、画面上の情報をリアルタイムで読み解くAIの実用化に向けた一歩を示しました。技術と規制の両面を見ながら今後の展開に注目してください。

Littlebird 画面読み取りAI マルチモーダル資金調達プライバシー

続きを読む

番組で見る職場カルチャーを笑って考える

エンタメ 2026年3月22日

番組で見る職場カルチャーを笑って考える

Amazon Primeの「Jury Duty Presents: Company Retreat」は、ハイジンクスな演出で職場を誇張しつつ、人々が意味やコミュニティを作る様子を描いており、娯楽として楽しみながら組織文化の示唆を得られる一作です。

Jury Duty Amazon Prime マルチモーダル教育活用

続きを読む

日常動画が映すAIギグの未来と課題をめぐる現実

政策・規制 2026年3月21日

日常動画が映すAIギグの未来と課題をめぐる現実

DoorDashのTasksで日常を撮影してAI学習に使う実践は、ワーカーの報酬やデータ品質の議論を促し、個人の安全とプライバシーを守る仕組みづくりや、透明で公正なルール作りへの建設的な出発点となります。

DoorDash マルチモーダルプライバシー規制動向

続きを読む

会議録音×AI翻訳ノートの実力と導入術

その他 2026年3月20日

会議録音×AI翻訳ノートの実力と導入術

TechCrunchで紹介された会議録音・翻訳・要約を行うAIノートは、国際会議のコミュニケーションと議事録作成を大幅に効率化します。導入は小規模な検証運用から始めるのがおすすめです。

AIノートデバイス音声認識マルチモーダル議事録作成

続きを読む

DoorDashのTasksが動画でAIを育てる

ビジネス 2026年3月20日

DoorDashのTasksが動画でAIを育てる

DoorDashの新アプリTasksは、配達員が日常作業や多言語の自己紹介動画を提出して報酬を得られ、提出映像はAI訓練データとして活用される予定で、今後の同意と透明性が鍵になります。

DoorDash Tasks マルチモーダルプライバシーデータ利用方針

続きを読む

その他 2026年3月18日

100万ポンド賞のAIスマートグラス、認知症支援へ

100万ポンド賞を受賞したAIスマートグラスは、環境認識のCrossSenseと会話型のWispyで視覚と音声の支援を組み合わせ、2027年初頭の実用化を目指しています。導入には精度とプライバシー配慮が重要です。

CrossSense Wispy マルチモーダル認知症支援介護現場

続きを読む

Mistral Small 4が拓く128モジュール

技術 2026年3月17日

Mistral Small 4が拓く128モジュール

Mistral AIのSmall 4は128モジュール設計でテキスト応答の高速化、論理推論の強化、画像処理の統合を同一モデルで目指しており、教育・医療・産業分野でのリアルタイム解析やプロトタイプ開発で生産性向上が期待できます。

Mistral Small 4 マルチモーダル 128モジュール産業用途

続きを読む

会話で使うChatGPT×DoorDash・Spotify活用術

ビジネス 2026年3月14日

会話で使うChatGPT×DoorDash・Spotify活用術

ChatGPTがDoorDashやSpotifyなどのアプリを会話内で直接操作できるようになり、日常の注文や音楽管理が自然な対話で完了します。まずは小規模で試し、権限とプライバシー対策を重視してください。

ChatGPT マルチモーダル企業導入セキュリティ

続きを読む

GoogleのAIで都市を守る急流洪水対策

ビジネス 2026年3月12日

GoogleのAIで都市を守る急流洪水対策

Googleの研究が示すAI予測は、急流洪水（短時間に発生する激しい洪水）を都市レベルで先読みし、自治体や企業の即応を支える実用的な手段であり、導入の鍵はデータ整備と透明な運用です

Google マルチモーダル洪水予測自治体導入データガバナンス

続きを読む

ChatGPTが映像で教える数学と科学

技術 2026年3月10日

ChatGPTが映像で教える数学と科学

ChatGPTの新機能は数式や物理の概念を動く映像で可視化し、変数の変化や証明過程を対話的に確かめられる新しい学習体験を提供し、教育現場での活用が期待されます。

ChatGPT マルチモーダル教育活用数学教育

続きを読む

Move 37からAGIへ、10年の変革

その他 2026年3月10日

Move 37からAGIへ、10年の変革

Move 37で注目を集めたAIは、AlphaGoやAlphaGo Zero、AlphaFold2、Geminiと進化し、世界モデルとツール活用の統合が現実的なAGI実現への有望な道筋を示しており、倫理や安全性の整備とともに医療や創薬などで大きな恩恵をもたらす可能性があります。

AlphaGo AlphaFold2 Gemini マルチモーダル

続きを読む

Sandbar、AIノート端末「Stream」を今夏出荷へ

その他 2026年3月10日

Sandbar、AIノート端末「Stream」を今夏出荷へ

TechCrunch報道によればSandbarがMシリーズAの資金を確保し、AIノート端末「Stream」を今夏出荷予定です。一台でノート取りとAI対話、メディア再生を実現し、正式発表と実機レビューが今後の注目点になります。

Stream マルチモーダル資金調達

続きを読む

その他 2026年3月10日

Yann LeCunのAMI Labsに巨額投資の波

Yann LeCun率いるAMI Labsが欧州で十億ドル級のシード調達と報じられ、LLM以外のマルチモーダルや自律分野への投資が注目されています。今後の開示で全貌が明らかになることが期待されます。

AMI Labs Yann LeCun マルチモーダル資金調達

続きを読む

Uni-1が描く画像理解と生成の未来

その他 2026年3月8日

Uni-1が描く画像理解と生成の未来

Uni-1が画像理解と生成を同一設計で両立し、論理ベースのベンチでNano Banana 2やGPT Image 1.5を上回ったと報じられ、統合設計が今後の技術競争に影響を与えるとして公式発表が注目されています

Uni-1 マルチモーダルベンチマーク

続きを読む

Lumaが示した創作AIの新統合時代到来

ビジネス 2026年3月6日

Lumaが示した創作AIの新統合時代到来

Lumaが公開したUnified Intelligenceは、テキスト・画像・動画・音声を一貫した創作ワークフローで扱う仕組みです。企業や開発者は互換性やセキュリティ、コストを見据えて段階的に準備することが有効です。

Luma マルチモーダル企業導入コストセキュリティ

続きを読む

MetaのAIグラス、私生活映像の海外処理問題

その他 2026年3月3日

MetaのAIグラス、私生活映像の海外処理問題

本稿では、MetaのAIグラスで記録された私生活映像がケニアなど海外で処理される可能性と、それが欧州の監督強化や透明性向上につながる背景を分かりやすく解説し、利用者が取れる対策を提案します。

Meta マルチモーダルプライバシー GDPR

続きを読む

ジョー・ゲビアの謎デバイス、何が隠れている？

その他 2026年3月3日

ジョー・ゲビアの謎デバイス、何が隠れている？

サンフランシスコのコーヒー店でジョー・ゲビアが着用した円盤付きイヤホン風デバイスが話題です。Wired報道を基に正体は未公表で、今後の公式発表に注目してください。

円盤付きイヤホンマルチモーダル偽広告 OpenAI

続きを読む

Perplexityの新PCは全AI統合を実現するか

その他 2026年2月28日

Perplexityの新PCは全AI統合を実現するか

Perplexityの新PCが示す「全AI統合」は、複数のAIを一つにまとめる夢を現実に近づけます。公式デモや仕様の詳細公開を楽しみにしながら、実際の性能と使い勝手に注目していきましょう。

PerplexityPC マルチモーダル画像生成音声認識企業導入

続きを読む

GeminiがGalaxy S26で日常を自動化

技術 2026年2月25日

GeminiがGalaxy S26で日常を自動化

GoogleのGeminiがGalaxy S26で複数アプリの操作を連携し、UberやDoorDashのような日常タスクを自動化するデモが示されました。利便性向上とともにプライバシー保護や同意管理が成功の鍵となります。

Gemini マルチモーダルスマホ自動化日常の自動化

続きを読む

Ailiasのホログラムでニュートンと対話

ビジネス 2026年2月25日

Ailiasのホログラムでニュートンと対話

Ailiasのホログラムアバターでニュートンと対話する体験が登場しました。教育や研修での活用が期待され、導入時は倫理や著作権、透明性の確保が重要です。

Ailias マルチモーダル教育活用

続きを読む

OpenAIの0to0端末群計画が描く未来端末像

その他 2026年2月21日

OpenAIの0to0端末群計画が描く未来端末像

OpenAIの0to0端末群計画はスマートスピーカーを起点に顔認識カメラやProactive AI（先回り提案機能）を組み込み、家事や情報収集を自然に支える新しいデバイス連携の可能性と、透明性重視の選び方をやさしく紹介します。

0to0端末群計画マルチモーダルプライバシー

続きを読む

AppleのAIウェアラブルが3機種登場へ

技術 2026年2月18日

AppleのAIウェアラブルが3機種登場へ

複数報道によればAppleはスマートグラス、ペンダント型、カメラ搭載のAirPods風イヤフォンの3機種を共通プラットフォームで開発中とされ、2026年後半に向けた準備が進んでいます。

Apple マルチモーダルウェアラブルプライバシー

続きを読む

Google Geminiで音楽生成が身近に

その他 2026年2月18日

Google Geminiで音楽生成が身近に

GoogleのGeminiがLyria3を使い、テキスト・画像・動画から短い楽曲を手早く生成する機能を公開し、アイデア検証や教育用途での活用が期待されます。

Gemini Lyria3 音楽生成マルチモーダル教育活用

続きを読む

室内で迷うロボを救う新AIの正体とは？

その他 2026年2月18日

室内で迷うロボを救う新AIの正体とは？

屋内や高密度ビル街で位置を見失う「kidnappedロボ」に対し、オンボードセンサーと高度なローカライゼーションAIが手がかりを統合して位置感覚を回復します。導入で現場の自律移動は安定し、安全性と作業効率の向上が期待できます。

kidnappedロボロボティクス自己位置推定オンボードセンサーマルチモーダル

続きを読む

GABRIELが拓く質的データ新時代

その他 2026年2月13日

GABRIELが拓く質的データ新時代

OpenAIのGABRIELは、インタビューや写真などの質的データを数値化して大規模分析を可能にするオープンソースツールです。効率化と透明性を高めつつも、文脈や倫理の検証が重要になります。

GABRIEL マルチモーダル倫理・ガイドライン

続きを読む

WorldVQA結果：AIは本当に見ているか

技術 2026年2月8日

WorldVQA結果：AIは本当に見ているか

WorldVQAの新しい評価は、Gemini3Proの固有名詞認識が47.4%である現状を可視化し、評価設計やデータ整備を進めることで信頼性向上の具体的な改善の道筋を示しました。

WorldVQA Gemini3Pro 固有名詞認識マルチモーダルベンチマーク

続きを読む

Gizmo登場：TikTok風対話ミニアプリの未来

その他 2026年2月5日

Gizmo登場：TikTok風対話ミニアプリの未来

GizmoはTikTok風の短尺動画フォーマットに対話機能を組み合わせた新しい対話ミニアプリで、TechCrunchが報じるようにクリエイター表現や収益化の新たな可能性に注目が集まっています。

Gizmo マルチモーダルクリエイター経済

続きを読む

農作業の後に夜勤でAIを支える27歳の物語

その他 2026年2月3日

農作業の後に夜勤でAIを支える27歳の物語

農作業の合間に夜はAIの学習データを作る27歳の事例から、地方の労働力がAI開発を支える現実とその利点・課題を分かりやすく伝えます。

データラベリングマルチモーダル地方雇用夜勤

続きを読む

Gemini最新3機能で日常が変わる

LLM 2026年1月29日

Gemini最新3機能で日常が変わる

GoogleのGeminiは、個人の声を再現するクローン、入力から即座に仮想世界を生成するProject Genie、そしてMapsとの対話連携という三つの新機能で日常の情報体験を大きく進化させようとしており、利便性と同時にプライバシーや安定性への配慮が重要です。

Gemini 音声合成マルチモーダル仮想空間生成

続きを読む

LLM 2026年1月27日

Kimi K2.5公開と15兆トークンの実力

MoonshotがKimi K2.5とコーディングエージェントを公開し、15兆トークンという大規模データが注目されています。量だけでなくデータの質や安全性が鍵で、今後は公式評価やコミュニティの検証結果を注視することが大切です。

Kimi K2.5 コーディングエージェント大規模言語モデルマルチモーダルベンチマーク

続きを読む

ChatGPTがSora偽動画を92%見抜けなかった理由

セキュリティ 2026年1月25日

ChatGPTがSora偽動画を92%見抜けなかった理由

Newsguardの調査は偽動画検出の改善点と透明性の重要性を示し、技術者や企業、第三者が協力して評価基準を整備することで検出力を高める好機を提示しています。

ChatGPT 偽動画検出マルチモーダルセキュリティ

続きを読む

AppleのAIウェアラブル、2027年は現実か

技術 2026年1月22日

AppleのAIウェアラブル、2027年は現実か

AppleがAI搭載ウェアラブルを開発中とするTechCrunch報道を受け、2027年という可能性や技術課題、業界への影響を分かりやすく整理し、注目点と今後のチェック項目も紹介します。

Apple マルチモーダル発売時期プライバシー

続きを読む

GoogleのAIグラス、三度目の挑戦

その他 2026年1月20日

GoogleのAIグラス、三度目の挑戦

GoogleがAI搭載グラスで三度目の挑戦に乗り出しました。過去の教訓と最新技術が融合する中で、業務支援や日常利用の新たな可能性に期待が高まります。

Google Glass マルチモーダル企業導入プライバシー

続きを読む

看板の謎が生んだAI面接と6900万ドル調達

その他 2026年1月17日

看板の謎が生んだAI面接と6900万ドル調達

サンフランシスコの看板企画が火種となり、Listen Labsは500万回視聴と100万件超のAI面接実績を背景に100名超の採用と6,900万ドルの資金調達を実現し、迅速で深掘りできる新しい調査の可能性を示しました。

ListenLabs マルチモーダル資金調達

続きを読む

生活が変わる？GoogleとGeminiの新機能

ビジネス 2026年1月15日

生活が変わる？GoogleとGeminiの新機能

GoogleのGemini連携はGmailやGoogle Photosのデータを活かして日常を賢くする機能です。まずは最小限の共有から試し、プライバシー設定を確認しながら使ってみてください。

Gemini マルチモーダル個人データ活用プライバシートレンド分析

続きを読む

GoogleのAI商取引で割引直販が拡大へ

その他 2026年1月11日

GoogleのAI商取引で割引直販が拡大へ

Googleの新AI商取引プロトコルは、GeminiなどのAIエージェント経由でWalmartやShopifyらの店舗が直接割引を提示できる道を開き、ショッピングをよりパーソナルで便利にする期待を高めています。

Gemini マルチモーダル AI商取引提携・買収

続きを読む

Grok遮断が示す深層偽造対策の試金石

政策・規制 2026年1月11日

Grok遮断が示す深層偽造対策の試金石

インドネシアとマレーシアがxAIのチャットボットGrokを一時遮断した事例をもとに、非同意の性的ディープフェイク問題と透明性ある規制、企業の説明責任の必要性をわかりやすく解説します。

Grok ディープフェイクマルチモーダル規制動向プライバシー

続きを読む

中国発・AI画像モデルの自己修復と失語診断

技術 2026年1月11日

中国発・AI画像モデルの自己修復と失語診断

中国の研究チームが提案したUniCornは、マルチモーダルAIが自ら出力を診断し修正する自己修復フレームワークで、信頼性向上の可能性と評価や倫理面の課題を示しています。

UniCorn マルチモーダル自己診断自己修正医療活用

続きを読む

LTX-2公開：AI動画生成の新潮流

その他 2026年1月11日

LTX-2公開：AI動画生成の新潮流

Lightricksが公開したLTX-2（190億パラメータ）は、テキストから音声と映像を同期生成するオープンソースモデルで、開発や実装の自由度を高めつつSoraやVeoとの競争でAI動画市場に新たな選択肢をもたらします。

LTX-2 マルチモーダル映像生成オープンソース

続きを読む

CES2026で進化するGeminiのTV活用

技術 2026年1月5日

CES2026で進化するGeminiのTV活用

CES2026で公開されたGeminiは、テレビでの写真編集や設定操作、生成コンテンツの大画面表示で家庭のAI体験を広げ、Atlas連携は工場やサービス現場への応用を示唆しており、プライバシーや安全の配慮を踏まえて今後の進化を楽しみにしたい技術です。

Gemini Atlas マルチモーダルテレビ活用工場導入

続きを読む

OpenAI、音声AIの精度差を社内統合で解消へ

その他 2026年1月1日

OpenAI、音声AIの精度差を社内統合で解消へ

The Decoderの報道によれば、OpenAIが音声関連チームを統合してChatGPTのハードウェア推進と連携し、より自然で信頼できる音声対話の実現に向けた動きが進んでいます。

ChatGPT 音声認識マルチモーダル企業導入

続きを読む

アダム・モセリが問うAI時代の真偽力

政策・規制 2026年1月1日

アダム・モセリが問うAI時代の真偽力

インスタのアダム・モセリは、AIで生成物が本物らしくなる時代に、出典確認や検証の習慣化とデジタル署名などの透明性、教育・企業・規制の連携が重要だと訴えています。

Instagram マルチモーダル情報リテラシー

続きを読む

2025年、深層偽造が変えた日常と備え

セキュリティ 2025年12月29日

2025年、深層偽造が変えた日常と備え

2025年、映像や音声、全身の動きまで再現する深層偽造が急速に進化しました。本記事は進化の背景と現状、個人と企業が取るべき実務的な備えを分かりやすくまとめます。

深層偽造マルチモーダル検証セキュリティ

続きを読む

写真と平面図をピクセルで結ぶ新視覚法

その他 2025年12月23日

写真と平面図をピクセルで結ぶ新視覚法

コーネル大学の新手法は写真と平面図をピクセル単位で結びつけることを目指しており、詳細は未公開ながら建築現場やロボティクス、AR、3Dモデリングで設計図と現場写真の整合性を高め自動化や検査の精度向上に貢献する可能性が期待されています。

Cornell University マルチモーダルコンピュータビジョン拡張現実建設現場

続きを読む

ChatGPT年末総括と2025年の注目更新

技術 2025年12月23日

ChatGPT年末総括と2025年の注目更新

ChatGPTが年末にSpotify Wrapped風の振り返り機能を導入したニュースを受け、TechCrunch報道をもとに今年の更新と今後の展開を分かりやすく整理し、来年の変化に備えるポイントをお伝えします。

ChatGPT 生成AI マルチモーダル年末演出

続きを読む

NitroGenが描く世界対応のAI代理人

ビジネス 2025年12月21日

NitroGenが描く世界対応のAI代理人

NVIDIAのNitroGenは40,000時間超のゲーム映像と1000本以上のゲームデータで視覚と行動を学び、ゲームや産業で汎用AIエージェントを目指す可能性を示し、実用化には検証と倫理配慮が鍵になります。

NitroGen マルチモーダルコンピュータビジョン企業導入倫理ガイドライン

続きを読む

Meta、視覚と推論を統合する世界モデルへ

その他 2025年12月20日

Meta、視覚と推論を統合する世界モデルへ

Metaは視覚情報と意思決定を統合する世界モデルを2026年公開を目標に開発中で、画像・動画理解とテキスト能力の融合により開発者の生産性や直感的なアプリ体験が向上し、新たな応用が広がることが期待されています

Meta マルチモーダル視覚理解世界モデル倫理・ガイドライン

続きを読む

LeCunの新会社「世界モデル」と5B評価の衝撃

その他 2025年12月19日

LeCunの新会社「世界モデル」と5B評価の衝撃

Yann LeCunが関与する新スタートアップ「世界モデル」が報じられ、CEO不在の体制や約50億ドルの評価が注目を集めています。公式発表の続報で技術と組織の全貌が明らかになるのを期待しましょう。

世界モデル YannLeCun マルチモーダル資金調達

続きを読む

AI生成画像で返金を狙う中国の詐欺実例

その他 2025年12月19日

AI生成画像で返金を狙う中国の詐欺実例

本記事では、中国で報告されたAI生成画像を悪用する返金詐欺の実例を紹介し、EC事業者向けの検証手順や運用上の工夫、消費者が実践できる確認方法まで、具体的にわかりやすく整理してお伝えします。

AI生成画像マルチモーダルセキュリティ

続きを読む

Google Research 2025：AIの大胆突破

ビジネス 2025年12月19日

Google Research 2025：AIの大胆突破

Google Research 2025の報告は、研究成果が実務へ移る転換点を示しています。スケール化、マルチモーダル連携、安全性評価の強化が進み、産業横断で新たな機会と課題が生まれます。公式資料を基にまず小さな実証から始めることを勧めます。

Google Research 大規模言語モデルマルチモーダル企業導入セキュリティ

続きを読む

FrontierScienceで測る研究向けAIの推論力

その他 2025年12月16日

FrontierScienceで測る研究向けAIの推論力

OpenAIのFrontierScienceは物理・化学・生物の三領域でAIの推論力を横断評価する新ベンチマークで、研究現場への実用化の進捗を可視化し研究や投資判断に役立つ可能性があります

FrontierScience マルチモーダル研究向けAI

続きを読む

AIが映像の“沈黙”を埋めるMireloに出資

スタートアップ 2025年12月15日

AIが映像の“沈黙”を埋めるMireloに出資

ドイツ発のMireloが、映像に同期したサウンドを自動生成するAIでシード調達を実施しました。Index Venturesとa16zが出資し、技術の実用化と商用展開が加速します。映像制作の音作りが手軽になる期待が高まっています。

Mirelo 音声合成マルチモーダル資金調達映像制作

続きを読む

ChatGPTでPhotoshop・Acrobatが使える？

LLM 2025年12月14日

ChatGPTでPhotoshop・Acrobatが使える？

AdobeがPhotoshop・Acrobat・ExpressをChatGPTに組み込み、チャットの指示だけで画像やPDF編集ができると報じられており、無料提供の見込みで作業効率化が期待されます。

ChatGPT マルチモーダル Photoshop Acrobat セキュリティ

続きを読む

Gemini搭載Google翻訳βが紡ぐ音声翻訳

その他 2025年12月13日

Gemini搭載Google翻訳βが紡ぐ音声翻訳

Geminiを統合したGoogle翻訳βは音声の抑揚やリズムまで再現するリアルタイム翻訳を目指し、旅行や多言語業務での利便性を高めるとともに公開βでのユーザーフィードバックが今後の改善を導きます

Gemini マルチモーダル音声翻訳企業導入

続きを読む

GeminiがつなぐXRエコシステム革命

その他 2025年12月9日

GeminiがつなぐXRエコシステム革命

GoogleのGeminiがXRデバイスの共通インターフェースとなり、ヘッドセットや眼鏡型デバイスで統一されたマルチモーダル体験を広げ、開発者や企業に新たな機会をもたらします。

Gemini マルチモーダル企業導入エコシステム

続きを読む

日常動画で物理を直感するAI、V-JEPAの挑戦

その他 2025年12月7日

日常動画で物理を直感するAI、V-JEPAの挑戦

V-JEPAは日常の普通動画を材料に現実世界の物理を直感的に学習する新たな試みで、ロボットや教育などでの応用が期待される一方、データ品質や評価の透明性が重要であり、今後の公開検証が楽しみです。

V-JEPA コンピュータビジョンマルチモーダル教育活用

続きを読む

ハサビスが描く、2026年のAI潮流

技術 2025年12月6日

ハサビスが描く、2026年のAI潮流

デミス・ハサビスが描く2026年の三大潮流、マルチモーダル化、対話型動画の拡大、信頼性の高いAIエージェントは、研究と現場を結び、企業に運用基盤やガバナンス、評価体制、教育の整備を促す実務指針となるでしょう。

DeepMind マルチモーダル対話型動画データガバナンス

続きを読む

Luxが拓くデスクトップ新時代

その他 2025年12月1日

Luxが拓くデスクトップ新時代

OpenAGIのLuxはスクリーンショットを理解しSlackやExcelなどネイティブアプリまで自動操作する先進的なエージェントで、SDK公開とIntelとの協業により現場導入が一層期待されます。

Lux デスクトップ自動化マルチモーダル SDK ベンチマーク

続きを読む

視覚だけで操作するローカルAI Fara-7Bの可能性

その他 2025年11月29日

視覚だけで操作するローカルAI Fara-7Bの可能性

Fara-7Bは視覚入力だけで家庭用デバイスをローカル制御する小型AIの試みで、低遅延やプライバシー保護が期待されますが認識精度や互換性、更新運用の改善が実用化の鍵であるため、THE DECODERの報道を基に整理した本稿を参考に、今後の公式発表やデモにご注目ください。

Fara-7B オンデバイスAI 視覚入力マルチモーダルプライバシー

続きを読む

Qwen3-VLが示す2時間動画解析の実力

その他 2025年11月28日

Qwen3-VLが示す2時間動画解析の実力

Alibabaの報告によればQwen3-VLは約2時間の動画解析が可能とされ、映像解析や教育、品質管理など実務応用の可能性を示しています。

Qwen3-VL マルチモーダル長尺動画解析映像要約監視映像

続きを読む

動画だけでピアノ演奏の筋活動を再現するAI

技術 2025年11月27日

動画だけでピアノ演奏の筋活動を再現するAI

標準的な映像だけでピアノ演奏中の手の筋活動を高精度に推定する技術が登場し、教育やリハーサル、研究、機器設計など幅広い分野で非接触の新たな解析手法を提供すると期待され、実運用に向けた倫理や公平性の検討も進みつつあります。

筋電図推定非接触解析マルチモーダル深層学習

続きを読む

GoogleのNano Banana Proが変えるAI画像

ビジネス 2025年11月20日

GoogleのNano Banana Proが変えるAI画像

GoogleのNano Banana ProはGemini 3を核に、高解像度化と編集機能、ウェブ検索連携でAI画像の精度と実用性を高めます。クリエイターや企業は制作効率と出典確認の恩恵を受けつつ、導入時は著作権や誤情報対策を検討する価値があります。

Gemini3 画像生成マルチモーダル教材作成

続きを読む

Gemini 3が拓く検索と働き方の未来

LLM 2025年11月18日

Gemini 3が拓く検索と働き方の未来

GoogleのGemini 3は、検索やアプリを横断して作業を自動化する新世代のAIで、Visual LayoutやDynamic View、Gemini Agentを通じてエコシステム統合と開発効率を高め、企業の生産性向上に貢献する可能性があります。

Gemini 3 マルチモーダル生成AI 業務自動化

続きを読む

1.4兆の埋め込みで地球地図を再定義

技術 2025年11月17日

1.4兆の埋め込みで地球地図を再定義

AlphaEarth Foundationsが提案する約1.4兆の埋め込みとGoogle Earth EngineのSatellite Embeddingは、10×10m単位で地球を統一表現し保全や農業モニタリングをより迅速で高精度に進める可能性を示しています。

AlphaEarth 埋め込みマルチモーダル地球観測データ活用

続きを読む

Geminiが複数画像でAI動画を精密制御

技術 2025年11月16日

Geminiが複数画像でAI動画を精密制御

Google Geminiが複数の参照画像でAI動画生成の制御力を高める機能を導入し、クリエイターの表現精度や企業の制作効率が向上する一方、著作権やプライバシー、悪用対策の整備が急務となります

Gemini 動画生成マルチモーダル悪用リスク

続きを読む

ERNIE 5.0がGPT‑5に迫る理由

LLM 2025年11月14日

ERNIE 5.0がGPT‑5に迫る理由

BaiduのERNIE 5.0はネイティブなマルチモーダル設計と商用＋オープンの二刀流戦略でGPT系に挑みますが、企業は性能・価格・ライセンスを自社データで検証し、用途に応じたハイブリッド運用を検討する必要があります。

ERNIE 5.0 GPT-5.1 マルチモーダル企業導入価格設定

続きを読む

Baiduの28BマルチモーダルAI、実用性と注意点

技術 2025年11月12日

Baiduの28BマルチモーダルAI、実用性と注意点

Baiduの新マルチモーダルAI「ERNIE-4.5-VL-28B」は28Bだが入力ごとに約3Bだけ活性化するMoE設計で、Apache 2.0で公開され80GB GPU運用を想定しますが独立検証が必須です。

ERNIE-4.5 マルチモーダル MoE Apache-2.0

続きを読む