Gemma 4 完全ガイド:スマホで動くGoogle最新オープンモデルの実力と使い方
Google DeepMindが2026年4月にリリースしたGemma 4は、スマートフォンやRaspberry Piで動く超軽量モデルから、競合クローズドモデルに匹敵する31Bの大型モデルまで揃えた新世代オープンAIファミリーだ。マルチモーダル対応、Apache 2.0ライセンス、140言語対応という三拍子が揃い、AI活用の裾野を一気に広げる可能性を秘めている。
2026年4月、Google DeepMindが「Gemma 4」をリリースした。前作Gemma 3から大幅に進化したこのシリーズは、Hacker Newsでたちまちトップを飾り、「iPhoneでGemma 4が動く」という報告が続々と寄せられた。何がそれほど話題を呼んでいるのか——モデルの全貌と使い方を徹底的に解説する。
Gemma 4とは何か
Gemmaは、GoogleがオープンソースとしてリリースしているAIモデルファミリーだ。商用利用可能なApache 2.0ライセンスで提供されており、Hugging FaceやKaggleから誰でも無料でダウンロードできる。
Gemma 4では特に3点が強化された。
- マルチモーダル対応の全モデルへの拡大:テキストだけでなく、画像・音声・動画も処理できる
- エッジデバイス向けモデルの登場:スマートフォンやRaspberry Piで動く超軽量モデル「E2B」「E4B」を新設
- 推論性能の飛躍的向上:31BモデルがAIME 2026数学コンペで89.2%を達成。前作27Bの20.8%から4倍以上の改善
モデルラインアップ:4種類の使い分け
Gemma 4は4つのモデルで構成される。用途とハードウェアに合わせて選ぶのがポイントだ。
| モデル | 有効パラメータ | コンテキスト | 向いている用途 |
|---|---|---|---|
| E2B | 2.3B(埋め込み込み5.1B) | 128k | スマホ・IoT・オフライン実行 |
| E4B | 4.5B(埋め込み込み8B) | 128k | 高性能スマホ・Raspberry Pi |
| 26B A4B | MoE(活性化4B/総計26B) | 256k | コンシューマーGPU・IDE統合 |
| 31B | 31B(Dense) | 256k | ワークステーション・研究用途 |
E2B / E4Bの「E」とは何か
「E」はEdgeの頭文字だ。Per-Layer Embeddings(PLE)という新しいアーキテクチャを採用し、モデルの本体(2.3Bや4.5B)は小さく保ちながら、各層に専用の埋め込みベクトルを持たせることで、はるかに大きなモデルに匹敵する表現力を実現している。
E4Bは、通常のスマートフォンのSoCでもオフラインで動作する。インターネット接続なし、APIコストなし——これが「スマホで動くGemma 4」の正体だ。
26B A4BのMoEとは何か
「A4B」はActively-used 4 Billion(実際に活性化するのは4B分)という意味だ。Mixture-of-Experts(MoE)アーキテクチャを採用しており、全26Bのパラメータを一度に使うのではなく、入力ごとに必要な「専門家」ブロック(約4B相当)だけを選択的に起動する。
結果として、消費メモリと計算コストは4B相当に抑えつつ、26Bモデルとしての知識と表現力を引き出せる。コンシューマーGPU(RTX 4090クラス)でも快適に動作する。
圧倒的なベンチマーク結果
Gemma 3との比較で、Gemma 4の性能向上幅は特に数学とコーディングで際立っている。
数学・推論
| ベンチマーク | Gemma 4 31B | Gemma 4 26B | Gemma 4 E4B | Gemma 3 27B |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 67.6% |
| AIME 2026 | 89.2% | 88.3% | 42.5% | 20.8% |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 42.4% |
AIME 2026は米国の難関数学コンペティションだ。前作27Bが20.8%だったのに対し、31Bは89.2%——つまり10問中9問近くを正解できる水準まで到達した。
コーディング
| ベンチマーク | Gemma 4 31B | Gemma 4 26B | Gemma 4 E4B | Gemma 3 27B |
|---|---|---|---|---|
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 29.1% |
| Codeforces ELO | 2150 | 1718 | 940 | 110 |
Codeforces ELO 2150は、競技プログラミングの世界で「グランドマスター」相当の腕前だ。前作の110からの急上昇は、コーディング能力においてGemma 4が別次元の進化を遂げたことを示している。
マルチモーダル:テキスト以外も扱える
全モデルが以下のマルチモーダル入力に対応している。
画像処理
- オブジェクト検出・位置特定
- GUIの操作(スクリーンショットの解析)
- ドキュメント解析(OCR含む)
- 画像キャプション生成
音声処理(E2B/E4Bのみ)
- 音声質問応答
- 文字起こし(トランスクリプション)
動画処理
- 音声付き動画の理解(小型モデル)
- 映像のみの理解(大型モデル)
例えば、スマートフォンのスクリーンショットを渡して「このアプリの設定画面でダークモードをオンにするには?」と聞けば、GUIを解析して操作手順を教えてくれる——そんな使い方がE4Bクラスのモデルでも可能になった。
実際に使ってみる
方法1:transformersで使う(Python)
最も標準的な方法。Hugging FaceのTransformersライブラリ経由で動かせる。
from transformers import pipeline
pipe = pipeline("any-to-any", model="google/gemma-4-e4b-it")
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "https://example.com/photo.jpg"},
{"type": "text", "text": "この画像について説明してください。"},
],
}
]
output = pipe(messages, max_new_tokens=200)
print(output[0]["generated_text"])
方法2:llama.cppでローカル実行(macOS/Windows/Linux)
GGUFフォーマットに変換されたモデルをllama.cppで動かす方法。OpenAI API互換のサーバーとして起動できるため、既存のChatGPTクライアントアプリとそのまま接続できる。
# macOSの場合
brew install llama.cpp
# OpenAI API互換サーバーとして起動
llama-server -hf ggml-org/gemma-4-E4B-it-GGUF
起動後はlocalhost:8080にOpenAI互換のエンドポイントが立ち上がる。
方法3:MLXでApple Siliconに最適化(Mac M1/M2/M3/M4)
MacのApple Siliconユーザーには、MLXフレームワークが最も効率的だ。
pip install -U mlx-vlm
mlx_vlm.generate \
--model google/gemma-4-E4B-it \
--image photo.jpg \
--prompt "この画像を詳しく説明してください"
4bit量子化モデルを使えば、M1 MacBook Air(16GB)でも26Bクラスのモデルが動作する。
方法4:Ollamaで一発起動
最も手軽な方法はOllamaだ。コマンド一つでモデルのダウンロードから実行まで完了する。
ollama run gemma4
チャット形式でそのまま対話できる。
関数呼び出し(Function Calling)への対応
エージェント開発者にとって重要なのが、ネイティブ関数呼び出しのサポートだ。ツール定義を渡せば、モデルが適切なタイミングで関数を呼び出す判断を下し、結果を統合した回答を返す。
WEATHER_TOOL = {
"type": "function",
"function": {
"name": "get_weather",
"description": "指定した都市の現在の天気を取得する",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "都市名"},
},
"required": ["city"],
},
},
}
このような定義をモデルに渡すと、「東京の天気を教えて」という質問に対して、自律的にget_weatherを呼び出して結果を返す動作が実現できる。
140言語対応と日本語の扱い
Gemma 4は140言語をサポートしており、「翻訳を超えた文化的文脈の理解」を掲げている。日本語もサポート言語に含まれており、日本語での質問応答・文書要約・コード生成などが可能だ。
前作Gemma 3でもすでに日本語対応はされていたが、Gemma 4では理解精度の向上が期待される。特にE4B以上のモデルであれば、日本語での複雑な指示にも対応できる。
「スマホで動くAI」が意味するもの
Gemma 4のE2B/E4Bが象徴するのは、AIの「分散化」の加速だ。
これまでのLLMは、大規模なクラウドサーバーが必要だった。高額なAPIコスト、通信遅延、プライバシーリスク——これらはクラウド依存ゆえの問題だ。エッジデバイスで動くモデルが実用レベルに達したことで、以下のユースケースが現実味を帯びてくる。
- 医療現場での活用:患者データをクラウドに送らずにオンプレミスで処理
- 工場・倉庫でのロボット制御:インターネットが不安定な環境でも自律動作
- オフライン翻訳デバイス:海外旅行中でも高精度な翻訳
- プライバシー重視のパーソナルアシスタント:会話データを端末外に出さない
まとめ:オープンAIの新たな基準点
Gemma 4は、オープンソースAIの水準を大きく引き上げた。
- スマホサイズのモデルでもマルチモーダル対応
- 31Bモデルは競合クローズドモデルに匹敵するベンチマーク
- Apache 2.0ライセンスで商用利用も無制限
- 多様なフレームワーク対応で導入の敷居が低い
「オープンソースモデルはクローズドモデルより劣る」という認識は、もはや過去のものになりつつある。Gemma 4 31BがAIME 2026で89.2%を叩き出したとき、その常識は静かに塗り替えられた。
エッジで動く小型モデルが本格化したこのタイミングは、AIを「クラウドのサービス」から「手元のツール」へと転換する節目になるかもしれない。