OpenBMB MiniCPM-o 導入ガイド：フルデュプレックスな次世代マルチモーダルAIをローカル環境で動かす

2026-02-08

一言でいうと、「目・耳・口をすべて持った、スマホで動く超軽量・爆速なAI」です。通常、画像認識や音声認識をこなすAIは巨大で、クラウド（高性能サーバー）が必要です。しかし、MiniCPM-o は、スマホレベルのデバイスで「見て、聞いて、話す」をリアルタイム（フルデュプレックス）で行えるように設計されています。

フルデュプレックス（全二重）通信
ユーザーが話している途中に割り込んで会話を続けられるなど、より人間に近い「リアルタイムなやり取り」が可能です。

圧倒的なトークン密度
画像を処理する際、多くのモデルは大量のトークンを消費しますが、これは独自の圧縮技術（3D-Resamplerなど）で、計算コストを劇的に下げています。

オンデバイスへの最適化
モデルサイズが小さい（約8B〜9B程度）ため、プライバシーを守りたいアプリや、オフライン環境でのエッジコンピューティングに最適です。

温泉から上がったら、さっそく試してみましょう。まずは Python 環境を整えます。

vLLM や transformers ライブラリを使って動かすのが一般的です。

# 仮想環境を作成
conda create -n minicpmo python=3.11 -y
conda activate minicpmo

# 必要なライブラリのインストール
pip install torch torchvision torchaudio
pip install transformers accelerate flash-attn

最も基本的な「画像を見て説明する」コードの例です。

import torch
from PIL import Image
from transformers import AutoModel, AutoTokenizer

# モデルとトークナイザーのロード
# openbmb/MiniCPM-o-2_6 などを指定
model_id = "openbmb/MiniCPM-o-2_6"
model = AutoModel.from_pretrained(model_id, trust_remote_code=True, attn_implementation='sdpa', torch_dtype=torch.bfloat16)
model = model.eval().cuda()
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)

# 画像の読み込み
image = Image.open('onsen_view.jpg').convert('RGB')
question = "この画像に写っているものをエンジニアっぽく解説して。"

# 推論実行
msgs = [{'role': 'user', 'content': [image, question]}]
res = model.chat(
    image=None,
    msgs=msgs,
    tokenizer=tokenizer
)

print(res)

「これを使って何を作ろうか？」と湯船で考えるのも楽しいですよね。

ユースケース	具体的な仕組み
リアルタイム・ビデオ解析	スマホカメラの映像を毎秒数フレーム解析し、周囲の状況を音声でガイドする。
高度なOCRツール	複雑な表や手書きコードをスキャンして、即座にMarkdownや実行可能なコードに変換。
次世代カスタマーサポート	ユーザーの画面共有（動画）を見ながら、音声で操作手順をリアルタイムに教える。
エッジAIボット	サーバー代を気にせず、ローカルPCやスマホ内で完結する多機能アシスタント。

MiniCPM-o は、「APIの壁を越えて、自分のデバイスに目と耳を実装したい」エンジニアにとって、最強の選択肢の一つです。特に、音声と画像を同時に扱う「ライブストリーミング機能」は、既存のテキストベースのAIとは一線を画す体験を提供してくれます。

次は、実際にあなたのスマホやローカルPCで、Webカメラの映像をリアルタイムに実況させるデモを動かしてみるのはいかがでしょうか？

OpenBMB MiniCPM-o 導入ガイド：フルデュプレックスな次世代マルチモーダルAIをローカル環境で動かす

【エンジニア体験談】MiniCPM-VとスマホAI革命：開発の可能性を解き放つ