Careti GLM-4.7-Flash ローカル実行およびオンプレミス活用ガイド

最近のGLM-4.7-Flash-Latestモデルへの関心に伴い、CaretiのローカルLLMおよびオンプレミス環境サポートに関するお問い合わせを多くいただいております。実際の動作を示すビデオを用意しました。

GLM-4.7-Flashは30Bクラスのリーダーであり、パフォーマンスと効率のバランスをとった新しい軽量展開オプション（30B-A3B MoE）です。特にコーディングと推論のベンチマークにおいて、他のモデルと比較して圧倒的なパフォーマンスを発揮します。

Benchmark	GLM-4.7-Flash	Qwen3-30B-Thinking	GPT-OSS-20B
AIME 25	91.6	85.0	91.7
GPQA	75.2	73.4	71.5
SWE-bench (Verified)	59.2	22.0	34.0
τ²-Bench	79.5	49.0	47.7
BrowseComp	42.8	2.29	28.3
LCB v6	64.0	66.0	61.0
HLE	14.4	9.8	10.9

特に、実践的なコーディング能力を評価するSWE-bench Verifiedで59.2点を記録し、競合モデルを大きく引き離しています。これは、ローカル環境でも商用APIレベルのコーディングエージェントを実行できることを示唆しています。

GLM-4.7-Flashは、vLLMおよびSGLang推論フレームワークを通じてローカルに展開可能です。現在、両方のフレームワークがメインブランチでサポートしています。詳細な展開手順は、公式GitHubリポジトリ（zai-org/GLM-4.5）で確認できます。

今回のビデオは、セキュリティやコストの問題で外部APIの使用が難しい環境を想定し、RTX 3090単一環境でOllamaを通じてローカルモデルを実行する過程を収録しています。

現在配布されているバージョンでOllama連携時に遅く感じられた部分は、モデルの推論（Thinking）プロセスがユーザーに見えていなかったためです。

映像内のRTX 3090の動作速度はややゆっくり感じられるかもしれませんが、これはハードウェアのメモリ帯域幅の限界によるものです。今後RTX 5090を導入した場合に期待できるパフォーマンス差は以下の通りです。

RTX 5090を使用する場合、帯域幅の増加により約2倍以上の速度向上が予想され、増えたVRAMのおかげで、より長いソースコードを一度に処理するのに有利になります。

ローカルAI開発環境を検討中の方々にとって、実質的なデータとなれば幸いです。

More posts