Careti GLM-4.7-Flash 本地运行与私有化部署指南

随着近期大家对 GLM-4.7-Flash-Latest 模型的关注度提高，我们收到了许多关于 Careti 是否支持本地 LLM 和私有化（On-Premise）环境的咨询。我们准备了一段演示实际运行情况的视频。

GLM-4.7-Flash 是 30B 级别的佼佼者，这是一种在性能和效率之间取得平衡的新型轻量级部署选项（30B-A3B MoE）。特别是在编码和推理基准测试中，它表现出了优于其他模型的压倒性性能。

Benchmark	GLM-4.7-Flash	Qwen3-30B-Thinking	GPT-OSS-20B
AIME 25	91.6	85.0	91.7
GPQA	75.2	73.4	71.5
SWE-bench (Verified)	59.2	22.0	34.0
τ²-Bench	79.5	49.0	47.7
BrowseComp	42.8	2.29	28.3
LCB v6	64.0	66.0	61.0
HLE	14.4	9.8	10.9

特别是在评估实际编码能力的 SWE-bench Verified 中，它获得了 59.2 分，大幅领先于竞争模型。这表明即使在本地环境中，也可以运行商业 API 级别的编码代理（Coding Agent）。

GLM-4.7-Flash 可以通过 vLLM 和 SGLang 推理框架在本地部署。目前，两个框架的主分支均已支持该模型。详细的部署说明可以在官方 GitHub 仓库 (zai-org/GLM-4.5) 中找到。

本视频假设由于安全或成本问题而难以使用外部 API 的环境，记录了在单张 RTX 3090 环境下通过 Ollama 运行本地模型的过程。

在当前发布的版本中，与 Ollama 对接时感觉较慢的部分是因为模型的推理（Thinking）过程没有展示给用户。

视频中 RTX 3090 的运行速度可能感觉稍慢，这是由于硬件显存带宽的限制。未来引入 RTX 5090 时预期的性能差异如下：

使用 RTX 5090 时，由于带宽增加，预计速度将提升约 2 倍以上，且增加的 VRAM 将更有利于一次性处理更长的源代码。

希望这能为正在考虑本地 AI 开发环境的各位提供实质性的参考数据。

更多文章