24 янв. 2026 г.Luke
Руководство Careti GLM-4.7-Flash для локального запуска и использования On-Premise
Демонстрация локального запуска GLM-4.7-Flash с использованием Ollama на RTX 3090 и обновления Thinking UI. Узнайте о сценариях использования On-Premise для решения вопросов безопасности и затрат.
В связи с недавним интересом к модели GLM-4.7-Flash-Latest, мы получили множество запросов относительно поддержки Careti локальных LLM и сред On-Premise. Мы подготовили видео, демонстрирующее реальную работу.
1. Почему GLM-4.7-Flash?
GLM-4.7-Flash является лидером в классе 30B, новой облегченной опцией развертывания (30B-A3B MoE), которая обеспечивает баланс между производительностью и эффективностью. В частности, он демонстрирует подавляющую производительность по сравнению с другими моделями в тестах на кодирование и рассуждение.
| Benchmark | GLM-4.7-Flash | Qwen3-30B-Thinking | GPT-OSS-20B |
|---|---|---|---|
| AIME 25 | 91.6 | 85.0 | 91.7 |
| GPQA | 75.2 | 73.4 | 71.5 |
| SWE-bench (Verified) | 59.2 | 22.0 | 34.0 |
| τ²-Bench | 79.5 | 49.0 | 47.7 |
| BrowseComp | 42.8 | 2.29 | 28.3 |
| LCB v6 | 64.0 | 66.0 | 61.0 |
| HLE | 14.4 | 9.8 | 10.9 |
В частности, в SWE-bench Verified, который оценивает практические навыки кодирования, он набрал 59,2 балла, значительно опередив конкурирующие модели. Это говорит о том, что агенты кодирования уровня коммерческого API могут работать даже в локальных средах.
2. Локальное развертывание GLM-4.7-Flash (Serve Locally)
GLM-4.7-Flash может быть развернут локально с использованием фреймворков инференса vLLM и SGLang. В настоящее время оба фреймворка поддерживают эту модель в своих основных ветках (main branch). Подробные инструкции по развертыванию можно найти в официальном репозитории GitHub (zai-org/GLM-4.5).
3. Использование в локальных и On-Premise средах
Это видео демонстрирует процесс запуска локальной модели через Ollama на одной видеокарте RTX 3090, предполагая среду, где использование внешних API затруднено по соображениям безопасности или стоимости.
- Выполняемая задача: Практический бизнес-сценарий, в котором оценивается документ плана разработки для просмотрщика/редактора Markdown и определяются последующие задачи.
- Результат теста: Было подтверждено, что анализ документов и написание руководств по разработке проходят гладко даже без подключения к облаку.
4. Обновление Careti: Применение Thinking UI
В текущей распространяемой версии соединение с Ollama иногда казалось медленным, так как процесс мышления (Thinking) модели не отображался для пользователя.
- Запланированный патч: Careti, используемый в видео, представляет собой будущую версию, исправленную для отображения процесса Thinking.
- Улучшение: Поскольку пользователь может проверять в реальном времени процесс, с помощью которого модель внутренне организует свою логику, понимание рабочего процесса облегчается, а воспринимаемое время ожидания улучшается.
5. Ожидаемая производительность по оборудованию (RTX 3090 vs 5090)
Скорость работы на RTX 3090 в видео может показаться немного медленной, что связано с ограничениями пропускной способности памяти оборудования. Ожидаемые различия в производительности при будущем внедрении RTX 5090 следующие:
| Категория | RTX 3090 (текущее видео) | RTX 5090 (ожидается) |
|---|---|---|
| Скорость инференса (TPS) | Ок. 80 ~ 100 TPS | Ок. 180 ~ 220 TPS |
| Пропускная способность памяти | 936 ГБ/с | Более 1,792 ГБ/с |
| Объем VRAM | 24 ГБ | 32 ГБ |
При использовании RTX 5090 ожидается более чем двукратное увеличение скорости благодаря увеличенной пропускной способности, а увеличенный объем VRAM будет преимуществом при обработке более длинных исходных кодов за один раз.
Мы надеемся, что это послужит существенными справочными данными для тех, кто рассматривает возможность создания локальной среды разработки ИИ.
Другие статьи

Careti v0.4.7 добавляет модель Z.AI GLM-4.7, систему команд, совместимую с Claude Code, улучшения SmartEditEngine и улучшения интерфейса.

Узнайте, как генерировать изображения карт Таро с помощью модели Upstage Solar2 и функции чтения документов HWP в K-Cursor Careti. Откройте для себя уникальные возможности обработки документов и рабочий процесс генерации изображений Careti как решения суверенного ИИ.
