24 janv. 2026Luke

Guide Careti GLM-4.7-Flash pour l'exécution locale et le déploiement sur site

Démo de GLM-4.7-Flash exécuté localement avec Ollama sur une RTX 3090 et mises à jour de l'interface Thinking UI. Découvrez des cas d'utilisation sur site pour résoudre les problèmes de sécurité et de coûts.

Suite à l'intérêt récent pour le modèle GLM-4.7-Flash-Latest, nous avons reçu de nombreuses demandes concernant la prise en charge par Careti des LLM locaux et des environnements sur site (On-Premise). Nous avons préparé une vidéo montrant le fonctionnement réel.

1. Pourquoi GLM-4.7-Flash ?

GLM-4.7-Flash est un leader dans la classe des 30B, une nouvelle option de déploiement légère (30B-A3B MoE) qui équilibre performance et efficacité. Il affiche des performances écrasantes par rapport aux autres modèles, notamment dans les benchmarks de codage et de raisonnement.

BenchmarkGLM-4.7-FlashQwen3-30B-ThinkingGPT-OSS-20B
AIME 2591.685.091.7
GPQA75.273.471.5
SWE-bench (Verified)59.222.034.0
τ²-Bench79.549.047.7
BrowseComp42.82.2928.3
LCB v664.066.061.0
HLE14.49.810.9

En particulier, sur le SWE-bench Verified qui évalue les compétences pratiques en codage, il a obtenu un score de 59,2, dépassant largement les modèles concurrents. Cela suggère que des agents de codage de niveau API commercial peuvent être exécutés même dans des environnements locaux.

2. Déploiement local de GLM-4.7-Flash (Serve Locally)

GLM-4.7-Flash peut être déployé localement via les frameworks d'inférence vLLM et SGLang. Actuellement, les deux frameworks prennent en charge ce modèle dans leurs branches principales. Les instructions de déploiement détaillées sont disponibles sur le dépôt GitHub officiel (zai-org/GLM-4.5).

3. Utilisation dans les environnements locaux et sur site

Cette vidéo démontre le processus d'exécution d'un modèle local via Ollama sur une seule RTX 3090, en supposant un environnement où l'utilisation d'API externes est difficile pour des raisons de sécurité ou de coût.

  • Tâche effectuée : Un scénario commercial pratique évaluant un document de plan de développement pour un visualiseur/éditeur Markdown et dérivant les tâches suivantes.
  • Résultat du test : Il a été confirmé que l'analyse de documents et la rédaction de guides de développement se déroulent sans problème, même sans connexion cloud.

4. Mise à jour Careti : Application de la Thinking UI

Dans la version actuellement distribuée, la connexion avec Ollama semblait parfois lente car le processus de réflexion (Thinking) du modèle n'était pas affiché à l'utilisateur.

  • Patch prévu : Le Careti utilisé dans la vidéo est une version future patchée pour afficher le processus de Thinking.
  • Amélioration : L'utilisateur pouvant vérifier en temps réel le processus par lequel le modèle organise sa logique en interne, la compréhension du flux de travail est facilitée et le temps d'attente perçu est amélioré.

5. Performance attendue par matériel (RTX 3090 vs 5090)

La vitesse de fonctionnement de la RTX 3090 dans la vidéo peut sembler un peu lente, ce qui est dû aux limites de la bande passante mémoire du matériel. Les différences de performance attendues lors de l'introduction future de la RTX 5090 sont les suivantes :

CatégorieRTX 3090 (Vidéo actuelle)RTX 5090 (Prévu)
Vitesse d'inférence (TPS)Env. 80 ~ 100 TPSEnv. 180 ~ 220 TPS
Bande passante mémoire936 Go/sPlus de 1 792 Go/s
Capacité VRAM24 Go32 Go

Lors de l'utilisation de la RTX 5090, une augmentation de la vitesse de plus de 2 fois est attendue grâce à l'augmentation de la bande passante, et la VRAM accrue sera avantageuse pour traiter des codes sources plus longs en une seule fois.


Nous espérons que cela fournira des données de référence substantielles pour ceux qui envisagent un environnement de développement d'IA local.

Plus d'articles