Careti GLM-4.7-Flash Guide für lokale Ausführung und On-Premise-Nutzung

Angesichts des jüngsten Interesses am GLM-4.7-Flash-Latest-Modell haben wir viele Anfragen bezüglich der Unterstützung von Careti für lokale LLMs und On-Premise-Umgebungen erhalten. Wir haben ein Video vorbereitet, das den tatsächlichen Betrieb zeigt.

1. Warum GLM-4.7-Flash?

GLM-4.7-Flash ist führend in der 30B-Klasse und eine neue, leichte Bereitstellungsoption (30B-A3B MoE), die ein Gleichgewicht zwischen Leistung und Effizienz herstellt. Insbesondere bei Coding- und Reasoning-Benchmarks zeigt es eine überragende Leistung im Vergleich zu anderen Modellen.

Benchmark	GLM-4.7-Flash	Qwen3-30B-Thinking	GPT-OSS-20B
AIME 25	91.6	85.0	91.7
GPQA	75.2	73.4	71.5
SWE-bench (Verified)	59.2	22.0	34.0
τ²-Bench	79.5	49.0	47.7
BrowseComp	42.8	2.29	28.3
LCB v6	64.0	66.0	61.0
HLE	14.4	9.8	10.9

Insbesondere im SWE-bench Verified, der praktische Programmierfähigkeiten bewertet, erzielte es 59,2 Punkte und ließ damit Konkurrenzmodelle weit hinter sich. Dies deutet darauf hin, dass Coding-Agenten auf kommerziellem API-Niveau auch in lokalen Umgebungen ausgeführt werden können.

2. Lokale Bereitstellung von GLM-4.7-Flash (Serve Locally)

GLM-4.7-Flash kann lokal über die Inferenz-Frameworks vLLM und SGLang bereitgestellt werden. Beide Frameworks unterstützen das Modell derzeit in ihren Main-Branches. Detaillierte Bereitstellungsanweisungen finden Sie im offiziellen GitHub-Repository (zai-org/GLM-4.5).

3. Nutzung in lokalen und On-Premise-Umgebungen

Dieses Video demonstriert den Prozess der Ausführung eines lokalen Modells über Ollama auf einer einzelnen RTX 3090, gedacht für Umgebungen, in denen die Nutzung externer APIs aus Sicherheits- oder Kostengründen schwierig ist.

Durchgeführte Aufgabe: Ein praktisches Geschäftsszenario, bei dem ein Entwicklungsplandokument für einen Markdown-Viewer/-Editor bewertet und Folgeaufgaben abgeleitet werden.
Testergebnis: Es wurde bestätigt, dass Dokumentenanalyse und die Erstellung von Entwicklungsleitfäden auch ohne Cloud-Verbindung reibungslos funktionieren.

4. Careti-Update: Einführung der Thinking UI

In der aktuell verteilten Version fühlte sich die Verbindung mit Ollama teilweise langsam an, da der Denkprozess (Thinking) des Modells für den Benutzer nicht sichtbar war.

Geplanter Patch: Das im Video verwendete Careti ist eine zukünftige Version, die so gepatcht wurde, dass der Thinking-Prozess angezeigt wird.
Verbesserung: Da der Prozess, in dem das Modell intern seine Logik ordnet, in Echtzeit überprüft werden kann, wird das Verständnis des Arbeitsablaufs erleichtert und die gefühlte Wartezeit verbessert.

5. Erwartete Leistung nach Hardware (RTX 3090 vs 5090)

Die Betriebsgeschwindigkeit der RTX 3090 im Video mag etwas langsam erscheinen, was auf die Grenzen der Speicherbandbreite der Hardware zurückzuführen ist. Die erwarteten Leistungsunterschiede bei einer zukünftigen Einführung der RTX 5090 sind wie folgt:

Kategorie	RTX 3090 (aktuelles Video)	RTX 5090 (erwartet)
Inferenzgeschwindigkeit (TPS)	ca. 80 ~ 100 TPS	ca. 180 ~ 220 TPS
Speicherbandbreite	936 GB/s	über 1.792 GB/s
VRAM-Kapazität	24 GB	32 GB

Bei Verwendung der RTX 5090 wird aufgrund der erhöhten Bandbreite eine mehr als doppelte Geschwindigkeitssteigerung erwartet, und der vergrößerte VRAM wird vorteilhaft für die Verarbeitung längerer Quellcodes in einem Durchgang sein.

Wir hoffen, dass dies nützliche Daten für alle sind, die eine lokale AI-Entwicklungsumgebung in Betracht ziehen.