4. Feb. 2026English
HumanEval Agent Mode Benchmark
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response
Careti Agent Benchmark
Hard Suite Bericht (9 Modelle)
2026-02-02 ~ 2026-02-05
⚠️ Hinweis: Benchmark-Ergebnisse können von der realen Erfahrung abweichen. Algorithmus-Problemlösung und Projektentwicklung sind unterschiedlich.
Zusammenfassung
- • Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Code CLI, GLM-4.7 alle exzellent (97-98%)
- • Gemini 2.5 Flash bestes Preis-Leistungs-Verhältnis (98%, $0.05)
- • Schwierigere Tests nötig (Hard++ Suite)
- • Neueste Modelle nicht immer am besten (Gemini 3 Pro ≈ 2.5 Pro)
- • Koreanische Modelle (Solar, HyperCLOVA X) brauchen Coding-Optimierung
1. Benchmark-Übersicht
Methode
HumanEval
Problem → Code → Bewertung (1x)
Careti Agent
Problem → Code → Test → [Fehler] → Retry (max 5)
Parameter
100
Probleme
5
Max Versuche
300s
Timeout
Hard
Schwierigkeit
Beendigung
✓ success
Test bestanden
✗ max_attempts
Nach 5 Versuchen gescheitert
⏱ timeout
Über 300s
↺ same_error
Gleicher Fehler wiederholt
2. Modell-Rangliste
Sortierung: Endrate → 1. Versuch → Kosten (aufsteigend)
| Rang | Modell | Final | 1. Versuch | Ø Zeit | Kosten | Gesamtzeit | same_error |
|---|---|---|---|---|---|---|---|
| 🥇 | Gemini 2.5 Flash | 98% | 92% | 17.6s | $0.05 | ~39m | 1 |
| 🥈 | Gemini 2.5 Pro | 97% | 95% | 40.5s | $0.33 | ~70m | 3 |
| 🥉 | Claude Code CLI* | 97% | 94% | 35.2s | ~$0.17 | ~60m | 3 |
| 4 | GLM-4.7 | 97% | 90% | 15.6s | $0.18 | ~40m | 2 |
| 5 | Gemini 3 Pro | 97% | 90% | 55.8s | $0.24 | ~100m | 2 |
| 6 | Gemini 3 Flash† | 91% | 82% | 22.1s | $0.03 | ~45m | 0 |
| 7 | Solar Pro2 | 83% | 61% | 18.3s | $0.79 | ~48m | 11 |
| 8 | Solar Pro3 | 75% | 70% | 45.2s | $1.35 | ~85m | 25 |
| 9 | HyperCLOVA X‡ | 0% | 0% | - | - | ~3m | 100 |
* Claude Code CLI: Careti-Nutzung (Max-Abo, 20x günstiger als API)
† Gemini 3 Flash: Preview-API-Timeout, 9 Fehler
‡ HyperCLOVA X: HCX-003(2%), HCX-007(0%) unterstützen kein Coding
3. Visualisierung
Erfolgsraten-Vergleich
Kosten vs. Leistung
4. Getestete Modelle
Google Gemini
2.5 Flash/Pro, 3 Pro/Flash. Googles multimodales LLM.
Claude Code CLI
CLI-Tool basierend auf Anthropic Opus 4.5.
GLM-4.7
Zhipu AI (China). Coding-optimiert.
Solar Pro2/3
Upstage (Korea). Pro2 gut bei Feedback-Lernen.
HyperCLOVA X
Naver (Korea). Unterstützt kein Coding.
5. Verbesserungen
- • Top 5 bei 97-98% gleichauf → Hard++ Suite nötig
- • HyperCLOVA X Coding-Version erneut testen
- • Reale Produktions-Bugs/Refactoring hinzufügen
Daten herunterladen
