4. Feb. 2026English

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

Getestete Modelle:gemini-2.5-flash solar-pro2 solar-pro3

Careti Agent Benchmark

Hard Suite Bericht (9 Modelle)

2026-02-02 ~ 2026-02-05

⚠️ Hinweis: Benchmark-Ergebnisse können von der realen Erfahrung abweichen. Algorithmus-Problemlösung und Projektentwicklung sind unterschiedlich.

Zusammenfassung

• Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Code CLI, GLM-4.7 alle exzellent (97-98%)
• Gemini 2.5 Flash bestes Preis-Leistungs-Verhältnis (98%, $0.05)
• Schwierigere Tests nötig (Hard++ Suite)
• Neueste Modelle nicht immer am besten (Gemini 3 Pro ≈ 2.5 Pro)
• Koreanische Modelle (Solar, HyperCLOVA X) brauchen Coding-Optimierung

1. Benchmark-Übersicht

Methode

HumanEval

Problem → Code → Bewertung (1x)

Careti Agent

Problem → Code → Test → [Fehler] → Retry (max 5)

Parameter

100

Probleme

Max Versuche

300s

Timeout

Hard

Schwierigkeit

Beendigung

✓ success

Test bestanden

✗ max_attempts

Nach 5 Versuchen gescheitert

⏱ timeout

Über 300s

↺ same_error

Gleicher Fehler wiederholt

2. Modell-Rangliste

Sortierung: Endrate → 1. Versuch → Kosten (aufsteigend)

Rang	Modell	Final	1. Versuch	Ø Zeit	Kosten	Gesamtzeit	same_error
🥇	Gemini 2.5 Flash	98%	92%	17.6s	$0.05	~39m	1
🥈	Gemini 2.5 Pro	97%	95%	40.5s	$0.33	~70m	3
🥉	Claude Code CLI*	97%	94%	35.2s	~$0.17	~60m	3
4	GLM-4.7	97%	90%	15.6s	$0.18	~40m	2
5	Gemini 3 Pro	97%	90%	55.8s	$0.24	~100m	2
6	Gemini 3 Flash†	91%	82%	22.1s	$0.03	~45m	0
7	Solar Pro2	83%	61%	18.3s	$0.79	~48m	11
8	Solar Pro3	75%	70%	45.2s	$1.35	~85m	25
9	HyperCLOVA X‡	0%	0%	-	-	~3m	100

* Claude Code CLI: Careti-Nutzung (Max-Abo, 20x günstiger als API)
† Gemini 3 Flash: Preview-API-Timeout, 9 Fehler
‡ HyperCLOVA X: HCX-003(2%), HCX-007(0%) unterstützen kein Coding

3. Visualisierung

Erfolgsraten-Vergleich

Kosten vs. Leistung

4. Getestete Modelle

Google Gemini

2.5 Flash/Pro, 3 Pro/Flash. Googles multimodales LLM.

Claude Code CLI

CLI-Tool basierend auf Anthropic Opus 4.5.

GLM-4.7

Zhipu AI (China). Coding-optimiert.

Solar Pro2/3

Upstage (Korea). Pro2 gut bei Feedback-Lernen.

HyperCLOVA X

Naver (Korea). Unterstützt kein Coding.

5. Verbesserungen

• Top 5 bei 97-98% gleichauf → Hard++ Suite nötig
• HyperCLOVA X Coding-Version erneut testen
• Reale Produktions-Bugs/Refactoring hinzufügen

Daten herunterladen

GitHub hard-suite.json results.json summary.json