Zurück

4. Feb. 2026English

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

Careti Agent Benchmark

Hard Suite Bericht (9 Modelle)

2026-02-02 ~ 2026-02-05

⚠️ Hinweis: Benchmark-Ergebnisse können von der realen Erfahrung abweichen. Algorithmus-Problemlösung und Projektentwicklung sind unterschiedlich.

Zusammenfassung

  • Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Code CLI, GLM-4.7 alle exzellent (97-98%)
  • Gemini 2.5 Flash bestes Preis-Leistungs-Verhältnis (98%, $0.05)
  • Schwierigere Tests nötig (Hard++ Suite)
  • Neueste Modelle nicht immer am besten (Gemini 3 Pro ≈ 2.5 Pro)
  • Koreanische Modelle (Solar, HyperCLOVA X) brauchen Coding-Optimierung

1. Benchmark-Übersicht

Methode

HumanEval

Problem → Code → Bewertung (1x)

Careti Agent

Problem → Code → Test → [Fehler] → Retry (max 5)

Parameter

100

Probleme

5

Max Versuche

300s

Timeout

Hard

Schwierigkeit

Beendigung

✓ success

Test bestanden

✗ max_attempts

Nach 5 Versuchen gescheitert

⏱ timeout

Über 300s

↺ same_error

Gleicher Fehler wiederholt

2. Modell-Rangliste

Sortierung: Endrate → 1. Versuch → Kosten (aufsteigend)

RangModellFinal1. VersuchØ ZeitKostenGesamtzeitsame_error
🥇Gemini 2.5 Flash98%92%17.6s$0.05~39m1
🥈Gemini 2.5 Pro97%95%40.5s$0.33~70m3
🥉Claude Code CLI*97%94%35.2s~$0.17~60m3
4GLM-4.797%90%15.6s$0.18~40m2
5Gemini 3 Pro97%90%55.8s$0.24~100m2
6Gemini 3 Flash†91%82%22.1s$0.03~45m0
7Solar Pro283%61%18.3s$0.79~48m11
8Solar Pro375%70%45.2s$1.35~85m25
9HyperCLOVA X‡0%0%--~3m100

* Claude Code CLI: Careti-Nutzung (Max-Abo, 20x günstiger als API)
† Gemini 3 Flash: Preview-API-Timeout, 9 Fehler
‡ HyperCLOVA X: HCX-003(2%), HCX-007(0%) unterstützen kein Coding

3. Visualisierung

Erfolgsraten-Vergleich

Kosten vs. Leistung

4. Getestete Modelle

Google Gemini

2.5 Flash/Pro, 3 Pro/Flash. Googles multimodales LLM.

Claude Code CLI

CLI-Tool basierend auf Anthropic Opus 4.5.

GLM-4.7

Zhipu AI (China). Coding-optimiert.

Solar Pro2/3

Upstage (Korea). Pro2 gut bei Feedback-Lernen.

HyperCLOVA X

Naver (Korea). Unterstützt kein Coding.

5. Verbesserungen

  • Top 5 bei 97-98% gleichauf → Hard++ Suite nötig
  • HyperCLOVA X Coding-Version erneut testen
  • Reale Produktions-Bugs/Refactoring hinzufügen