Retour

4 févr. 2026English

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

Careti Agent Benchmark

Rapport Hard Suite (9 modèles)

2026-02-02 ~ 2026-02-05

⚠️ Attention : Les résultats du benchmark peuvent différer de l'expérience réelle. La résolution de problèmes algorithmiques et le développement de projets réels sont distincts.

Résumé

  • Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Code CLI, GLM-4.7 tous excellents (97-98%)
  • Gemini 2.5 Flash meilleur rapport qualité-prix (98%, $0.05)
  • Tests plus difficiles nécessaires (Hard++ Suite)
  • Les derniers modèles ne sont pas toujours les meilleurs (Gemini 3 Pro ≈ 2.5 Pro)
  • Modèles coréens (Solar, HyperCLOVA X) nécessitent optimisation

1. Aperçu du benchmark

Méthode

HumanEval

Problème → Code → Score (1 essai)

Careti Agent

Problème → Code → Test → [Erreur] → Réessai (max 5)

Paramètres

100

Problèmes

5

Max essais

300s

Timeout

Hard

Difficulté

Terminaison

✓ success

Test réussi

✗ max_attempts

Échec après 5 essais

⏱ timeout

Dépassé 300s

↺ same_error

Même erreur répétée

2. Classement

Tri : Taux final → Taux 1er essai → Coût (croissant)

RangModèleFinal1er essaiTemps moy.CoûtTemps totalsame_error
🥇Gemini 2.5 Flash98%92%17.6s$0.05~39m1
🥈Gemini 2.5 Pro97%95%40.5s$0.33~70m3
🥉Claude Code CLI*97%94%35.2s~$0.17~60m3
4GLM-4.797%90%15.6s$0.18~40m2
5Gemini 3 Pro97%90%55.8s$0.24~100m2
6Gemini 3 Flash†91%82%22.1s$0.03~45m0
7Solar Pro283%61%18.3s$0.79~48m11
8Solar Pro375%70%45.2s$1.35~85m25
9HyperCLOVA X‡0%0%--~3m100

* Claude Code CLI : Utilisation Careti (abonnement Max, 20x moins cher que l'API)
† Gemini 3 Flash : Timeout API Preview, 9 échecs
‡ HyperCLOVA X : HCX-003(2%), HCX-007(0%) ne supportent pas le coding

3. Visualisation

Comparaison des taux

Coût vs Performance

4. Modèles testés

Google Gemini

2.5 Flash/Pro, 3 Pro/Flash. LLM multimodal de Google.

Claude Code CLI

Outil CLI basé sur Anthropic Opus 4.5.

GLM-4.7

Zhipu AI (Chine). Optimisé pour le code.

Solar Pro2/3

Upstage (Corée). Pro2 excelle en apprentissage.

HyperCLOVA X

Naver (Corée). Ne supporte pas le coding.

5. Améliorations

  • Top 5 à égalité 97-98% → Hard++ Suite nécessaire
  • Retester HyperCLOVA X version coding
  • Ajouter des bugs de production réels