4 févr. 2026English
HumanEval Agent Mode Benchmark
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response
Careti Agent Benchmark
Rapport Hard Suite (9 modèles)
2026-02-02 ~ 2026-02-05
⚠️ Attention : Les résultats du benchmark peuvent différer de l'expérience réelle. La résolution de problèmes algorithmiques et le développement de projets réels sont distincts.
Résumé
- • Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Code CLI, GLM-4.7 tous excellents (97-98%)
- • Gemini 2.5 Flash meilleur rapport qualité-prix (98%, $0.05)
- • Tests plus difficiles nécessaires (Hard++ Suite)
- • Les derniers modèles ne sont pas toujours les meilleurs (Gemini 3 Pro ≈ 2.5 Pro)
- • Modèles coréens (Solar, HyperCLOVA X) nécessitent optimisation
1. Aperçu du benchmark
Méthode
HumanEval
Problème → Code → Score (1 essai)
Careti Agent
Problème → Code → Test → [Erreur] → Réessai (max 5)
Paramètres
100
Problèmes
5
Max essais
300s
Timeout
Hard
Difficulté
Terminaison
✓ success
Test réussi
✗ max_attempts
Échec après 5 essais
⏱ timeout
Dépassé 300s
↺ same_error
Même erreur répétée
2. Classement
Tri : Taux final → Taux 1er essai → Coût (croissant)
| Rang | Modèle | Final | 1er essai | Temps moy. | Coût | Temps total | same_error |
|---|---|---|---|---|---|---|---|
| 🥇 | Gemini 2.5 Flash | 98% | 92% | 17.6s | $0.05 | ~39m | 1 |
| 🥈 | Gemini 2.5 Pro | 97% | 95% | 40.5s | $0.33 | ~70m | 3 |
| 🥉 | Claude Code CLI* | 97% | 94% | 35.2s | ~$0.17 | ~60m | 3 |
| 4 | GLM-4.7 | 97% | 90% | 15.6s | $0.18 | ~40m | 2 |
| 5 | Gemini 3 Pro | 97% | 90% | 55.8s | $0.24 | ~100m | 2 |
| 6 | Gemini 3 Flash† | 91% | 82% | 22.1s | $0.03 | ~45m | 0 |
| 7 | Solar Pro2 | 83% | 61% | 18.3s | $0.79 | ~48m | 11 |
| 8 | Solar Pro3 | 75% | 70% | 45.2s | $1.35 | ~85m | 25 |
| 9 | HyperCLOVA X‡ | 0% | 0% | - | - | ~3m | 100 |
* Claude Code CLI : Utilisation Careti (abonnement Max, 20x moins cher que l'API)
† Gemini 3 Flash : Timeout API Preview, 9 échecs
‡ HyperCLOVA X : HCX-003(2%), HCX-007(0%) ne supportent pas le coding
3. Visualisation
Comparaison des taux
Coût vs Performance
4. Modèles testés
Google Gemini
2.5 Flash/Pro, 3 Pro/Flash. LLM multimodal de Google.
Claude Code CLI
Outil CLI basé sur Anthropic Opus 4.5.
GLM-4.7
Zhipu AI (Chine). Optimisé pour le code.
Solar Pro2/3
Upstage (Corée). Pro2 excelle en apprentissage.
HyperCLOVA X
Naver (Corée). Ne supporte pas le coding.
5. Améliorations
- • Top 5 à égalité 97-98% → Hard++ Suite nécessaire
- • Retester HyperCLOVA X version coding
- • Ajouter des bugs de production réels
Télécharger les données
