4 févr. 2026English

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

Modèles testés:gemini-2.5-flash solar-pro2 solar-pro3

Careti Agent Benchmark

Rapport Hard Suite (9 modèles)

2026-02-02 ~ 2026-02-05

⚠️ Attention : Les résultats du benchmark peuvent différer de l'expérience réelle. La résolution de problèmes algorithmiques et le développement de projets réels sont distincts.

Résumé

• Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Code CLI, GLM-4.7 tous excellents (97-98%)
• Gemini 2.5 Flash meilleur rapport qualité-prix (98%, $0.05)
• Tests plus difficiles nécessaires (Hard++ Suite)
• Les derniers modèles ne sont pas toujours les meilleurs (Gemini 3 Pro ≈ 2.5 Pro)
• Modèles coréens (Solar, HyperCLOVA X) nécessitent optimisation

1. Aperçu du benchmark

Méthode

HumanEval

Problème → Code → Score (1 essai)

Careti Agent

Problème → Code → Test → [Erreur] → Réessai (max 5)

Paramètres

100

Problèmes

Max essais

300s

Timeout

Hard

Difficulté

Terminaison

✓ success

Test réussi

✗ max_attempts

Échec après 5 essais

⏱ timeout

Dépassé 300s

↺ same_error

Même erreur répétée

2. Classement

Tri : Taux final → Taux 1er essai → Coût (croissant)

Rang	Modèle	Final	1er essai	Temps moy.	Coût	Temps total	same_error
🥇	Gemini 2.5 Flash	98%	92%	17.6s	$0.05	~39m	1
🥈	Gemini 2.5 Pro	97%	95%	40.5s	$0.33	~70m	3
🥉	Claude Code CLI*	97%	94%	35.2s	~$0.17	~60m	3
4	GLM-4.7	97%	90%	15.6s	$0.18	~40m	2
5	Gemini 3 Pro	97%	90%	55.8s	$0.24	~100m	2
6	Gemini 3 Flash†	91%	82%	22.1s	$0.03	~45m	0
7	Solar Pro2	83%	61%	18.3s	$0.79	~48m	11
8	Solar Pro3	75%	70%	45.2s	$1.35	~85m	25
9	HyperCLOVA X‡	0%	0%	-	-	~3m	100

* Claude Code CLI : Utilisation Careti (abonnement Max, 20x moins cher que l'API)
† Gemini 3 Flash : Timeout API Preview, 9 échecs
‡ HyperCLOVA X : HCX-003(2%), HCX-007(0%) ne supportent pas le coding

3. Visualisation

Comparaison des taux

Coût vs Performance

4. Modèles testés

Google Gemini

2.5 Flash/Pro, 3 Pro/Flash. LLM multimodal de Google.

Claude Code CLI

Outil CLI basé sur Anthropic Opus 4.5.

GLM-4.7

Zhipu AI (Chine). Optimisé pour le code.

Solar Pro2/3

Upstage (Corée). Pro2 excelle en apprentissage.

HyperCLOVA X

Naver (Corée). Ne supporte pas le coding.

5. Améliorations

• Top 5 à égalité 97-98% → Hard++ Suite nécessaire
• Retester HyperCLOVA X version coding
• Ajouter des bugs de production réels

Télécharger les données

GitHub hard-suite.json results.json summary.json