4 févr. 2026
HumanEval Agent Mode Benchmark
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response
Modèles testés:gemini-2.5-flashsolar-pro2solar-pro3
Partage des résultats de benchmarks réalisés pour améliorer Careti.
Nous espérons aider les développeurs à choisir le bon modèle et fournir des données de base aux chercheurs en IA.
Filtres
EffacerModèles testés
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response