Benchmarks

Partage des résultats de benchmarks réalisés pour améliorer Careti.

Nous espérons aider les développeurs à choisir le bon modèle et fournir des données de base aux chercheurs en IA.

Filtres

Modèles testés

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

Modèles testés:gemini-2.5-flashsolar-pro2solar-pro3