4. Feb. 2026
HumanEval Agent Mode Benchmark
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response
Getestete Modelle:gemini-2.5-flashsolar-pro2solar-pro3
Teilen von Benchmark-Ergebnissen zur Verbesserung von Careti.
Wir hoffen, Entwicklern bei der Modellauswahl zu helfen und KI-Forschern Grundlagendaten bereitzustellen.
Filter
Getestete Modelle
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response