4 февр. 2026 г.
HumanEval Agent Mode Benchmark
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response
Протестированные модели:gemini-2.5-flashsolar-pro2solar-pro3
Результаты бенчмарков для улучшения Careti.
Надеемся помочь разработчикам выбрать модель и предоставить базовые данные исследователям ИИ.
Фильтры
Протестированные модели
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response