Бенчмарки

Результаты бенчмарков для улучшения Careti.

Надеемся помочь разработчикам выбрать модель и предоставить базовые данные исследователям ИИ.

Как использовать сырые данные →

Фильтры

Протестированные модели

gemini-2.5-flash solar-pro2 solar-pro3

Теги

#agent-mode #humaneval

4 февр. 2026 г.

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

Протестированные модели:gemini-2.5-flashsolar-pro2solar-pro3

#humaneval #agent-mode

Подробнее