4 февр. 2026 г.English

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

Модели:gemini-2.5-flash solar-pro2 solar-pro3

Careti Agent Benchmark

Отчет Hard Suite (9 моделей)

2026-02-02 ~ 2026-02-05

⚠️ Внимание: Результаты бенчмарка могут отличаться от реального опыта. Решение алгоритмических задач и разработка проектов — разные вещи.

Итоги

• Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Code CLI, GLM-4.7 отлично справляются (97-98%)
• Gemini 2.5 Flash лучшее соотношение цена/качество (98%, $0.05)
• Нужны более сложные тесты (Hard++ Suite)
• Новейшие модели не всегда лучшие (Gemini 3 Pro ≈ 2.5 Pro)
• Корейские модели (Solar, HyperCLOVA X) требуют оптимизации

1. Обзор бенчмарка

Метод

HumanEval

Задача → Код → Оценка (1 раз)

Careti Agent

Задача → Код → Тест → [Ошибка] → Повтор (макс 5)

Параметры

100

Задач

Макс попыток

300s

Таймаут

Hard

Сложность

Завершение

✓ success

Тест пройден

✗ max_attempts

Неудача после 5 попыток

⏱ timeout

Превышено 300с

↺ same_error

Та же ошибка повторяется

2. Рейтинг моделей

Сортировка: Итоговый % → 1-я попытка → Стоимость (по возрастанию)

Ранг	Модель	Итог	1-я попытка	Ср. время	Стоимость	Общее время	same_error
🥇	Gemini 2.5 Flash	98%	92%	17.6s	$0.05	~39m	1
🥈	Gemini 2.5 Pro	97%	95%	40.5s	$0.33	~70m	3
🥉	Claude Code CLI*	97%	94%	35.2s	~$0.17	~60m	3
4	GLM-4.7	97%	90%	15.6s	$0.18	~40m	2
5	Gemini 3 Pro	97%	90%	55.8s	$0.24	~100m	2
6	Gemini 3 Flash†	91%	82%	22.1s	$0.03	~45m	0
7	Solar Pro2	83%	61%	18.3s	$0.79	~48m	11
8	Solar Pro3	75%	70%	45.2s	$1.35	~85m	25
9	HyperCLOVA X‡	0%	0%	-	-	~3m	100

* Claude Code CLI: Использование Careti (подписка Max, в 20 раз дешевле API)
† Gemini 3 Flash: Таймаут Preview API, 9 неудач
‡ HyperCLOVA X: HCX-003(2%), HCX-007(0%) не поддерживают код

3. Визуализация

Сравнение успешности

Стоимость vs Производительность

4. Протестированные модели

Google Gemini

2.5 Flash/Pro, 3 Pro/Flash. Мультимодальный LLM Google.

Claude Code CLI

CLI на базе Anthropic Opus 4.5.

GLM-4.7

Zhipu AI (Китай). Оптимизирован для кода.

Solar Pro2/3

Upstage (Корея). Pro2 хорош в обучении.

HyperCLOVA X

Naver (Корея). Не поддерживает код.

5. Улучшения

• Топ-5 на уровне 97-98% → Нужен Hard++ Suite
• Повторить тест HyperCLOVA X версии для кода
• Добавить реальные баги/рефакторинг

Скачать данные

GitHub hard-suite.json results.json summary.json