4 февр. 2026 г.English
HumanEval Agent Mode Benchmark
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response
Careti Agent Benchmark
Отчет Hard Suite (9 моделей)
2026-02-02 ~ 2026-02-05
⚠️ Внимание: Результаты бенчмарка могут отличаться от реального опыта. Решение алгоритмических задач и разработка проектов — разные вещи.
Итоги
- • Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Code CLI, GLM-4.7 отлично справляются (97-98%)
- • Gemini 2.5 Flash лучшее соотношение цена/качество (98%, $0.05)
- • Нужны более сложные тесты (Hard++ Suite)
- • Новейшие модели не всегда лучшие (Gemini 3 Pro ≈ 2.5 Pro)
- • Корейские модели (Solar, HyperCLOVA X) требуют оптимизации
1. Обзор бенчмарка
Метод
HumanEval
Задача → Код → Оценка (1 раз)
Careti Agent
Задача → Код → Тест → [Ошибка] → Повтор (макс 5)
Параметры
100
Задач
5
Макс попыток
300s
Таймаут
Hard
Сложность
Завершение
✓ success
Тест пройден
✗ max_attempts
Неудача после 5 попыток
⏱ timeout
Превышено 300с
↺ same_error
Та же ошибка повторяется
2. Рейтинг моделей
Сортировка: Итоговый % → 1-я попытка → Стоимость (по возрастанию)
| Ранг | Модель | Итог | 1-я попытка | Ср. время | Стоимость | Общее время | same_error |
|---|---|---|---|---|---|---|---|
| 🥇 | Gemini 2.5 Flash | 98% | 92% | 17.6s | $0.05 | ~39m | 1 |
| 🥈 | Gemini 2.5 Pro | 97% | 95% | 40.5s | $0.33 | ~70m | 3 |
| 🥉 | Claude Code CLI* | 97% | 94% | 35.2s | ~$0.17 | ~60m | 3 |
| 4 | GLM-4.7 | 97% | 90% | 15.6s | $0.18 | ~40m | 2 |
| 5 | Gemini 3 Pro | 97% | 90% | 55.8s | $0.24 | ~100m | 2 |
| 6 | Gemini 3 Flash† | 91% | 82% | 22.1s | $0.03 | ~45m | 0 |
| 7 | Solar Pro2 | 83% | 61% | 18.3s | $0.79 | ~48m | 11 |
| 8 | Solar Pro3 | 75% | 70% | 45.2s | $1.35 | ~85m | 25 |
| 9 | HyperCLOVA X‡ | 0% | 0% | - | - | ~3m | 100 |
* Claude Code CLI: Использование Careti (подписка Max, в 20 раз дешевле API)
† Gemini 3 Flash: Таймаут Preview API, 9 неудач
‡ HyperCLOVA X: HCX-003(2%), HCX-007(0%) не поддерживают код
3. Визуализация
Сравнение успешности
Стоимость vs Производительность
4. Протестированные модели
Google Gemini
2.5 Flash/Pro, 3 Pro/Flash. Мультимодальный LLM Google.
Claude Code CLI
CLI на базе Anthropic Opus 4.5.
GLM-4.7
Zhipu AI (Китай). Оптимизирован для кода.
Solar Pro2/3
Upstage (Корея). Pro2 хорош в обучении.
HyperCLOVA X
Naver (Корея). Не поддерживает код.
5. Улучшения
- • Топ-5 на уровне 97-98% → Нужен Hard++ Suite
- • Повторить тест HyperCLOVA X версии для кода
- • Добавить реальные баги/рефакторинг
Скачать данные
