Назад

4 февр. 2026 г.English

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

Careti Agent Benchmark

Отчет Hard Suite (9 моделей)

2026-02-02 ~ 2026-02-05

⚠️ Внимание: Результаты бенчмарка могут отличаться от реального опыта. Решение алгоритмических задач и разработка проектов — разные вещи.

Итоги

  • Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Code CLI, GLM-4.7 отлично справляются (97-98%)
  • Gemini 2.5 Flash лучшее соотношение цена/качество (98%, $0.05)
  • Нужны более сложные тесты (Hard++ Suite)
  • Новейшие модели не всегда лучшие (Gemini 3 Pro ≈ 2.5 Pro)
  • Корейские модели (Solar, HyperCLOVA X) требуют оптимизации

1. Обзор бенчмарка

Метод

HumanEval

Задача → Код → Оценка (1 раз)

Careti Agent

Задача → Код → Тест → [Ошибка] → Повтор (макс 5)

Параметры

100

Задач

5

Макс попыток

300s

Таймаут

Hard

Сложность

Завершение

✓ success

Тест пройден

✗ max_attempts

Неудача после 5 попыток

⏱ timeout

Превышено 300с

↺ same_error

Та же ошибка повторяется

2. Рейтинг моделей

Сортировка: Итоговый % → 1-я попытка → Стоимость (по возрастанию)

РангМодельИтог1-я попыткаСр. времяСтоимостьОбщее времяsame_error
🥇Gemini 2.5 Flash98%92%17.6s$0.05~39m1
🥈Gemini 2.5 Pro97%95%40.5s$0.33~70m3
🥉Claude Code CLI*97%94%35.2s~$0.17~60m3
4GLM-4.797%90%15.6s$0.18~40m2
5Gemini 3 Pro97%90%55.8s$0.24~100m2
6Gemini 3 Flash†91%82%22.1s$0.03~45m0
7Solar Pro283%61%18.3s$0.79~48m11
8Solar Pro375%70%45.2s$1.35~85m25
9HyperCLOVA X‡0%0%--~3m100

* Claude Code CLI: Использование Careti (подписка Max, в 20 раз дешевле API)
† Gemini 3 Flash: Таймаут Preview API, 9 неудач
‡ HyperCLOVA X: HCX-003(2%), HCX-007(0%) не поддерживают код

3. Визуализация

Сравнение успешности

Стоимость vs Производительность

4. Протестированные модели

Google Gemini

2.5 Flash/Pro, 3 Pro/Flash. Мультимодальный LLM Google.

Claude Code CLI

CLI на базе Anthropic Opus 4.5.

GLM-4.7

Zhipu AI (Китай). Оптимизирован для кода.

Solar Pro2/3

Upstage (Корея). Pro2 хорош в обучении.

HyperCLOVA X

Naver (Корея). Не поддерживает код.

5. Улучшения

  • Топ-5 на уровне 97-98% → Нужен Hard++ Suite
  • Повторить тест HyperCLOVA X версии для кода
  • Добавить реальные баги/рефакторинг