2026年2月4日English

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

测试模型:gemini-2.5-flash solar-pro2 solar-pro3

#humaneval #agent-mode

Careti Agent Benchmark

Hard Suite 综合报告（9个模型）

2026-02-02 ~ 2026-02-05

⚠️ 注意：基准测试结果可能与实际使用体验不同。算法问题解决能力与实际项目开发能力是两回事。

结果概要

• Gemini 2.5 Flash、Gemini 2.5 Pro、Claude Code CLI、GLM-4.7 均表现优秀（97-98%）
• Gemini 2.5 Flash 性价比最高（98%通过，$0.05）
• 需要更难的测试来区分顶级模型（Hard++ Suite）
• 最新模型并非总是最好（Gemini 3 Pro ≈ 2.5 Pro）
• 韩国模型（Solar、HyperCLOVA X）需要优化编程性能

1. 基准测试概述

测试方式

HumanEval

问题 → 代码 → 评分（1次）

Careti Agent

问题 → 代码 → 测试 → [错误] → 重试（最多5次）

参数

100

问题数

最大尝试

300s

超时

Hard

难度

终止条件

✓ success

测试通过

✗ max_attempts

5次尝试后失败

⏱ timeout

超过300秒

↺ same_error

相同错误重复

2. 模型排名

排序依据：最终通过率 → 首次成功率 → 成本（从低到高）

排名	模型	最终	首次通过	平均时间	成本	总时间	same_error
🥇	Gemini 2.5 Flash	98%	92%	17.6s	$0.05	~39m	1
🥈	Gemini 2.5 Pro	97%	95%	40.5s	$0.33	~70m	3
🥉	Claude Code CLI*	97%	94%	35.2s	~$0.17	~60m	3
4	GLM-4.7	97%	90%	15.6s	$0.18	~40m	2
5	Gemini 3 Pro	97%	90%	55.8s	$0.24	~100m	2
6	Gemini 3 Flash†	91%	82%	22.1s	$0.03	~45m	0
7	Solar Pro2	83%	61%	18.3s	$0.79	~48m	11
8	Solar Pro3	75%	70%	45.2s	$1.35	~85m	25
9	HyperCLOVA X‡	0%	0%	-	-	~3m	100

* Claude Code CLI: 基于Careti实际使用（Max订阅，比API便宜20倍）
† Gemini 3 Flash: Preview API超时导致9个问题失败
‡ HyperCLOVA X: HCX-003(2%)、HCX-007(0%)均不支持编程。需重新测试

3. 可视化

通过率对比

成本与性能

4. 测试模型

Google Gemini

2.5 Flash/Pro、3 Pro/Flash。Google多模态LLM。

Claude Code CLI

基于Anthropic Opus 4.5的CLI工具。

GLM-4.7

智谱AI（中国）。编程优化。

Solar Pro2/3

Upstage（韩国）。Pro2擅长反馈学习。

HyperCLOVA X

Naver（韩国）。不支持编程任务。

5. 测试改进

• 前5名模型均为97-98% → 需要Hard++ Suite
• HyperCLOVA X发布编程版本时重新对比
• 考虑添加实际生产环境bug/重构问题

下载原始数据

GitHub hard-suite.json results.json summary.json