返回列表
2026年2月4日English
HumanEval Agent Mode Benchmark
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response
Careti Agent Benchmark
Hard Suite 综合报告(9个模型)
2026-02-02 ~ 2026-02-05
⚠️ 注意:基准测试结果可能与实际使用体验不同。算法问题解决能力与实际项目开发能力是两回事。
结果概要
- • Gemini 2.5 Flash、Gemini 2.5 Pro、Claude Code CLI、GLM-4.7 均表现优秀(97-98%)
- • Gemini 2.5 Flash 性价比最高(98%通过,$0.05)
- • 需要更难的测试来区分顶级模型(Hard++ Suite)
- • 最新模型并非总是最好(Gemini 3 Pro ≈ 2.5 Pro)
- • 韩国模型(Solar、HyperCLOVA X)需要优化编程性能
1. 基准测试概述
测试方式
HumanEval
问题 → 代码 → 评分(1次)
Careti Agent
问题 → 代码 → 测试 → [错误] → 重试(最多5次)
参数
100
问题数
5
最大尝试
300s
超时
Hard
难度
终止条件
✓ success
测试通过
✗ max_attempts
5次尝试后失败
⏱ timeout
超过300秒
↺ same_error
相同错误重复
2. 模型排名
排序依据:最终通过率 → 首次成功率 → 成本(从低到高)
| 排名 | 模型 | 最终 | 首次通过 | 平均时间 | 成本 | 总时间 | same_error |
|---|---|---|---|---|---|---|---|
| 🥇 | Gemini 2.5 Flash | 98% | 92% | 17.6s | $0.05 | ~39m | 1 |
| 🥈 | Gemini 2.5 Pro | 97% | 95% | 40.5s | $0.33 | ~70m | 3 |
| 🥉 | Claude Code CLI* | 97% | 94% | 35.2s | ~$0.17 | ~60m | 3 |
| 4 | GLM-4.7 | 97% | 90% | 15.6s | $0.18 | ~40m | 2 |
| 5 | Gemini 3 Pro | 97% | 90% | 55.8s | $0.24 | ~100m | 2 |
| 6 | Gemini 3 Flash† | 91% | 82% | 22.1s | $0.03 | ~45m | 0 |
| 7 | Solar Pro2 | 83% | 61% | 18.3s | $0.79 | ~48m | 11 |
| 8 | Solar Pro3 | 75% | 70% | 45.2s | $1.35 | ~85m | 25 |
| 9 | HyperCLOVA X‡ | 0% | 0% | - | - | ~3m | 100 |
* Claude Code CLI: 基于Careti实际使用(Max订阅,比API便宜20倍)
† Gemini 3 Flash: Preview API超时导致9个问题失败
‡ HyperCLOVA X: HCX-003(2%)、HCX-007(0%)均不支持编程。需重新测试
3. 可视化
通过率对比
成本与性能
4. 测试模型
Google Gemini
2.5 Flash/Pro、3 Pro/Flash。Google多模态LLM。
Claude Code CLI
基于Anthropic Opus 4.5的CLI工具。
GLM-4.7
智谱AI(中国)。编程优化。
Solar Pro2/3
Upstage(韩国)。Pro2擅长反馈学习。
HyperCLOVA X
Naver(韩国)。不支持编程任务。
5. 测试改进
- • 前5名模型均为97-98% → 需要Hard++ Suite
- • HyperCLOVA X发布编程版本时重新对比
- • 考虑添加实际生产环境bug/重构问题
