返回列表

2026年2月4日English

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

Careti Agent Benchmark

Hard Suite 综合报告(9个模型)

2026-02-02 ~ 2026-02-05

⚠️ 注意:基准测试结果可能与实际使用体验不同。算法问题解决能力与实际项目开发能力是两回事。

结果概要

  • Gemini 2.5 Flash、Gemini 2.5 Pro、Claude Code CLI、GLM-4.7 均表现优秀(97-98%)
  • Gemini 2.5 Flash 性价比最高(98%通过,$0.05)
  • 需要更难的测试来区分顶级模型(Hard++ Suite)
  • 最新模型并非总是最好(Gemini 3 Pro ≈ 2.5 Pro)
  • 韩国模型(Solar、HyperCLOVA X)需要优化编程性能

1. 基准测试概述

测试方式

HumanEval

问题 → 代码 → 评分(1次)

Careti Agent

问题 → 代码 → 测试 → [错误] → 重试(最多5次)

参数

100

问题数

5

最大尝试

300s

超时

Hard

难度

终止条件

✓ success

测试通过

✗ max_attempts

5次尝试后失败

⏱ timeout

超过300秒

↺ same_error

相同错误重复

2. 模型排名

排序依据:最终通过率 → 首次成功率 → 成本(从低到高)

排名模型最终首次通过平均时间成本总时间same_error
🥇Gemini 2.5 Flash98%92%17.6s$0.05~39m1
🥈Gemini 2.5 Pro97%95%40.5s$0.33~70m3
🥉Claude Code CLI*97%94%35.2s~$0.17~60m3
4GLM-4.797%90%15.6s$0.18~40m2
5Gemini 3 Pro97%90%55.8s$0.24~100m2
6Gemini 3 Flash†91%82%22.1s$0.03~45m0
7Solar Pro283%61%18.3s$0.79~48m11
8Solar Pro375%70%45.2s$1.35~85m25
9HyperCLOVA X‡0%0%--~3m100

* Claude Code CLI: 基于Careti实际使用(Max订阅,比API便宜20倍)
† Gemini 3 Flash: Preview API超时导致9个问题失败
‡ HyperCLOVA X: HCX-003(2%)、HCX-007(0%)均不支持编程。需重新测试

3. 可视化

通过率对比

成本与性能

4. 测试模型

Google Gemini

2.5 Flash/Pro、3 Pro/Flash。Google多模态LLM。

Claude Code CLI

基于Anthropic Opus 4.5的CLI工具。

GLM-4.7

智谱AI(中国)。编程优化。

Solar Pro2/3

Upstage(韩国)。Pro2擅长反馈学习。

HyperCLOVA X

Naver(韩国)。不支持编程任务。

5. 测试改进

  • 前5名模型均为97-98% → 需要Hard++ Suite
  • HyperCLOVA X发布编程版本时重新对比
  • 考虑添加实际生产环境bug/重构问题