2026年2月4日English

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

テストモデル:gemini-2.5-flash solar-pro2 solar-pro3

#humaneval #agent-mode

Careti Agent Benchmark

Hard Suite総合レポート（9モデル）

2026-02-02 ~ 2026-02-05

⚠️ 注意：ベンチマーク結果は実使用体験と異なる場合があります。アルゴリズム問題解決能力と実際のプロジェクト開発能力は別物です。

結果概要

• Gemini 2.5 Flash、Gemini 2.5 Pro、Claude Code CLI、GLM-4.7はすべてコーディングに優秀（97-98%）
• Gemini 2.5 Flashが最高コスパ（98%通過、$0.05）
• 上位モデル間の差別化のためテスト強化が必要（Hard++ Suite）
• 最新モデルが常に最高ではない（Gemini 3 Pro ≈ 2.5 Pro）
• 韓国モデル（Solar、HyperCLOVA X）はコーディング性能の最適化が必要

1. ベンチマーク概要

測定方式

HumanEval

問題 → コード → 採点（1回）

Careti Agent

問題 → コード → テスト → [エラー] → 再試行（最大5回）

パラメータ

100

問題数

最大試行

300s

タイムアウト

Hard

難易度

終了条件

✓ success

テスト通過

✗ max_attempts

5回試行後失敗

⏱ timeout

300秒超過

↺ same_error

同一エラー反復

2. モデル順位

ソート基準：最終通過率 → 1回成功率 → コスト（安い順）

順位	モデル	最終	1回成功	平均時間	コスト	総時間	same_error
🥇	Gemini 2.5 Flash	98%	92%	17.6s	$0.05	~39m	1
🥈	Gemini 2.5 Pro	97%	95%	40.5s	$0.33	~70m	3
🥉	Claude Code CLI*	97%	94%	35.2s	~$0.17	~60m	3
4	GLM-4.7	97%	90%	15.6s	$0.18	~40m	2
5	Gemini 3 Pro	97%	90%	55.8s	$0.24	~100m	2
6	Gemini 3 Flash†	91%	82%	22.1s	$0.03	~45m	0
7	Solar Pro2	83%	61%	18.3s	$0.79	~48m	11
8	Solar Pro3	75%	70%	45.2s	$1.35	~85m	25
9	HyperCLOVA X‡	0%	0%	-	-	~3m	100

* Claude Code CLI: Careti実使用基準（Max購読、APIより20倍安い）
† Gemini 3 Flash: Preview APIタイムアウトで9問題失敗
‡ HyperCLOVA X: HCX-003(2%)、HCX-007(0%)共にコーディング未対応。再テスト必要

3. 可視化

通過率比較

コスト対性能

4. テストモデル

Google Gemini

2.5 Flash/Pro、3 Pro/Flash。Googleのマルチモーダル LLM。

Claude Code CLI

Anthropic Opus 4.5ベースのCLIツール。

GLM-4.7

Zhipu AI（中国）。コーディング特化。

Solar Pro2/3

Upstage（韓国）。Pro2がフィードバック学習に優れる。

HyperCLOVA X

Naver（韓国）。コーディングタスク未対応。

5. テスト改善事項

• 上位5モデルが97-98%で同率 → Hard++ Suite追加必要
• HyperCLOVA Xコーディング特化バージョン発売時に再比較
• 実際のProductionバグ/リファクタリング問題追加を検討

データダウンロード

GitHub hard-suite.json results.json summary.json