一覧へ

2026年2月4日English

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

Careti Agent Benchmark

Hard Suite総合レポート(9モデル)

2026-02-02 ~ 2026-02-05

⚠️ 注意:ベンチマーク結果は実使用体験と異なる場合があります。アルゴリズム問題解決能力と実際のプロジェクト開発能力は別物です。

結果概要

  • Gemini 2.5 Flash、Gemini 2.5 Pro、Claude Code CLI、GLM-4.7はすべてコーディングに優秀(97-98%)
  • Gemini 2.5 Flashが最高コスパ(98%通過、$0.05)
  • 上位モデル間の差別化のためテスト強化が必要(Hard++ Suite)
  • 最新モデルが常に最高ではない(Gemini 3 Pro ≈ 2.5 Pro)
  • 韓国モデル(Solar、HyperCLOVA X)はコーディング性能の最適化が必要

1. ベンチマーク概要

測定方式

HumanEval

問題 → コード → 採点(1回)

Careti Agent

問題 → コード → テスト → [エラー] → 再試行(最大5回)

パラメータ

100

問題数

5

最大試行

300s

タイムアウト

Hard

難易度

終了条件

✓ success

テスト通過

✗ max_attempts

5回試行後失敗

⏱ timeout

300秒超過

↺ same_error

同一エラー反復

2. モデル順位

ソート基準:最終通過率 → 1回成功率 → コスト(安い順)

順位モデル最終1回成功平均時間コスト総時間same_error
🥇Gemini 2.5 Flash98%92%17.6s$0.05~39m1
🥈Gemini 2.5 Pro97%95%40.5s$0.33~70m3
🥉Claude Code CLI*97%94%35.2s~$0.17~60m3
4GLM-4.797%90%15.6s$0.18~40m2
5Gemini 3 Pro97%90%55.8s$0.24~100m2
6Gemini 3 Flash†91%82%22.1s$0.03~45m0
7Solar Pro283%61%18.3s$0.79~48m11
8Solar Pro375%70%45.2s$1.35~85m25
9HyperCLOVA X‡0%0%--~3m100

* Claude Code CLI: Careti実使用基準(Max購読、APIより20倍安い)
† Gemini 3 Flash: Preview APIタイムアウトで9問題失敗
‡ HyperCLOVA X: HCX-003(2%)、HCX-007(0%)共にコーディング未対応。再テスト必要

3. 可視化

通過率比較

コスト対性能

4. テストモデル

Google Gemini

2.5 Flash/Pro、3 Pro/Flash。Googleのマルチモーダル LLM。

Claude Code CLI

Anthropic Opus 4.5ベースのCLIツール。

GLM-4.7

Zhipu AI(中国)。コーディング特化。

Solar Pro2/3

Upstage(韓国)。Pro2がフィードバック学習に優れる。

HyperCLOVA X

Naver(韓国)。コーディングタスク未対応。

5. テスト改善事項

  • 上位5モデルが97-98%で同率 → Hard++ Suite追加必要
  • HyperCLOVA Xコーディング特化バージョン発売時に再比較
  • 実際のProductionバグ/リファクタリング問題追加を検討