一覧へ
2026年2月4日English
HumanEval Agent Mode Benchmark
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response
Careti Agent Benchmark
Hard Suite総合レポート(9モデル)
2026-02-02 ~ 2026-02-05
⚠️ 注意:ベンチマーク結果は実使用体験と異なる場合があります。アルゴリズム問題解決能力と実際のプロジェクト開発能力は別物です。
結果概要
- • Gemini 2.5 Flash、Gemini 2.5 Pro、Claude Code CLI、GLM-4.7はすべてコーディングに優秀(97-98%)
- • Gemini 2.5 Flashが最高コスパ(98%通過、$0.05)
- • 上位モデル間の差別化のためテスト強化が必要(Hard++ Suite)
- • 最新モデルが常に最高ではない(Gemini 3 Pro ≈ 2.5 Pro)
- • 韓国モデル(Solar、HyperCLOVA X)はコーディング性能の最適化が必要
1. ベンチマーク概要
測定方式
HumanEval
問題 → コード → 採点(1回)
Careti Agent
問題 → コード → テスト → [エラー] → 再試行(最大5回)
パラメータ
100
問題数
5
最大試行
300s
タイムアウト
Hard
難易度
終了条件
✓ success
テスト通過
✗ max_attempts
5回試行後失敗
⏱ timeout
300秒超過
↺ same_error
同一エラー反復
2. モデル順位
ソート基準:最終通過率 → 1回成功率 → コスト(安い順)
| 順位 | モデル | 最終 | 1回成功 | 平均時間 | コスト | 総時間 | same_error |
|---|---|---|---|---|---|---|---|
| 🥇 | Gemini 2.5 Flash | 98% | 92% | 17.6s | $0.05 | ~39m | 1 |
| 🥈 | Gemini 2.5 Pro | 97% | 95% | 40.5s | $0.33 | ~70m | 3 |
| 🥉 | Claude Code CLI* | 97% | 94% | 35.2s | ~$0.17 | ~60m | 3 |
| 4 | GLM-4.7 | 97% | 90% | 15.6s | $0.18 | ~40m | 2 |
| 5 | Gemini 3 Pro | 97% | 90% | 55.8s | $0.24 | ~100m | 2 |
| 6 | Gemini 3 Flash† | 91% | 82% | 22.1s | $0.03 | ~45m | 0 |
| 7 | Solar Pro2 | 83% | 61% | 18.3s | $0.79 | ~48m | 11 |
| 8 | Solar Pro3 | 75% | 70% | 45.2s | $1.35 | ~85m | 25 |
| 9 | HyperCLOVA X‡ | 0% | 0% | - | - | ~3m | 100 |
* Claude Code CLI: Careti実使用基準(Max購読、APIより20倍安い)
† Gemini 3 Flash: Preview APIタイムアウトで9問題失敗
‡ HyperCLOVA X: HCX-003(2%)、HCX-007(0%)共にコーディング未対応。再テスト必要
3. 可視化
通過率比較
コスト対性能
4. テストモデル
Google Gemini
2.5 Flash/Pro、3 Pro/Flash。Googleのマルチモーダル LLM。
Claude Code CLI
Anthropic Opus 4.5ベースのCLIツール。
GLM-4.7
Zhipu AI(中国)。コーディング特化。
Solar Pro2/3
Upstage(韓国)。Pro2がフィードバック学習に優れる。
HyperCLOVA X
Naver(韓国)。コーディングタスク未対応。
5. テスト改善事項
- • 上位5モデルが97-98%で同率 → Hard++ Suite追加必要
- • HyperCLOVA Xコーディング特化バージョン発売時に再比較
- • 実際のProductionバグ/リファクタリング問題追加を検討
