목록으로
2026년 2월 4일
Hard Suite 100 - Agent Mode 벤치마크
Gemini 2.5 Flash 98%, GLM-4.7 97-98% | 에러 피드백 기반 재시도 능력 측정
Careti Agent Benchmark
Hard Suite 종합 보고서 (9개 모델)
2026-02-02 ~ 2026-02-05
⚠️ 주의: 벤치마크 결과는 실사용 경험과 다를 수 있습니다. 알고리즘 문제 해결 능력과 실제 프로젝트 개발 능력은 별개입니다.
결과 요약
- • Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Code CLI, GLM-4.7 모두 코딩에 충분히 우수 (97-98%)
- • Gemini 2.5 Flash 최고 가성비 (98% 통과, $0.05)
- • 상위 모델 간 변별을 위해 테스트 보강 필요 (Hard++ Suite)
- • 최신 모델이 항상 최고는 아님 (Gemini 3 Pro ≈ 2.5 Pro)
- • 국내 모델(Solar, HyperCLOVA X)은 코딩 부문 성능 최적화 필요
1. 벤치마크 개요
측정 방식
HumanEval
문제 → 코드 → 채점 (1회)
Careti Agent
문제 → 코드 → 테스트 → [에러] → 재시도 (최대 5회)
파라미터
100
문제 수
5
최대 시도
300s
타임아웃
Hard
난이도
종료 조건
✓ success
테스트 통과
✗ max_attempts
5회 시도 후 실패
⏱ timeout
300초 초과
↺ same_error
동일 에러 반복
2. 전체 모델 순위
정렬 기준: 최종 통과율 → 1회 성공률 → 비용 (저렴한 순)
| 순위 | 모델 | 최종 | 1회 성공 | 1회 평균 | 비용 | 총 시간 | same_error |
|---|---|---|---|---|---|---|---|
| 🥇 | Gemini 2.5 Flash | 98% | 92% | 17.6s | $0.05 | ~39m | 1 |
| 🥈 | Gemini 2.5 Pro | 97% | 95% | 40.5s | $0.33 | ~70m | 3 |
| 🥉 | Claude Code CLI* | 97% | 94% | 35.2s | ~$0.17 | ~60m | 3 |
| 4 | GLM-4.7 | 97% | 90% | 15.6s | $0.18 | ~40m | 2 |
| 5 | Gemini 3 Pro | 97% | 90% | 55.8s | $0.24 | ~100m | 2 |
| 6 | Gemini 3 Flash† | 91% | 82% | 22.1s | $0.03 | ~45m | 0 |
| 7 | Solar Pro2 | 83% | 61% | 18.3s | $0.79 | ~48m | 11 |
| 8 | Solar Pro3 | 75% | 70% | 45.2s | $1.35 | ~85m | 25 |
| 9 | HyperCLOVA X‡ | 0% | 0% | - | - | ~3m | 100 |
* Claude Code CLI: Careti 실사용 기준 (Max 구독제, API 대비 20배 저렴)
† Gemini 3 Flash: Preview 모델 API timeout으로 9개 문제 실패
‡ HyperCLOVA X: HCX-003(2%), HCX-007(0%) 모두 코딩 미지원. 재테스트 필요
3. 시각화
통과율 비교
비용 대비 성능
4. 테스트 모델
Google Gemini
2.5 Flash/Pro, 3 Pro/Flash. Google의 멀티모달 LLM.
Claude Code CLI
Anthropic Opus 4.5 기반 CLI 도구.
GLM-4.7
Zhipu AI (중국). 코딩 특화.
Solar Pro2/3
Upstage (한국). Pro2가 피드백 학습 우수.
HyperCLOVA X
Naver (한국). 코딩 태스크 미지원.
5. 테스트 개선사항
- • 상위 5개 모델 97-98% 동률 → Hard++ Suite 추가 필요
- • HyperCLOVA X 코딩 특화 버전 출시 시 재비교
- • 실제 Production 버그/리팩토링 문제 추가 고려
Raw 데이터 다운로드
