2026년 2월 4일

Hard Suite 100 - Agent Mode 벤치마크

Gemini 2.5 Flash 98%, GLM-4.7 97-98% | 에러 피드백 기반 재시도 능력 측정

테스트 모델:gemini-2.5-flash glm-4.7 gemini-3-pro solar-pro2 solar-pro3 hyperclova-x

#hard-suite #agent-mode

Careti Agent Benchmark

Hard Suite 종합 보고서 (9개 모델)

2026-02-02 ~ 2026-02-05

⚠️ 주의: 벤치마크 결과는 실사용 경험과 다를 수 있습니다. 알고리즘 문제 해결 능력과 실제 프로젝트 개발 능력은 별개입니다.

결과 요약

• Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Code CLI, GLM-4.7 모두 코딩에 충분히 우수 (97-98%)
• Gemini 2.5 Flash 최고 가성비 (98% 통과, $0.05)
• 상위 모델 간 변별을 위해 테스트 보강 필요 (Hard++ Suite)
• 최신 모델이 항상 최고는 아님 (Gemini 3 Pro ≈ 2.5 Pro)
• 국내 모델(Solar, HyperCLOVA X)은 코딩 부문 성능 최적화 필요

1. 벤치마크 개요

측정 방식

HumanEval

문제 → 코드 → 채점 (1회)

Careti Agent

문제 → 코드 → 테스트 → [에러] → 재시도 (최대 5회)

파라미터

100

문제 수

최대 시도

300s

타임아웃

Hard

난이도

종료 조건

✓ success

테스트 통과

✗ max_attempts

5회 시도 후 실패

⏱ timeout

300초 초과

↺ same_error

동일 에러 반복

2. 전체 모델 순위

정렬 기준: 최종 통과율 → 1회 성공률 → 비용 (저렴한 순)

순위	모델	최종	1회 성공	1회 평균	비용	총 시간	same_error
🥇	Gemini 2.5 Flash	98%	92%	17.6s	$0.05	~39m	1
🥈	Gemini 2.5 Pro	97%	95%	40.5s	$0.33	~70m	3
🥉	Claude Code CLI*	97%	94%	35.2s	~$0.17	~60m	3
4	GLM-4.7	97%	90%	15.6s	$0.18	~40m	2
5	Gemini 3 Pro	97%	90%	55.8s	$0.24	~100m	2
6	Gemini 3 Flash†	91%	82%	22.1s	$0.03	~45m	0
7	Solar Pro2	83%	61%	18.3s	$0.79	~48m	11
8	Solar Pro3	75%	70%	45.2s	$1.35	~85m	25
9	HyperCLOVA X‡	0%	0%	-	-	~3m	100

* Claude Code CLI: Careti 실사용 기준 (Max 구독제, API 대비 20배 저렴)
† Gemini 3 Flash: Preview 모델 API timeout으로 9개 문제 실패
‡ HyperCLOVA X: HCX-003(2%), HCX-007(0%) 모두 코딩 미지원. 재테스트 필요

3. 시각화

통과율 비교

비용 대비 성능

4. 테스트 모델

Google Gemini

2.5 Flash/Pro, 3 Pro/Flash. Google의 멀티모달 LLM.

Claude Code CLI

Anthropic Opus 4.5 기반 CLI 도구.

GLM-4.7

Zhipu AI (중국). 코딩 특화.

Solar Pro2/3

Upstage (한국). Pro2가 피드백 학습 우수.

HyperCLOVA X

Naver (한국). 코딩 태스크 미지원.

5. 테스트 개선사항

• 상위 5개 모델 97-98% 동률 → Hard++ Suite 추가 필요
• HyperCLOVA X 코딩 특화 버전 출시 시 재비교
• 실제 Production 버그/리팩토링 문제 추가 고려

Raw 데이터 다운로드

GitHub hard-suite.json results.json summary.json