목록으로

2026년 2월 4일

Hard Suite 100 - Agent Mode 벤치마크

Gemini 2.5 Flash 98%, GLM-4.7 97-98% | 에러 피드백 기반 재시도 능력 측정

Careti Agent Benchmark

Hard Suite 종합 보고서 (9개 모델)

2026-02-02 ~ 2026-02-05

⚠️ 주의: 벤치마크 결과는 실사용 경험과 다를 수 있습니다. 알고리즘 문제 해결 능력과 실제 프로젝트 개발 능력은 별개입니다.

결과 요약

  • Gemini 2.5 Flash, Gemini 2.5 Pro, Claude Code CLI, GLM-4.7 모두 코딩에 충분히 우수 (97-98%)
  • Gemini 2.5 Flash 최고 가성비 (98% 통과, $0.05)
  • 상위 모델 간 변별을 위해 테스트 보강 필요 (Hard++ Suite)
  • 최신 모델이 항상 최고는 아님 (Gemini 3 Pro ≈ 2.5 Pro)
  • 국내 모델(Solar, HyperCLOVA X)은 코딩 부문 성능 최적화 필요

1. 벤치마크 개요

측정 방식

HumanEval

문제 → 코드 → 채점 (1회)

Careti Agent

문제 → 코드 → 테스트 → [에러] → 재시도 (최대 5회)

파라미터

100

문제 수

5

최대 시도

300s

타임아웃

Hard

난이도

종료 조건

✓ success

테스트 통과

✗ max_attempts

5회 시도 후 실패

⏱ timeout

300초 초과

↺ same_error

동일 에러 반복

2. 전체 모델 순위

정렬 기준: 최종 통과율 → 1회 성공률 → 비용 (저렴한 순)

순위모델최종1회 성공1회 평균비용총 시간same_error
🥇Gemini 2.5 Flash98%92%17.6s$0.05~39m1
🥈Gemini 2.5 Pro97%95%40.5s$0.33~70m3
🥉Claude Code CLI*97%94%35.2s~$0.17~60m3
4GLM-4.797%90%15.6s$0.18~40m2
5Gemini 3 Pro97%90%55.8s$0.24~100m2
6Gemini 3 Flash†91%82%22.1s$0.03~45m0
7Solar Pro283%61%18.3s$0.79~48m11
8Solar Pro375%70%45.2s$1.35~85m25
9HyperCLOVA X‡0%0%--~3m100

* Claude Code CLI: Careti 실사용 기준 (Max 구독제, API 대비 20배 저렴)
† Gemini 3 Flash: Preview 모델 API timeout으로 9개 문제 실패
‡ HyperCLOVA X: HCX-003(2%), HCX-007(0%) 모두 코딩 미지원. 재테스트 필요

3. 시각화

통과율 비교

비용 대비 성능

4. 테스트 모델

Google Gemini

2.5 Flash/Pro, 3 Pro/Flash. Google의 멀티모달 LLM.

Claude Code CLI

Anthropic Opus 4.5 기반 CLI 도구.

GLM-4.7

Zhipu AI (중국). 코딩 특화.

Solar Pro2/3

Upstage (한국). Pro2가 피드백 학습 우수.

HyperCLOVA X

Naver (한국). 코딩 태스크 미지원.

5. 테스트 개선사항

  • 상위 5개 모델 97-98% 동률 → Hard++ Suite 추가 필요
  • HyperCLOVA X 코딩 특화 버전 출시 시 재비교
  • 실제 Production 버그/리팩토링 문제 추가 고려