2026년 2월 4일
Hard Suite 100 - Agent Mode 벤치마크
Gemini 2.5 Flash 98%, GLM-4.7 97-98% | 에러 피드백 기반 재시도 능력 측정
테스트 모델:gemini-2.5-flashglm-4.7gemini-3-prosolar-pro2solar-pro3hyperclova-x
캐러티의 개선을 위해 수행하고 있는 벤치마크 결과를 공유합니다.
개발자들의 모델 선택을 돕고, AI 모델 연구자들에게는 기초 자료로 활용되기를 희망합니다. 각 벤치마크 결과는 아래에서 확인할 수 있습니다.
Gemini 2.5 Flash 98%, GLM-4.7 97-98% | 에러 피드백 기반 재시도 능력 측정