벤치마크 목록으로

Raw 데이터 활용 방법

벤치마크 Raw 데이터를 연구 및 분석에 활용하는 방법을 안내합니다.

개요

벤치마크 결과의 투명성과 재현성을 위해 Raw 데이터를 제공합니다. 연구자들이 직접 검증하고 추가 분석을 수행할 수 있습니다.

데이터 구조

각 결과는 문제 ID, 모델명, 시도 횟수, 성공 여부, 응답 시간, 토큰 사용량, 비용 등을 포함합니다.

{
  "problem_id": "h01-longest-substring",
  "model": "Gemini 2.5 Flash",
  "success": true,
  "attempts": 2,
  "first_attempt_success": false,
  "total_time_ms": 9599,
  "cost_usd": 0.00094,
  "input_tokens": 4330,
  "output_tokens": 484,
  "prompt_mode": "careti",
  "termination_reason": "success",
  "attempt_history": [
    {
      "attempt": 1,
      "success": false,
      "latency_ms": 6229,
      "error": "SyntaxError: invalid syntax"
    },
    {
      "attempt": 2,
      "success": true,
      "latency_ms": 3370
    }
  ]
}

문제 원본 조회

Hard Suite 문제는 GitHub 저장소의 hard-suite.json에서 조회할 수 있습니다. problem_id (예: h01-longest-substring)로 검색하세요.

# Python - Hard Suite 문제 조회
import json
import urllib.request

BASE = "https://raw.githubusercontent.com/caretive-ai/careti-benchmark/main/results/2026-02-hard-suite"

# 문제 원본 (프롬프트, 테스트 코드)
problems = json.loads(urllib.request.urlopen(f"{BASE}/hard-suite.json").read())

# 벤치마크 결과 (2100개)
results = json.loads(urllib.request.urlopen(f"{BASE}/results.json").read())

# problem_id로 검색 (예: h01-longest-substring)
problem = next(p for p in problems if p["id"] == "h01-longest-substring")
print(problem["prompt"])
print(problem["test_code"])

GitHub: caretive-ai/careti-benchmark

모델 행동 분석

attempt_history 필드에서 각 시도별 상세 정보를 확인할 수 있습니다. 실패 시 에러 메시지와 재시도 패턴을 분석할 수 있습니다.

  • termination_reason: success, max_attempts, timeout, oscillation, same_error
  • attempt_history: 각 시도별 성공 여부, 응답 시간, 토큰 사용량
  • first_attempt_success: 1차 시도 성공 여부 (재시도 없이 해결)

다운로드

각 벤치마크 상세 페이지 하단에서 Raw 데이터를 다운로드할 수 있습니다.

Hard Suite 100 Results

results/2026-02-hard-suite/

GitHub Repository

caretive-ai/careti-benchmark

전체 raw 데이터, 검증 스크립트, 예제 코드