Назад к бенчмаркам

Как использовать сырые данные

Руководство по использованию сырых данных бенчмарков для исследований и анализа.

Обзор

Мы предоставляем сырые данные для прозрачности и воспроизводимости.

Структура данных

Каждый результат включает ID задачи, название модели, количество попыток, статус успеха, время ответа, использование токенов и стоимость.

{
  "problem_id": "h01-longest-substring",
  "model": "Gemini 2.5 Flash",
  "success": true,
  "attempts": 2,
  "first_attempt_success": false,
  "total_time_ms": 9599,
  "cost_usd": 0.00094,
  "input_tokens": 4330,
  "output_tokens": 484,
  "prompt_mode": "careti",
  "termination_reason": "success",
  "attempt_history": [
    {
      "attempt": 1,
      "success": false,
      "latency_ms": 6229,
      "error": "SyntaxError: invalid syntax"
    },
    {
      "attempt": 2,
      "success": true,
      "latency_ms": 3370
    }
  ]
}

Поиск задач

Задачи Hard Suite можно найти в hard-suite.json в репозитории GitHub. Ищите по problem_id (например: h01-longest-substring).

# Python - поиск задач Hard Suite
import json
import urllib.request

BASE = "https://raw.githubusercontent.com/caretive-ai/careti-benchmark/main/results/2026-02-hard-suite"

# Определения задач (промпты, тестовый код)
problems = json.loads(urllib.request.urlopen(f"{BASE}/hard-suite.json").read())

# Результаты бенчмарка (2100 записей)
results = json.loads(urllib.request.urlopen(f"{BASE}/results.json").read())

# Поиск по problem_id (например: h01-longest-substring)
problem = next(p for p in problems if p["id"] == "h01-longest-substring")
print(problem["prompt"])
print(problem["test_code"])

GitHub: caretive-ai/careti-benchmark

Анализ поведения модели

Поле attempt_history содержит подробную информацию о каждой попытке.

  • termination_reason: success, max_attempts, timeout, oscillation, same_error
  • attempt_history: успех/неудача, время ответа, токены за попытку
  • first_attempt_success: решено без повторных попыток

Скачать

Сырые данные можно скачать внизу каждой страницы с деталями бенчмарка.

Hard Suite 100 Results

results/2026-02-hard-suite/
  • hard-suite.json - 100 задач (промпты, тестовый код)
  • results.json - 2100 результатов тестов
  • summary.json - Агрегированная статистика по моделям

GitHub Repository

caretive-ai/careti-benchmark

Полные сырые данные, скрипты проверки, примеры