Retour aux benchmarks

Comment utiliser les données brutes

Guide d'utilisation des données brutes de benchmark pour la recherche et l'analyse.

Aperçu

Nous fournissons des données brutes pour la transparence et la reproductibilité.

Structure des données

Chaque résultat comprend l'ID du problème, le nom du modèle, le nombre de tentatives, le statut de réussite, le temps de réponse, l'utilisation des tokens et le coût.

{
  "problem_id": "h01-longest-substring",
  "model": "Gemini 2.5 Flash",
  "success": true,
  "attempts": 2,
  "first_attempt_success": false,
  "total_time_ms": 9599,
  "cost_usd": 0.00094,
  "input_tokens": 4330,
  "output_tokens": 484,
  "prompt_mode": "careti",
  "termination_reason": "success",
  "attempt_history": [
    {
      "attempt": 1,
      "success": false,
      "latency_ms": 6229,
      "error": "SyntaxError: invalid syntax"
    },
    {
      "attempt": 2,
      "success": true,
      "latency_ms": 3370
    }
  ]
}

Recherche de problèmes

Les problèmes Hard Suite peuvent être consultés dans hard-suite.json du dépôt GitHub. Recherchez par problem_id (ex: h01-longest-substring).

# Python - Recherche de problèmes Hard Suite
import json
import urllib.request

BASE = "https://raw.githubusercontent.com/caretive-ai/careti-benchmark/main/results/2026-02-hard-suite"

# Définitions des problèmes (prompts, code de test)
problems = json.loads(urllib.request.urlopen(f"{BASE}/hard-suite.json").read())

# Résultats du benchmark (2100 entrées)
results = json.loads(urllib.request.urlopen(f"{BASE}/results.json").read())

# Rechercher par problem_id (ex: h01-longest-substring)
problem = next(p for p in problems if p["id"] == "h01-longest-substring")
print(problem["prompt"])
print(problem["test_code"])

GitHub: caretive-ai/careti-benchmark

Analyse du comportement du modèle

Le champ attempt_history contient des informations détaillées pour chaque tentative.

  • termination_reason: success, max_attempts, timeout, oscillation, same_error
  • attempt_history: succès/échec, temps de réponse, tokens par tentative
  • first_attempt_success: résolu sans réessai

Téléchargement

Les données brutes peuvent être téléchargées en bas de chaque page de détail de benchmark.

Hard Suite 100 Results

results/2026-02-hard-suite/

GitHub Repository

caretive-ai/careti-benchmark

Données brutes complètes, scripts de vérification, exemples