Comment utiliser les données brutes
Guide d'utilisation des données brutes de benchmark pour la recherche et l'analyse.
Aperçu
Nous fournissons des données brutes pour la transparence et la reproductibilité.
Structure des données
Chaque résultat comprend l'ID du problème, le nom du modèle, le nombre de tentatives, le statut de réussite, le temps de réponse, l'utilisation des tokens et le coût.
{
"problem_id": "h01-longest-substring",
"model": "Gemini 2.5 Flash",
"success": true,
"attempts": 2,
"first_attempt_success": false,
"total_time_ms": 9599,
"cost_usd": 0.00094,
"input_tokens": 4330,
"output_tokens": 484,
"prompt_mode": "careti",
"termination_reason": "success",
"attempt_history": [
{
"attempt": 1,
"success": false,
"latency_ms": 6229,
"error": "SyntaxError: invalid syntax"
},
{
"attempt": 2,
"success": true,
"latency_ms": 3370
}
]
}Recherche de problèmes
Les problèmes Hard Suite peuvent être consultés dans hard-suite.json du dépôt GitHub. Recherchez par problem_id (ex: h01-longest-substring).
# Python - Recherche de problèmes Hard Suite
import json
import urllib.request
BASE = "https://raw.githubusercontent.com/caretive-ai/careti-benchmark/main/results/2026-02-hard-suite"
# Définitions des problèmes (prompts, code de test)
problems = json.loads(urllib.request.urlopen(f"{BASE}/hard-suite.json").read())
# Résultats du benchmark (2100 entrées)
results = json.loads(urllib.request.urlopen(f"{BASE}/results.json").read())
# Rechercher par problem_id (ex: h01-longest-substring)
problem = next(p for p in problems if p["id"] == "h01-longest-substring")
print(problem["prompt"])
print(problem["test_code"])GitHub: caretive-ai/careti-benchmark
Analyse du comportement du modèle
Le champ attempt_history contient des informations détaillées pour chaque tentative.
- termination_reason: success, max_attempts, timeout, oscillation, same_error
- attempt_history: succès/échec, temps de réponse, tokens par tentative
- first_attempt_success: résolu sans réessai
Téléchargement
Les données brutes peuvent être téléchargées en bas de chaque page de détail de benchmark.
Hard Suite 100 Results
results/2026-02-hard-suite/- hard-suite.json - 100 problèmes (prompts, code de test)
- results.json - 2100 résultats de tests
- summary.json - Statistiques agrégées par modèle
GitHub Repository
caretive-ai/careti-benchmarkDonnées brutes complètes, scripts de vérification, exemples
