Zurück zu Benchmarks
Verwendung von Rohdaten
Anleitung zur Nutzung von Benchmark-Rohdaten für Forschung und Analyse.
Überblick
Wir stellen Rohdaten für Transparenz und Reproduzierbarkeit bereit.
Datenstruktur
Jedes Ergebnis enthält Problem-ID, Modellname, Versuchsanzahl, Erfolgsstatus, Antwortzeit, Token-Nutzung und Kosten.
{
"problem_id": "h01-longest-substring",
"model": "Gemini 2.5 Flash",
"success": true,
"attempts": 2,
"first_attempt_success": false,
"total_time_ms": 9599,
"cost_usd": 0.00094,
"input_tokens": 4330,
"output_tokens": 484,
"prompt_mode": "careti",
"termination_reason": "success",
"attempt_history": [
{
"attempt": 1,
"success": false,
"latency_ms": 6229,
"error": "SyntaxError: invalid syntax"
},
{
"attempt": 2,
"success": true,
"latency_ms": 3370
}
]
}Problemsuche
Hard Suite Probleme können in hard-suite.json im GitHub Repository nachgeschlagen werden. Suchen Sie nach problem_id (z.B. h01-longest-substring).
# Python - Hard Suite Problemsuche
import json
import urllib.request
BASE = "https://raw.githubusercontent.com/caretive-ai/careti-benchmark/main/results/2026-02-hard-suite"
# Problemdefinitionen (Prompts, Testcode)
problems = json.loads(urllib.request.urlopen(f"{BASE}/hard-suite.json").read())
# Benchmark-Ergebnisse (2100 Einträge)
results = json.loads(urllib.request.urlopen(f"{BASE}/results.json").read())
# Nach problem_id suchen (z.B. h01-longest-substring)
problem = next(p for p in problems if p["id"] == "h01-longest-substring")
print(problem["prompt"])
print(problem["test_code"])GitHub: caretive-ai/careti-benchmark
Modellverhaltensanalyse
Das attempt_history-Feld enthält detaillierte Informationen für jeden Versuch.
- termination_reason: success, max_attempts, timeout, oscillation, same_error
- attempt_history: Erfolg/Misserfolg, Antwortzeit, Tokens pro Versuch
- first_attempt_success: ohne Wiederholung gelöst
Download
Rohdaten können am Ende jeder Benchmark-Detailseite heruntergeladen werden.
Hard Suite 100 Results
results/2026-02-hard-suite/- hard-suite.json - 100 Probleme (Prompts, Testcode)
- results.json - 2100 Testergebnisse
- summary.json - Aggregierte Statistiken pro Modell
GitHub Repository
caretive-ai/careti-benchmarkVollständige Rohdaten, Verifizierungsskripte, Beispiele
