返回基准测试列表

Raw数据使用方法

介绍如何将基准测试Raw数据用于研究和分析。

概述

为了透明性和可重复性,我们提供Raw数据。研究人员可以自行验证并进行额外分析。

数据结构

每个结果包含问题ID、模型名称、尝试次数、成功状态、响应时间、令牌使用量和成本。

{
  "problem_id": "h01-longest-substring",
  "model": "Gemini 2.5 Flash",
  "success": true,
  "attempts": 2,
  "first_attempt_success": false,
  "total_time_ms": 9599,
  "cost_usd": 0.00094,
  "input_tokens": 4330,
  "output_tokens": 484,
  "prompt_mode": "careti",
  "termination_reason": "success",
  "attempt_history": [
    {
      "attempt": 1,
      "success": false,
      "latency_ms": 6229,
      "error": "SyntaxError: invalid syntax"
    },
    {
      "attempt": 2,
      "success": true,
      "latency_ms": 3370
    }
  ]
}

问题查询

可以从GitHub仓库的hard-suite.json查询Hard Suite问题。使用problem_id(如h01-longest-substring)搜索。

# Python - Hard Suite问题查询
import json
import urllib.request

BASE = "https://raw.githubusercontent.com/caretive-ai/careti-benchmark/main/results/2026-02-hard-suite"

# 问题定义(提示词、测试代码)
problems = json.loads(urllib.request.urlopen(f"{BASE}/hard-suite.json").read())

# 基准测试结果(2100条)
results = json.loads(urllib.request.urlopen(f"{BASE}/results.json").read())

# 按problem_id搜索(如h01-longest-substring)
problem = next(p for p in problems if p["id"] == "h01-longest-substring")
print(problem["prompt"])
print(problem["test_code"])

GitHub: caretive-ai/careti-benchmark

模型行为分析

attempt_history字段包含每次尝试的详细信息。

  • termination_reason: success, max_attempts, timeout, oscillation, same_error
  • attempt_history: 每次尝试的成功/失败、响应时间、令牌使用量
  • first_attempt_success: 是否无需重试即解决

下载

可以从每个基准测试详情页面底部下载Raw数据。

Hard Suite 100 Results

results/2026-02-hard-suite/

GitHub Repository

caretive-ai/careti-benchmark

完整raw数据、验证脚本、示例代码