基准测试

分享为改进Careti而进行的基准测试结果。

希望能帮助开发者选择模型，并为AI模型研究者提供基础数据。

Raw数据使用方法 →

筛选

测试模型

gemini-2.5-flash solar-pro2 solar-pro3

标签

#agent-mode #humaneval

2026年2月4日

HumanEval Agent Mode Benchmark

Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response

测试模型:gemini-2.5-flashsolar-pro2solar-pro3

#humaneval #agent-mode