2026年2月4日
HumanEval Agent Mode Benchmark
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response
测试模型:gemini-2.5-flashsolar-pro2solar-pro3
分享为改进Careti而进行的基准测试结果。
希望能帮助开发者选择模型,并为AI模型研究者提供基础数据。
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response