2026年2月4日
HumanEval Agent Mode Benchmark
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response
テストモデル:gemini-2.5-flashsolar-pro2solar-pro3
Caretiの改善のために実施しているベンチマーク結果を共有します。
開発者のモデル選択を支援し、AIモデル研究者の基礎資料として活用されることを願っています。
Gemini 2.5 Flash - Careti prompt mode 97.6% first-attempt pass rate, 5.3s avg response