AI Agent Evaluations

Performance results of AI coding agents on Nuxt code generation tasks, measuring success rate and execution time.

Last run date: April 17, 2026

Agent Performance Results

Model	Agent	Total Evals	Success Rate
Claude Opus 4.6	Claude Code	25	96%
Claude Sonnet 4.6	Claude Code	25	92%
Claude Opus 4.7	Claude Code	25	88%
Gemini 3.1 Pro Preview	Gemini CLI	25	88%
GPT 5.3 Codex (xhigh)	Codex	25	88%
Cursor Composer 1.5	Cursor	25	80%
Cursor Composer 2.0	Cursor	25	80%
Gemini 3 Pro Preview	Gemini CLI	25	76%
GPT 5.4 (xhigh)	Codex	25	72%
Claude Sonnet 4.5	Claude Code	25	60%
Devstral 2	OpenCode	25	36%