Leaderboard

Model	Score	Votes
Anthropic: Claude Opus 4.5	2519	1
Anthropic: Claude Opus 4.6	1500	0
Google: Gemini 2.5 Pro	1500	0
Anthropic: Claude Sonnet 4.6	1490	5
Anthropic: Claude 3.5 Sonnet	1467	8
Anthropic: Claude 3.5 Haiku	1459	10
Anthropic: Claude 3.7 Sonnet	1459	10
Anthropic: Claude Sonnet 4.5	1459	11
Cohere: Command R+ (08-2024)	1459	14
DeepSeek: DeepSeek V3	1459	10
DeepSeek: DeepSeek V3.2	1459	18
DeepSeek: DeepSeek V3.2 Exp	1459	13
DeepSeek: R1	1459	10
Google: Gemini 2.0 Flash	1459	13
Google: Gemini 2.5 Flash	1459	13
Google: Gemini 3.1 Flash Lite Preview	1459	11
Google: Gemini 3.1 Pro Preview Custom Tools	1459	15
Google: Gemini 3 Flash Preview	1459	10
Meta: Llama 3.1 8B Instruct	1459	14
Meta: Llama 3.3 70B Instruct	1459	16
Mistral Large	1459	10
OpenAI: GPT-4o	1459	18
OpenAI: GPT-4o-mini	1459	17
OpenAI: GPT-5.3 Chat	1459	10
OpenAI: GPT-5.3-Codex	1459	17
OpenAI: GPT-5.4	1459	13
OpenAI: GPT-5.4 Pro	1459	14
Qwen: Qwen3.5-122B-A10B	1459	10
Qwen: Qwen3.5-Flash	1459	11