Terminal-Bench

Agentic

Terminal-Bench (agentic terminal tasks)

End-to-end tasks an engineer would do in a real terminal: building code, wrangling servers, debugging environments. The model operates a shell autonomously until the task is done. Strong predictor of performance inside CLI coding agents.

1Claude Opus 4.8Anthropic$5/$25~63%2Claude Opus 4.5Anthropic$5/$2559.3%3Gemini 3 ProGoogle$2/$1254.2%4Claude Sonnet 4.5Anthropic$3/$1550%5GPT-5.1OpenAI$1.25/$10~47.6%6Kimi K2 ThinkingMoonshot AI$0.6/$2.5~47.1%7MiniMax M2MiniMax$0.3/$1.246.3%8GPT-5OpenAI$1.25/$10~43.8%9Claude Haiku 4.5Anthropic$1/$5~41%10GLM-4.6Z.ai (Zhipu)$0.6/$2.240.5%

~ marks community-reported or version-normalized figures; all others come from official model cards. Prices shown as input/output per 1M tokens. Updated 2026-06-10.