Claude Opus 4.7 assume a liderança por um fio, Grok 4.20 reescreve a equação de velocidade
Claude Opus 4.7 supera o Gemini 3.1 Pro Preview em qualidade por pouco, enquanto o Grok 4.20 atinge 222 tok/s. Resumo semanal do mercado de LLMs para 20 de abril de 2026.
Os três primeiros agora estão separados por meio ponto
Claude Opus 4.7 (Anthropic) lidera o índice de qualidade com 57,3, seguido por Gemini 3.1 Pro Preview (Google) com 57,2 e GPT-5.4 (OpenAI) com 56,8. Isso é uma diferença de 0,5 ponto entre três provedores diferentes. A diferença prática nesse patamar é insignificante para a maioria das cargas de trabalho; os verdadeiros diferenciais são preço e throughput.
Onde o argumento financeiro fica interessante
| Modelo | Qualidade | Preço/1M input | Velocidade |
|---|---|---|---|
| Claude Opus 4.7 | 57,3 | $10,00 | 53 tok/s |
| Gemini 3.1 Pro Preview | 57,2 | $4,50 | 134 tok/s |
| GPT-5.4 | 56,8 | $5,63 | 86 tok/s |
| Grok 4.20 | 49,3 | $3,00 | 222 tok/s |
O Gemini 3.1 Pro Preview entrega 99,8% da qualidade do Claude Opus 4.7 por 45% do custo e 2,5x a velocidade de inferência. Para processamento em lote, pipelines de RAG ou qualquer carga de trabalho onde você paga por token em escala, essa é a escolha óbvia. O Claude Opus 4.7 custa $10/M tokens e roda a 53 tok/s. Fica difícil justificar esse premium quando a diferença de qualidade é de 0,1 ponto.
O GPT-5.4 fica no meio em todos os eixos. Não é o mais barato, não é o mais rápido, não é o de maior qualidade. É um padrão razoável se você já está na infraestrutura da OpenAI, mas não é mais a escolha óbvia para nada específico.
Grok 4.20: modelo mais rápido do índice com folga
O Grok 4.20 da xAI atinge 222 tok/s a $3,00/M tokens. Isso é 65% mais rápido que o modelo mais próximo (Gemini 3.1 Pro Preview a 134 tok/s). A pontuação de qualidade de 49,3 o coloca abaixo do tier de fronteira, mas para aplicações sensíveis à latência como agentes interativos, autocomplete ou qualquer pipeline onde a velocidade de iteração importa mais que a precisão máxima, nada chega perto.
O tier econômico continua se comprimindo
O MiniMax M2.7 marca 49,6 de qualidade a $0,52/M tokens. Isso é 86,7% da qualidade do GPT-5.4 por menos de um décimo do preço. O a $0,73/M e o a $1,11/M completam um tier abaixo de $1,50 onde três modelos open-weight ou econômicos se agrupam entre 49,8 e 50,0 de qualidade. Para classificação, sumarização e extração estruturada em alto volume, esse tier agora dá conta do que exigia modelos de fronteira há um ano.
Stay in the loop
Weekly LLM analysis delivered to your inbox. No spam.