Claude Opus 4.7 assume a liderança por um fio, Grok 4.20 reescreve a equação de velocidade

Claude Opus 4.7 supera o Gemini 3.1 Pro Preview em qualidade por pouco, enquanto o Grok 4.20 atinge 222 tok/s. Resumo semanal do mercado de LLMs para 20 de abril de 2026.

FindLLM20 de abril de 2026

weekly-briefingclaude-opus-4-7gemini-3-1-progrok-4-20gpt-5-4

Os três primeiros agora estão separados por meio ponto

Claude Opus 4.7 (Anthropic) lidera o índice de qualidade com 57,3, seguido por Gemini 3.1 Pro Preview (Google) com 57,2 e GPT-5.4 (OpenAI) com 56,8. Isso é uma diferença de 0,5 ponto entre três provedores diferentes. A diferença prática nesse patamar é insignificante para a maioria das cargas de trabalho; os verdadeiros diferenciais são preço e throughput.

Onde o argumento financeiro fica interessante

Modelo	Qualidade	Preço/1M input	Velocidade
Claude Opus 4.7	57,3	$10,00	53 tok/s
Gemini 3.1 Pro Preview	57,2	$4,50	134 tok/s
GPT-5.4	56,8	$5,63	86 tok/s
Grok 4.20	49,3	$3,00	222 tok/s

O Gemini 3.1 Pro Preview entrega 99,8% da qualidade do Claude Opus 4.7 por 45% do custo e 2,5x a velocidade de inferência. Para processamento em lote, pipelines de RAG ou qualquer carga de trabalho onde você paga por token em escala, essa é a escolha óbvia. O Claude Opus 4.7 custa $10/M tokens e roda a 53 tok/s. Fica difícil justificar esse premium quando a diferença de qualidade é de 0,1 ponto.

O GPT-5.4 fica no meio em todos os eixos. Não é o mais barato, não é o mais rápido, não é o de maior qualidade. É um padrão razoável se você já está na infraestrutura da OpenAI, mas não é mais a escolha óbvia para nada específico.

Comparação de qualidade

Grok 4.20: modelo mais rápido do índice com folga

O Grok 4.20 da xAI atinge 222 tok/s a $3,00/M tokens. Isso é 65% mais rápido que o modelo mais próximo (Gemini 3.1 Pro Preview a 134 tok/s). A pontuação de qualidade de 49,3 o coloca abaixo do tier de fronteira, mas para aplicações sensíveis à latência como agentes interativos, autocomplete ou qualquer pipeline onde a velocidade de iteração importa mais que a precisão máxima, nada chega perto.

Velocidade de saída

O tier econômico continua se comprimindo

O MiniMax M2.7 marca 49,6 de qualidade a $0,52/M tokens. Isso é 86,7% da qualidade do GPT-5.4 por menos de um décimo do preço. O Qwen3.6 Plus a $0,73/M e o GLM 5 a $1,11/M completam um tier abaixo de $1,50 onde três modelos open-weight ou econômicos se agrupam entre 49,8 e 50,0 de qualidade. Para classificação, sumarização e extração estruturada em alto volume, esse tier agora dá conta do que exigia modelos de fronteira há um ano.

GPT-5.3-Codex mantém o espaço específico para código

O GPT-5.3-Codex com 53,6 de qualidade e $4,81/M tokens continua sendo o modelo dedicado a código da OpenAI. Ele pontua abaixo do trio de fronteira geral, mas acima do tier econômico. Se seu pipeline é focado em código e você precisa do fine-tuning especializado, ele se posiciona entre o GPT-5.2 (51,3) e o GPT-5.4 (56,8) em qualidade geral, com um preço menor que o 5.4.

O que ficar de olho

O Gemini 3.1 Pro ainda está rotulado como "Preview". Se o Google mantiver o preço de $4,50 no GA, ele se torna a recomendação padrão para equipes conscientes de custo rodando cargas de trabalho com qualidade de fronteira.
O Muse Spark (Meta) registrou 52,1 de qualidade, mas ainda sem dados de preço ou velocidade. Um modelo open-source nesse nível de qualidade com custo de inferência competitivo reformularia o tier econômico.
O preço da Anthropic está cada vez mais difícil de defender. Três modelos a $10/M tokens, e apenas o Opus 4.7 conquista o primeiro lugar por 0,1 ponto.

Encontre o modelo certo para sua carga de trabalho no LLM Selector ou navegue pelo ranking completo em Explorar.

Fique por dentro

Análise semanal de LLMs direto no seu email. Sem spam.