Ir para o conteúdo principal
Voltar ao Blog

Gemini 3.1 Pro iguala a qualidade do Claude Opus 4.7 por menos da metade do preço

O Gemini 3.1 Pro Preview do Google chega a apenas 0,1 ponto do Claude Opus 4.7, custando $4,50 contra $10,00/M tokens. Além disso: Grok 4.3 se destaca como a escolha de melhor custo-benefício em velocidade.

FindLLM4 de maio de 2026
weekly-briefinggemini-3-1-proclaude-opus-4-7grok-4-3pricing

A diferença entre preço e qualidade está desmoronando na faixa intermediária

O Gemini 3.1 Pro Preview (Google) agora marca 57,2 no índice de qualidade — apenas 0,1 ponto atrás do Claude Opus 4.7 (Anthropic), que está em 57,3. A diferença de custo: $4,50 vs $10,00 por milhão de tokens. Com 131 tok/s contra 59 tok/s, o Gemini também entrega inferência mais de duas vezes mais rápido. Para qualquer carga de trabalho em que você não precisa extrair até a última fração de qualidade, o argumento econômico a favor do Claude Opus nessa faixa se enfraqueceu significativamente.

O ranking desta semana

ModeloQualidadePreço/MVelocidadeMelhor para
GPT-5.560,2$11,2575 tok/sQualidade máxima, sem restrição de custo
Claude Opus 4.757,3$10,0059 tok/sLock-in no ecossistema Anthropic
Gemini 3.1 Pro Preview57,2$4,50131 tok/sProdução com alto throughput
Grok 4.353,2$1,56112 tok/sAlto volume, custo restrito

Comparação de qualidade

Grok 4.3 é o destaque silencioso

O Grok 4.3 (xAI) está em 53,2 de qualidade, $1,56/M tokens e 112 tok/s. Isso é mais rápido que o GPT-5.5 e mais barato que quase tudo acima dele. A diferença de qualidade para o Gemini 3.1 Pro é de 4 pontos, o que importa para cadeias de raciocínio complexas. Mas para tarefas de classificação, extração e saída estruturada onde uma qualidade acima de 53 é suficiente, o Grok entrega o melhor custo-benefício em tokens por dólar com alto throughput. Menos retentativas a 112 tok/s significa ciclos de iteração mais curtos em arquiteturas de agentes.

Comparação de preço

A categoria open-source

O Kimi K2.6 (MoonshotAI) lidera os modelos de pesos abertos com 53,9 de qualidade e $1,43/M tokens, embora a latência de inferência de 31 tok/s limite seu uso em aplicações em tempo real. O Qwen3.6 Max Preview (Alibaba) oferece 51,8 de qualidade a $2,92/M — quase o dobro do preço do Kimi para uma qualidade inferior. Para implantações self-hosted onde você controla a stack de inferência, o Kimi K2.6 é a escolha clara se você conseguir tolerar a restrição de throughput.

Tiers de raciocínio do GPT-5.5: retornos decrescentes confirmados

A diferença entre GPT-5.5 (60,2), GPT-5.5 high (58,9) e GPT-5.5 medium (56,7), todos a $11,25/M tokens, torna o tier padrão a única escolha racional — a menos que você precise de latência determinística do tier medium. Eu cobri isso em detalhes na semana passada, mas vale repetir: mesmo preço, 3,5 pontos de diferença em qualidade. Use sempre o padrão.

O que ficar de olho

Gemini 3.1 Pro saindo do preview. Se o Google mantiver o preço de $4,50 no GA, ele se torna a recomendação padrão para cargas de trabalho em produção na faixa de qualidade 55-58.

Próximo passo do Grok. A $1,56/M e 112 tok/s, a xAI está posicionada para capturar cargas de trabalho de processamento em lote. Qualquer aumento de qualidade acima de 55 o torna uma ameaça séria à proposta de valor do Gemini.

Muse Spark da Meta. Listado com 52,1 de qualidade, ainda sem dados de preço ou velocidade. Se a Meta precificar isso de forma agressiva como modelo aberto, a faixa abaixo de $1/M pode ficar interessante rapidamente.

Encontre o modelo certo para as restrições da sua carga de trabalho com o Seletor de LLM.

Fique por dentro

Análise semanal de LLMs direto no seu email. Sem spam.