Gemini 3.1 Pro iguala a qualidade do Claude Opus 4.7 por menos da metade do preço
O Gemini 3.1 Pro Preview do Google chega a apenas 0,1 ponto do Claude Opus 4.7, custando $4,50 contra $10,00/M tokens. Além disso: Grok 4.3 se destaca como a escolha de melhor custo-benefício em velocidade.
A diferença entre preço e qualidade está desmoronando na faixa intermediária
O Gemini 3.1 Pro Preview (Google) agora marca 57,2 no índice de qualidade — apenas 0,1 ponto atrás do Claude Opus 4.7 (Anthropic), que está em 57,3. A diferença de custo: $4,50 vs $10,00 por milhão de tokens. Com 131 tok/s contra 59 tok/s, o Gemini também entrega inferência mais de duas vezes mais rápido. Para qualquer carga de trabalho em que você não precisa extrair até a última fração de qualidade, o argumento econômico a favor do Claude Opus nessa faixa se enfraqueceu significativamente.
O ranking desta semana
| Modelo | Qualidade | Preço/M | Velocidade | Melhor para |
|---|---|---|---|---|
| GPT-5.5 | 60,2 | $11,25 | 75 tok/s | Qualidade máxima, sem restrição de custo |
| Claude Opus 4.7 | 57,3 | $10,00 | 59 tok/s | Lock-in no ecossistema Anthropic |
| Gemini 3.1 Pro Preview | 57,2 | $4,50 | 131 tok/s | Produção com alto throughput |
| Grok 4.3 | 53,2 | $1,56 | 112 tok/s | Alto volume, custo restrito |
Grok 4.3 é o destaque silencioso
O Grok 4.3 (xAI) está em 53,2 de qualidade, $1,56/M tokens e 112 tok/s. Isso é mais rápido que o GPT-5.5 e mais barato que quase tudo acima dele. A diferença de qualidade para o Gemini 3.1 Pro é de 4 pontos, o que importa para cadeias de raciocínio complexas. Mas para tarefas de classificação, extração e saída estruturada onde uma qualidade acima de 53 é suficiente, o Grok entrega o melhor custo-benefício em tokens por dólar com alto throughput. Menos retentativas a 112 tok/s significa ciclos de iteração mais curtos em arquiteturas de agentes.
A categoria open-source
O Kimi K2.6 (MoonshotAI) lidera os modelos de pesos abertos com 53,9 de qualidade e $1,43/M tokens, embora a latência de inferência de 31 tok/s limite seu uso em aplicações em tempo real. O Qwen3.6 Max Preview (Alibaba) oferece 51,8 de qualidade a $2,92/M — quase o dobro do preço do Kimi para uma qualidade inferior. Para implantações self-hosted onde você controla a stack de inferência, o Kimi K2.6 é a escolha clara se você conseguir tolerar a restrição de throughput.
Fique por dentro
Análise semanal de LLMs direto no seu email. Sem spam.