Gemini 3.1 Pro se mantém em $4,50 enquanto variantes do GPT-5.5 fragmentam o topo do ranking
Briefing semanal de LLMs: GPT-5.5 lidera em qualidade, mas três níveis de esforço complicam o cenário. Gemini 3.1 Pro continua sendo a melhor relação custo-benefício. Kimi K2.6 é mais barato que todos.
O problema dos três níveis do GPT-5.5
O GPT-5.5 (OpenAI) ainda lidera em qualidade com 60,2, mas a diferença entre seus níveis de esforço default, high e medium já é visível o suficiente para importar. O GPT-5.5 (high) marca 58,9, o GPT-5.5 (medium) cai para 56,7, e os três custam os mesmos $11,25/M tokens. Essa estrutura de preços não faz sentido para cargas de trabalho em produção. Se você está rodando no nível medium, está pagando o dobro em relação ao GPT-5.4 a $5,63/M por uma qualidade praticamente idêntica (56,7 vs 56,8). A menos que você precise dos 60,2 completos do nível default, o GPT-5.4 é a escolha racional dentro da linha OpenAI.
Onde o custo-benefício realmente está
O meio da tabela conta a verdadeira história desta semana. Três modelos se agrupam entre 53 e 54 de qualidade em faixas de preço radicalmente diferentes:
| Modelo | Qualidade | Preço/M tokens | Velocidade | Open source |
|---|---|---|---|---|
| Gemini 3.1 Pro Preview | 57,2 | $4,50 | 133 tok/s | Não |
| Kimi K2.6 | 53,9 | $1,42 | 44 tok/s | Sim |
| Grok 4.3 | 53,2 | $1,56 | 116 tok/s | Não |
| MiMo-V2.5-Pro | 53,8 | $1,50 | 57 tok/s | Não |
O Kimi K2.6 (MoonshotAI) a $1,42/M é o modelo mais barato no top 15 e a única opção open-source com qualidade acima de 53. Para inferência em lote onde a latência não é o fator dominante, é difícil argumentar contra. O throughput de 44 tok/s é o trade-off: loops de iteração rápidos vão parecer lentos.
O Grok 4.3 (xAI) oferece um perfil diferente. Com 116 tok/s e $1,56/M, é o modelo mais rápido abaixo de $2 por uma margem ampla. Se seu pipeline é sensível a latência e tem restrição de custo, o Grok 4.3 é a escolha acertada em vez do Kimi, apesar da diferença de 0,7 ponto em qualidade.
Gemini 3.1 Pro continua no meio-termo incômodo
O Gemini 3.1 Pro Preview com 57,2 de qualidade e 133 tok/s continua ocupando uma posição estranha: está 0,4 ponto atrás do por menos da metade do preço, e é o modelo mais rápido de todo o topo do ranking. Para cargas de trabalho onde throughput importa mais do que espremer o último ponto de qualidade, o Gemini 3.1 Pro é a melhor opção abaixo de $5/M tokens. Cobri isso em detalhe na semana passada, mas a conta não mudou porque nada mais se moveu.
Stay in the loop
Weekly LLM analysis delivered to your inbox. No spam.