Qwen3.7 Max atinge qualidade 56.6 a $1.88/M enquanto a guerra de valor no segmento intermediário se intensifica
Claude Opus 4.8 e GPT-5.5 ancoram o topo do ranking enquanto Qwen, Gemini e GPT-5.4 remodelam o segmento de $5/M.
O topo está definido, o intermediário é onde está a ação
Claude Fable 5 ainda detém a coroa de qualidade em 64.9, mas a $20/M é uma ferramenta especializada, não uma opção padrão. Abaixo dele, a verdadeira disputa é entre Claude Opus 4.8 com qualidade 61.4 / $10/M e GPT-5.5 em 60.2 / $11.25. O gap de qualidade de 1.2 ponto custa 12.5% mais por milhão de tokens, e o Opus 4.8 é 12 tok/s mais lento. Para a maioria dos pipelines de produção, é praticamente um empate.
A história interessante está na faixa de qualidade 55–57, onde cinco modelos competem com trade-offs radicalmente diferentes.
O segmento de $5/M agora está lotado
| Modelo | Qualidade | Preço | Velocidade |
|---|---|---|---|
| Gemini 3.1 Pro Preview | 57.2 | $4.50 | 142 tok/s |
| GPT-5.4 | 56.8 | $5.63 | 203 tok/s |
| Qwen3.7 Max | 56.6 | $1.88 | 199 tok/s |
| Gemini 3.5 Flash | 55.3 | $3.38 | 227 tok/s |
Qwen3.7 Max é o destaque. A $1.88/M, ele é 67% mais barato que o Gemini 3.1 Pro Preview por 0.6 ponto de qualidade e 40% mais throughput. É também o único modelo open-source neste tier, implantável na sua própria infra se o preço por token ainda parecer alto demais.
Velocidade vs custo: escolha o seu veneno
Se latência importa, o Gemini 3.5 Flash a 227 tok/s é o modelo de produção mais rápido do dataset. A $3.38/M, ele fica 40% mais barato que o GPT-5.4 enquanto roda 12% mais rápido, embora você perca 1.5 ponto de qualidade.
Para jobs em batch onde o custo domina, MiniMax M3 a $0.52/M e MiMo-V2.5-Pro a $0.54/M ambos passam de 53 de qualidade. Não é fronteira, mas é suficiente para camadas de classificação, extração e roteamento onde o topo seria exagero.
Open source agora é uma opção real em qualidade 56+
Kimi K2.6 e Qwen3.7 Max são os únicos modelos open-weight acima de 53 de qualidade. Os 56.6 do Qwen3.7 Max o colocam a 4.8 pontos do Opus 4.8, um gap que diminui ainda mais quando você considera a economia do self-hosting. Para times que já rodam infra de GPU, o custo de inferência cai para eletricidade e amortização.
O que acompanhar
- Se a OpenAI responde ao preço da Qwen. O GPT-5.5 (medium) com qualidade 56.7 por $11.25 parece encurralado entre o GPT-5.4 e o GPT-5.5 completo.
- O Gemini 3.1 Pro Preview saindo do preview e fixando seu preço de $4.50.
- Qualquer lançamento open-source acima de 58 de qualidade. Isso comprimiria o poder de precificação do topo.
Para a maioria das cargas de trabalho desta semana, o Qwen3.7 Max é a escolha. Para pipelines sensíveis a latência, o Gemini 3.5 Flash. Para qualidade de topo sem o premium do Fable 5, o Claude Opus 4.8.
Use o LLM Selector para filtrar pelas suas restrições reais de throughput e orçamento.
Fique por dentro
Análise semanal de LLMs direto no seu email. Sem spam.