Ir para o conteúdo principal
Voltar ao Blog

Qwen3.7 Max atinge qualidade 56.6 a $1.88/M enquanto a guerra de valor no segmento intermediário se intensifica

Claude Opus 4.8 e GPT-5.5 ancoram o topo do ranking enquanto Qwen, Gemini e GPT-5.4 remodelam o segmento de $5/M.

FindLLM15 de junho de 2026
weekly-briefingllm-marketvalue-comparison

O topo está definido, o intermediário é onde está a ação

Claude Fable 5 ainda detém a coroa de qualidade em 64.9, mas a $20/M é uma ferramenta especializada, não uma opção padrão. Abaixo dele, a verdadeira disputa é entre Claude Opus 4.8 com qualidade 61.4 / $10/M e GPT-5.5 em 60.2 / $11.25. O gap de qualidade de 1.2 ponto custa 12.5% mais por milhão de tokens, e o Opus 4.8 é 12 tok/s mais lento. Para a maioria dos pipelines de produção, é praticamente um empate.

A história interessante está na faixa de qualidade 55–57, onde cinco modelos competem com trade-offs radicalmente diferentes.

O segmento de $5/M agora está lotado

ModeloQualidadePreçoVelocidade
Gemini 3.1 Pro Preview57.2$4.50142 tok/s
GPT-5.456.8$5.63203 tok/s
Qwen3.7 Max56.6$1.88199 tok/s
Gemini 3.5 Flash55.3$3.38227 tok/s

Qwen3.7 Max é o destaque. A $1.88/M, ele é 67% mais barato que o Gemini 3.1 Pro Preview por 0.6 ponto de qualidade e 40% mais throughput. É também o único modelo open-source neste tier, implantável na sua própria infra se o preço por token ainda parecer alto demais.

Comparação de qualidade

Velocidade vs custo: escolha o seu veneno

Se latência importa, o Gemini 3.5 Flash a 227 tok/s é o modelo de produção mais rápido do dataset. A $3.38/M, ele fica 40% mais barato que o GPT-5.4 enquanto roda 12% mais rápido, embora você perca 1.5 ponto de qualidade.

Para jobs em batch onde o custo domina, MiniMax M3 a $0.52/M e MiMo-V2.5-Pro a $0.54/M ambos passam de 53 de qualidade. Não é fronteira, mas é suficiente para camadas de classificação, extração e roteamento onde o topo seria exagero.

Velocidade de saída

Open source agora é uma opção real em qualidade 56+

Kimi K2.6 e Qwen3.7 Max são os únicos modelos open-weight acima de 53 de qualidade. Os 56.6 do Qwen3.7 Max o colocam a 4.8 pontos do Opus 4.8, um gap que diminui ainda mais quando você considera a economia do self-hosting. Para times que já rodam infra de GPU, o custo de inferência cai para eletricidade e amortização.

O que acompanhar

  • Se a OpenAI responde ao preço da Qwen. O GPT-5.5 (medium) com qualidade 56.7 por $11.25 parece encurralado entre o GPT-5.4 e o GPT-5.5 completo.
  • O Gemini 3.1 Pro Preview saindo do preview e fixando seu preço de $4.50.
  • Qualquer lançamento open-source acima de 58 de qualidade. Isso comprimiria o poder de precificação do topo.

Para a maioria das cargas de trabalho desta semana, o Qwen3.7 Max é a escolha. Para pipelines sensíveis a latência, o Gemini 3.5 Flash. Para qualidade de topo sem o premium do Fable 5, o Claude Opus 4.8.

Use o LLM Selector para filtrar pelas suas restrições reais de throughput e orçamento.

Fique por dentro

Análise semanal de LLMs direto no seu email. Sem spam.