GPT-5.4 é o modelo que a OpenAI não quer que você perceba
GPT-5.4 alcança 56.8 de qualidade a $5.63/M tokens e 90 tok/s, superando silenciosamente seus irmãos mais caros em custo-benefício.
FindLLM27 de maio de 2026
gpt-5-4openaivalue-analysismodel-comparison
O filho do meio esquecido
A linha de modelos da OpenAI tem um problema de precificação, e o GPT-5.4 (gpt-5-4) é a prova disso. Com 56.8 de qualidade e $5.63/M tokens, ele entrega 95% da qualidade do GPT-5.5 pela metade do custo. Essa proporção importa mais do que qualquer benchmark de manchete, porque a maioria das cargas de trabalho em produção é limitada por custo, não por qualidade.
A OpenAI atualmente vende cinco modelos entre os 15 primeiros do leaderboard. O esforço de marketing está claramente direcionado ao GPT-5.5 e suas variantes. Mas quando você alinha os números, o GPT-5.4 ocupa a posição mais defensável de todo o portfólio da OpenAI para equipes que precisam de qualidade geral sólida sem estourar o orçamento.
A matemática que torna o GPT-5.4 interessante
Aqui está a comparação central dentro da própria família OpenAI:
O GPT-5.4 entrega quase o dobro de qualidade-por-dólar de qualquer variante do GPT-5.5. Ele também roda a 90 tokens por segundo, o que é 25% mais rápido que os 72 tok/s do GPT-5.5 e 36% mais rápido que o GPT-5.5 (high). Para aplicações interativas onde a latência de inferência molda a experiência do usuário, essa diferença é real.
A variante GPT-5.5 (medium) é particularmente condenatória aqui. Ela marca 56.7, essencialmente idêntico aos 56.8 do GPT-5.4, mas custa exatamente o dobro e roda 24% mais devagar. Eu genuinamente não consigo construir um cenário de uso onde o GPT-5.5 (medium) seja a escolha certa em vez do GPT-5.4.
Como ele se sai fora da família OpenAI?
O cenário competitivo fica mais nuançado quando olhamos além da OpenAI. O GPT-5.4 está em uma faixa intermediária disputada onde vários modelos fortes competem.
Fique por dentro
Análise semanal de LLMs direto no seu email. Sem spam.
O Gemini 3.1 Pro Preview marca 57.2 de qualidade a $4.50/M tokens e 125 tok/s. Isso é qualidade ligeiramente superior, preço menor e throughput significativamente mais rápido. No papel, o Gemini 3.1 Pro domina o GPT-5.4 em todos os eixos. A ressalva: ainda é um modelo em preview, o que introduz incertezas sobre limites de taxa, garantias de disponibilidade e se a versão final vai manter esses números.
O Qwen3.7 Max da Alibaba marca 56.6 a $1.88/M tokens e 205 tok/s. Qualidade praticamente idêntica à do GPT-5.4 por um terço do preço e mais que o dobro do throughput. Para processamento em lote, pipelines de sumarização ou qualquer carga de trabalho onde você consome milhões de tokens diariamente, o Qwen3.7 Max é a escolha óbvia para volume.
Então por que alguém escolheria o GPT-5.4? Dois motivos. Primeiro, o ecossistema de API da OpenAI é o mais maduro da indústria. Function calling, outputs estruturados, infraestrutura de fine-tuning e uso de ferramentas funcionam com menos casos extremos. Se sua stack já é construída sobre a OpenAI, trocar de provedor para economizar $1.13/M tokens introduz risco de migração que pode não justificar a economia. Segundo, o Qwen3.7 Max roda pela infraestrutura da Alibaba, o que introduz considerações de latência e conformidade para equipes que operam sob requisitos de residência de dados dos EUA ou da UE.
Onde o GPT-5.4 fica devendo
Não vou fingir que este modelo é universalmente atraente. A diferença de 3.4 pontos de qualidade entre o GPT-5.4 (56.8) e o GPT-5.5 (60.2) não é trivial. Para cadeias de raciocínio complexas, fluxos de trabalho agênticos com múltiplas etapas ou tarefas onde alguns pontos percentuais de precisão se acumulam ao longo de dezenas de passos, essa diferença se traduz em taxas de falha significativamente maiores. Se você está construindo um agente que encadeia mais de 10 chamadas ao LLM, cada pequeno déficit de qualidade se multiplica.
A vantagem de velocidade sobre o GPT-5.5 também importa menos do que pode parecer. A 90 tok/s, o GPT-5.4 é rápido o suficiente para a maioria dos casos de uso interativos, mas está longe dos líderes de throughput. O Gemini 3.5 Flash chega a 230 tok/s. O Qwen3.7 Max atinge 205 tok/s. Se seu gargalo é throughput de geração em vez de qualidade, o GPT-5.4 não é a resposta.
O verdadeiro argumento a favor do GPT-5.4
O caso de uso para este modelo é específico: você precisa de qualidade acima de 55, já está na plataforma da OpenAI e está rodando cargas de trabalho onde o custo escala com o volume. Pense em pipelines de classificação, geração de conteúdo em escala, chat voltado ao cliente onde a qualidade precisa ser boa mas não precisa ser a melhor absoluta. A $5.63/M tokens, você pode rodar aproximadamente o dobro do volume do GPT-5.5 pelo mesmo orçamento com perda de qualidade negligível.
Para equipes que atualmente rodam o GPT-5.5 (medium) a $11.25/M, a troca é óbvia. Mesma qualidade, metade do custo, inferência mais rápida. Isso não é um trade-off. Isso é um erro de cobrança.
Para todos os demais, a decisão é mais difícil. O Gemini 3.1 Pro é mais barato e mais rápido com qualidade marginalmente superior. O Qwen3.7 Max é dramaticamente mais barato. A vantagem do GPT-5.4 é o lock-in de ecossistema, que é um fator real mas que não aparece em tabelas de benchmark.
Quem deveria usar este modelo
Se você está gastando mais de $10K/mês em chamadas à API da OpenAI e rodando variantes do GPT-5.5 para tarefas que não exigem estritamente qualidade acima de 60, o GPT-5.4 provavelmente corta sua conta pela metade. Rode uma avaliação de qualidade na sua carga de trabalho específica, compare os outputs em ambos os tiers e deixe os dados decidirem.
Se você não está preso à OpenAI, use o LLM Selector para filtrar pelas suas restrições reais. A faixa de qualidade 56–57 é concorrida, e a escolha certa depende dos seus requisitos de latência, necessidades de residência de dados e se você valoriza pesos open-source. Navegue pelo ranking completo em Explore para ver onde o GPT-5.4 se encaixa em relação ao seu modelo atual.