A OpenAI cobra $11,25/M tokens pelo GPT-5.5 independentemente de você selecionar o nível de raciocínio high ou medium. O nível high pontua 58,9 no índice de qualidade; o medium pontua 56,7. Essa diferença de 2,2 pontos, com preço idêntico, significa que cada chamada no nível medium está deixando qualidade na mesa sem nenhuma economia de custo. A pergunta interessante não é qual nível escolher (obviamente high, se o preço é o mesmo). É se os níveis do GPT-5.5 justificam seu preço quando modelos mais baratos se agrupam logo abaixo deles.
A diferença entre níveis em contexto
Vamos ser precisos sobre o que 2,2 pontos de qualidade significam. O GPT-5.5 (high) com 58,9 fica 1,3 ponto abaixo do GPT-5.5 padrão com 60,2. O GPT-5.5 (medium) com 56,7 fica bem ao lado do GPT-5.4, que pontua 56,8 pela metade do preço ($5,63/M tokens). Esse é o ponto central: o GPT-5.5 no nível medium entrega qualidade equivalente ao GPT-5.4 pelo dobro do custo.
A história de velocidade reforça isso. O high roda a 67 tok/s, o medium a 62 tok/s. Nenhum dos dois é rápido pelos padrões atuais. O Gemini 3.1 Pro Preview atinge 132 tok/s com 57,2 de qualidade e $4,50/M tokens. Se sua carga de trabalho é sensível à latência, os níveis do GPT-5.5 são difíceis de justificar em qualquer eixo.
Análise semanal de LLMs direto no seu email. Sem spam.
O nível high faz sentido exatamente quando você precisa da melhor qualidade que a OpenAI oferece abaixo do modo padrão, e você já está comprometido com a faixa de preço do GPT-5.5. Pense em cadeias complexas de raciocínio com múltiplas etapas, onde você quer desempenho forte mas pode tolerar fidelidade ligeiramente menor que o padrão. A queda de 1,3 ponto do padrão para o high pode ser aceitável para pipelines de avaliação em lote, onde você está executando milhares de chamadas e quer reduzir um pouco o tempo de computação (o high é 3 tok/s mais lento que o padrão, o que se acumula em escala, mas de forma modesta).
O nível medium, por outro lado, não tem caso de uso óbvio a $11,25/M. Com 56,7 de qualidade, é estatisticamente equivalente ao GPT-5.4 (56,8), que custa $5,63/M e roda a 90 tok/s contra os 62 tok/s do medium. Se você está construindo uma aplicação que tolera qualidade entre 56-57, deveria estar chamando o GPT-5.4 e embolsando a diferença de $5,62/M. Em escala, isso não é trivial. Uma carga de trabalho processando 100M tokens por mês economiza $562.000 por ano ao trocar do GPT-5.5 medium para o GPT-5.4.
A alternativa econômica de que ninguém está falando
O Xiaomi MiMo-V2.5-Pro (mimo-v2-5-pro) merece atenção aqui. Com 53,8 de qualidade e $1,50/M tokens, ele entrega 91% da qualidade do GPT-5.5 medium a 13% do custo. A velocidade é comparável: 65 tok/s contra 62 tok/s. Para cargas de trabalho onde qualidade na faixa baixa a média dos 50 é suficiente — classificação de conteúdo, sumarização, extração em primeira passagem — o MiMo-V2.5-Pro é 7,5x mais barato por token que qualquer nível do GPT-5.5.
Ele não é open source, o que limita a flexibilidade de implantação em comparação com o Kimi K2.6 (53,9 de qualidade, $1,72/M, 138 tok/s, open source). Mas o MiMo-V2.5-Pro é $0,22/M mais barato que o Kimi, igualando-o em qualidade com diferença de um décimo de ponto. O trade-off é velocidade: o Kimi K2.6 roda com mais que o dobro do throughput a 138 tok/s. Para aplicações críticas em latência, o Kimi vence. Para processamento em lote otimizado por custo, o MiMo leva vantagem.
O problema de precificação da OpenAI
A questão mais profunda é que a abordagem de raciocínio em níveis da OpenAI cria uma proposta de valor confusa. Cobrar os mesmos $11,25/M nos modos padrão, high e medium significa que os usuários não têm incentivo econômico para escolher níveis inferiores. A única razão para selecionar o medium seria se ele consumisse menos tokens de raciocínio internamente, reduzindo o custo efetivo por consulta. Mas do ponto de vista da precificação da API, o preço de tabela é idêntico. Isso torna o medium uma armadilha para qualquer pessoa que não faça benchmark cuidadoso da sua carga de trabalho específica contra alternativas mais baratas.
Compare isso com a forma como o mercado se estratificou. O Google oferece 57,2 de qualidade a $4,50/M com 132 tok/s de throughput. Isso é melhor qualidade que o GPT-5.5 medium, 2,5x mais barato e mais de 2x mais rápido. Os únicos modelos que justificam a faixa de preço acima de $10 são aqueles pontuando acima de 57: GPT-5.5 padrão (60,2), GPT-5.5 high (58,9) e Claude Opus 4.7 (57,3 a $10,00/M). Abaixo desse limiar, o mercado oferece uma relação preço-desempenho dramaticamente melhor.
A recomendação
Se você já está no GPT-5.5, use sempre o nível padrão ou high. O medium é estritamente dominado pelo GPT-5.4 em todas as métricas que importam. Se você está avaliando se deve usar o GPT-5.5, o cálculo depende de você precisar de qualidade acima de 57. Se sim, o GPT-5.5 high com 58,9 é o segundo melhor modelo disponível e vale o premium. Se seu limiar de qualidade está na faixa de 53-57, pule toda a família GPT-5.5 e olhe para o GPT-5.4 ($5,63/M), Gemini 3.1 Pro Preview ($4,50/M) ou, para cargas de trabalho econômicas, o MiMo-V2.5-Pro ($1,50/M).
Use o Seletor de LLM para filtrar pelo seu piso de qualidade e teto de orçamento, ou navegue pelo ranking completo em Explorar. O modelo certo não é aquele com a maior pontuação; é aquele em que você para de pagar por qualidade que não usa.