Kimi K2.6 alcança 53.9 a $1.48/M tokens — e isso muda quem você deve escolher para cargas de trabalho intermediárias

O Kimi K2.6 da MoonshotAI entrega qualidade próxima ao GPT-5.3-Codex por menos de um terço do preço. Analisamos quando ele vence e quando não vence.

FindLLMApril 27, 2026

kimi-k2-6gpt-5-3-codexqwen3-6-maxcost-efficiencymodel-comparison

O Kimi K2.6 (MoonshotAI) registra um índice de qualidade de 53.9 a $1.48/M tokens, o que o torna o modelo mais barato acima da linha dos 53 pontos por uma margem considerável. Seu par mais próximo em qualidade, o GPT-5.3-Codex (OpenAI), custa $4.81/M — mais de três vezes mais — por um score de qualidade de 53.6 que é funcionalmente indistinguível. Se a sua carga de trabalho tolera o teto de qualidade de qualquer um dos dois modelos, a diferença de preço é toda a história. Mas "tolera" está fazendo um trabalho pesado nessa frase, e os detalhes importam.

O segmento intermediário é onde vive a maior parte do tráfego de produção

Modelos de fronteira como o Claude Opus 4.7 (57.3 de qualidade, $10.00/M) e o Gemini 3.1 Pro Preview (57.2 de qualidade, $4.50/M) dominam as manchetes. E merecem. Mas um modelo de 57 pontos é exagero para classificação, extração, sumarização, chat de complexidade moderada e a maioria dos pipelines de RAG. A faixa de qualidade entre 50 e 54 é onde os times despacham volume, e a economia dessa faixa determina se uma funcionalidade é viável em escala ou morre numa revisão de custos.

Três modelos agora competem seriamente nessa faixa com perfis de custo-velocidade significativamente diferentes: Kimi K2.6, GPT-5.3-Codex e Qwen3.6 Max Preview (Alibaba). Veja como eles se comparam.

Modelo	Qualidade	Preço/M tokens	Velocidade	Open source
Kimi K2.6	53.9	$1.48	135 tok/s	Não
GPT-5.3-Codex	53.6	$4.81	91 tok/s	Não
Qwen3.6 Max Preview	51.8	$2.93	62 tok/s	Sim

O Kimi K2.6 vence na economia de throughput, não apenas no preço

O valor de $1.48/M já é impressionante por si só. Mas combine isso com 135 tokens por segundo — a inferência mais rápida nesta comparação, e mais rápida que todos os modelos do ranking exceto o Gemini 3.1 Pro Preview com 130 tok/s — e o cenário operacional muda. Alto throughput a baixo custo significa tempos de fila menores para jobs em lote, ciclos de iteração mais curtos durante a engenharia de prompts e menor latência p99 sob carga.

O GPT-5.3-Codex roda a 91 tok/s. É respeitável, mas para um pipeline síncrono lidando com milhares de requisições concorrentes, a vantagem de velocidade de 48% do Kimi K2.6 se acumula em economias reais de infraestrutura. Menos conexões abertas, rotatividade de slots mais rápida, menos compute-seconds por requisição.

Stay in the loop

Weekly LLM analysis delivered to your inbox. No spam.

Kimi K2.6 alcança 53.9 a $1.48/M tokens — e isso muda quem você deve escolher para cargas de trabalho intermediárias

O segmento intermediário é onde vive a maior parte do tráfego de produção

O Kimi K2.6 vence na economia de throughput, não apenas no preço

Stay in the loop

Onde o GPT-5.3-Codex ainda justifica seu preço premium

A verdadeira questão é se você precisa de 53 pontos

Quando escolher cada modelo