O modelo de $3,38 que gera 227 tokens por segundo e ainda pontua 55,3

O Gemini 3.5 Flash entrega 227 tok/s a $3,38/M tokens com uma pontuação de qualidade de 55,3. Comparei-o com as variantes do GPT-5.5 e o MiMo-V2.5-Pro.

FindLLMMay 23, 2026

gemini-3-5-flashgpt-5-5cost-efficiencyinference-speedmodel-comparison

A faixa de velocidade tem um novo teto de qualidade

O Gemini 3.5 Flash (Google) pontua 55,3 no índice de qualidade enquanto gera 227 tokens por segundo a $3,38/M tokens. Essa combinação não existe em nenhum outro lugar no cenário atual de modelos. O concorrente mais próximo em velocidade é o Gemini 3.1 Pro Preview com 135 tok/s, que custa $4,50/M e pontua 57,2. Todas as variantes do GPT-5.5 custam $11,25/M e rodam entre 59–63 tok/s. Se sua carga de trabalho é sensível a latência, restrita em custo, ou ambos, o Gemini 3.5 Flash é o modelo a ser avaliado primeiro.

O que 227 tok/s realmente significa para cargas de trabalho em produção

Números brutos de throughput importam mais quando se acumulam. A 227 tok/s, o Gemini 3.5 Flash gera uma resposta de 1.000 tokens em cerca de 4,4 segundos. O GPT-5.5 (high) leva aproximadamente 15,9 segundos para a mesma saída a 63 tok/s. O GPT-5.5 (medium) é ainda mais lento a 59 tok/s.

Para aplicações voltadas ao usuário — chatbots, autocomplete, sumarização de busca — essa diferença é o que separa um produto responsivo de um lento. Para pipelines de inferência em lote processando milhões de requisições, é a diferença entre um job de 4 horas e um de 15 horas. E como o Gemini 3.5 Flash custa $3,38/M tokens contra $11,25/M de qualquer variante do GPT-5.5, você paga aproximadamente 70% menos por token enquanto termina 3,6× mais rápido.

Comparação de velocidade

A diferença de qualidade é real, mas menor que a diferença de preço

Não vou fingir que 55,3 equivale a 58,9. O GPT-5.5 (high) pontua 3,6 pontos acima no índice de qualidade, e para tarefas onde melhorias marginais de qualidade se traduzem diretamente em valor de negócio — revisão de documentos jurídicos, sumarização médica, raciocínio complexo em múltiplas etapas — essa diferença importa.

Mas olhe para a economia. O GPT-5.5 (high) custa 3,3× mais por milhão de tokens para uma melhoria de 6,5% na qualidade. O GPT-5.5 (medium) pontua 56,7, apenas 1,4 pontos acima do Gemini 3.5 Flash, e ainda assim custa 3,3× mais e roda a aproximadamente um quarto da velocidade. A faixa medium é a mais difícil de justificar: você paga o preço integral do GPT-5.5 por uma qualidade que mal se diferencia do Flash.

Modelo	Qualidade	Preço/M tokens	Velocidade	Qualidade por dólar
GPT-5.5 (high)	58,9	$11,25	63 tok/s

Stay in the loop

Weekly LLM analysis delivered to your inbox. No spam.

O modelo de $3,38 que gera 227 tokens por segundo e ainda pontua 55,3

A faixa de velocidade tem um novo teto de qualidade

O que 227 tok/s realmente significa para cargas de trabalho em produção

A diferença de qualidade é real, mas menor que a diferença de preço

Stay in the loop

Onde o Gemini 3.5 Flash fica devendo

O problema de fragmentação do GPT-5.5

Quem deve usar o quê