O modelo de $3,38 que gera 227 tokens por segundo e ainda pontua 55,3
O Gemini 3.5 Flash entrega 227 tok/s a $3,38/M tokens com uma pontuação de qualidade de 55,3. Comparei-o com as variantes do GPT-5.5 e o MiMo-V2.5-Pro.
A faixa de velocidade tem um novo teto de qualidade
O Gemini 3.5 Flash (Google) pontua 55,3 no índice de qualidade enquanto gera 227 tokens por segundo a $3,38/M tokens. Essa combinação não existe em nenhum outro lugar no cenário atual de modelos. O concorrente mais próximo em velocidade é o Gemini 3.1 Pro Preview com 135 tok/s, que custa $4,50/M e pontua 57,2. Todas as variantes do GPT-5.5 custam $11,25/M e rodam entre 59–63 tok/s. Se sua carga de trabalho é sensível a latência, restrita em custo, ou ambos, o Gemini 3.5 Flash é o modelo a ser avaliado primeiro.
O que 227 tok/s realmente significa para cargas de trabalho em produção
Números brutos de throughput importam mais quando se acumulam. A 227 tok/s, o Gemini 3.5 Flash gera uma resposta de 1.000 tokens em cerca de 4,4 segundos. O GPT-5.5 (high) leva aproximadamente 15,9 segundos para a mesma saída a 63 tok/s. O GPT-5.5 (medium) é ainda mais lento a 59 tok/s.
Para aplicações voltadas ao usuário — chatbots, autocomplete, sumarização de busca — essa diferença é o que separa um produto responsivo de um lento. Para pipelines de inferência em lote processando milhões de requisições, é a diferença entre um job de 4 horas e um de 15 horas. E como o Gemini 3.5 Flash custa $3,38/M tokens contra $11,25/M de qualquer variante do GPT-5.5, você paga aproximadamente 70% menos por token enquanto termina 3,6× mais rápido.
A diferença de qualidade é real, mas menor que a diferença de preço
Não vou fingir que 55,3 equivale a 58,9. O GPT-5.5 (high) pontua 3,6 pontos acima no índice de qualidade, e para tarefas onde melhorias marginais de qualidade se traduzem diretamente em valor de negócio — revisão de documentos jurídicos, sumarização médica, raciocínio complexo em múltiplas etapas — essa diferença importa.
Mas olhe para a economia. O GPT-5.5 (high) custa 3,3× mais por milhão de tokens para uma melhoria de 6,5% na qualidade. O GPT-5.5 (medium) pontua 56,7, apenas 1,4 pontos acima do Gemini 3.5 Flash, e ainda assim custa 3,3× mais e roda a aproximadamente um quarto da velocidade. A faixa medium é a mais difícil de justificar: você paga o preço integral do GPT-5.5 por uma qualidade que mal se diferencia do Flash.
A qualidade por dólar conta uma história contundente. O Gemini 3.5 Flash entrega 3,1× mais qualidade por dólar do que o GPT-5.5 (high). O MiMo-V2.5-Pro (Xiaomi) vai ainda mais longe com 35,87 de qualidade por dólar, mas a 54 tok/s e uma pontuação de qualidade de 53,8, ele ocupa um nicho diferente: trabalho em lote de alto volume e tolerante a qualidade, onde cada fração de centavo importa.
Onde o Gemini 3.5 Flash fica devendo
Vantagens de velocidade e custo se deterioram quando seu modo de falha envolve retentativas motivadas por qualidade. Se um modelo produz uma resposta inutilizável 10% das vezes e você precisa re-executar, seu custo efetivo inclui essas retentativas. Um modelo com pontuação 58,9 que falha menos frequentemente em prompts complexos pode acabar sendo mais barato na prática do que um modelo com 55,3 que precisa de mais passagens.
Também não consigo avaliar o Gemini 3.5 Flash especificamente em codificação ou saída estruturada — o índice de qualidade é um composto, e o detalhamento dos benchmarks subjacentes não está disponível aqui. Se seu pipeline depende fortemente de saída JSON estruturada ou geração de código multi-arquivo, a pontuação agregada pode não refletir sua experiência real.
O Qwen3.7 Max (Alibaba) é outra incógnita. Ele pontua 56,6 — acima do Flash — e é open source. Mas sem dados publicados de preço ou velocidade, é impossível fazer uma comparação operacional. Se você consegue hospedar por conta própria e seus custos de infraestrutura ficam abaixo do equivalente a $3,38/M, o Qwen3.7 Max pode ser a melhor aposta. Esse é um "se" significativo.
O problema de fragmentação do GPT-5.5
A OpenAI agora oferece três faixas do GPT-5.5: o base com qualidade 60,2, high com 58,9 e medium com 56,7. Todos os três custam $11,25/M tokens. As diferenças de velocidade são marginais (59–63 tok/s). Essa estrutura de preços é intrigante. O medium entrega 5,8% menos qualidade que o modelo base pelo mesmo preço e praticamente a mesma velocidade. A menos que haja uma vantagem de latência ou limite de taxa não capturada nos números de throughput, é difícil construir um cenário onde o medium seja a escolha certa em vez do base.
Essa fragmentação torna a proposta de valor da família GPT-5.5 mais difícil de articular. Você está escolhendo entre três faixas de qualidade com custo idêntico, enquanto o Google oferece um modelo que pontua a 1,4 pontos do GPT-5.5 (medium) por menos de um terço do preço e com quase 4× o throughput.
Quem deve usar o quê
Para produção crítica em latência e sensível a custo: Gemini 3.5 Flash. O throughput de 227 tok/s e o preço de $3,38/M fazem dele a escolha padrão para aplicações em tempo real, sumarização de alto volume e qualquer pipeline onde você está otimizando custo com qualidade aceitável.
Para máxima qualidade independente do orçamento: GPT-5.5 base (60,2) ou GPT-5.5 (high) com 58,9, ambos a $11,25/M. Escolha esses quando a tarefa exige a maior qualidade composta possível e você pode absorver o custo e a latência.
Para processamento em lote econômico: MiMo-V2.5-Pro a $1,50/M tokens. A pontuação de qualidade de 53,8 é adequada para classificação, extração e outras tarefas com critérios de sucesso bem definidos. A velocidade de 54 tok/s é lenta, mas jobs em lote se importam com custo por token, não com tempo até o primeiro token.
Para auto-hospedagem: Qwen3.7 Max com qualidade 56,6 é a opção open source mais forte nessa faixa, mas você precisa de seus próprios benchmarks no seu próprio hardware antes de se comprometer.
Use o LLM Selector para filtrar por suas restrições específicas de velocidade, qualidade e preço, ou navegue pelo ranking completo em Explore.