Qual LLM usar para aplicações em tempo real de baixa latência em junho de 2026?
Um guia prescritivo para escolher LLMs em cargas de trabalho em tempo real, onde a latência de inferência e os tokens por segundo dominam a experiência do usuário.
Para aplicações em tempo real em que os usuários aguardam cada token, use o Gemini 3.5 Flash (Google). Ele gera 212 tokens por segundo a US$3,38/1M de tokens com um índice de qualidade de 55,3, sendo o modelo mais rápido neste conjunto de dados por uma margem clara. Se você precisa de pesos abertos ou um piso de preço mais baixo, o Qwen3.7 Max (Alibaba) roda a 166 tok/s por US$1,88/1M e atinge 56,6 em qualidade.
A decisão em cargas de trabalho limitadas por latência raramente se trata de qualidade máxima. Trata-se de quão rápido o primeiro token chega e quão rápido o restante é transmitido. Os modelos de fronteira, Claude Opus 4.8 (Anthropic) a 58 tok/s e GPT-5.5 (OpenAI) a 64 tok/s, são lentos demais para agentes de voz, autocompletar ou sobreposições de transcrição ao vivo. Você paga mais e espera mais por uma qualidade marginal.
O que "tempo real" realmente exige
Tokens por segundo determina o teto da responsividade percebida assim que a geração começa. Um agente de voz gerando uma resposta de 150 tokens a 58 tok/s leva cerca de 2,6 segundos para terminar de falar. A 212 tok/s, a mesma resposta chega em 0,7 segundos. Essa diferença é o que separa uma conversa utilizável de uma que os usuários abandonam.
Para interfaces interativas (busca enquanto se digita, sugestões em linha, chat com transmissão), eu dou peso elevado à velocidade e trato a qualidade como um piso, não como uma meta. Um modelo que atinge 55 e transmite a 212 tok/s vai superar um modelo que atinge 61 a 58 tok/s em quase todo produto em tempo real.
As três principais escolhas para cargas de trabalho limitadas por latência
| Modelo | Qualidade | Preço/1M | Velocidade | Pesos abertos |
|---|---|---|---|---|
| Gemini 3.5 Flash | 55,3 | US$3,38 | 212 tok/s | Não |
| Qwen3.7 Max | 56,6 | US$1,88 | 166 tok/s | Sim |
| Gemini 3.1 Pro Preview | 57,2 | US$4,50 | 126 tok/s | Não |
O Gemini 3.5 Flash vence em throughput bruto. É o modelo que eu busco primeiro quando a latência de transmissão é a principal restrição e a carga de trabalho tolera um índice de qualidade na faixa de 55.
O Qwen3.7 Max é a jogada de custo-benefício. A US$1,88/1M, custa aproximadamente metade do preço do Gemini 3.5 Flash, atinge uma pontuação ligeiramente maior (56,6 contra 55,3) e abre mão de cerca de 22% do throughput. Para pipelines de alto volume combinando processamento em lote e interativo, onde o custo se acumula, essa troca favorece o Qwen. Pesos abertos também significam que você pode hospedar por conta própria e eliminar completamente as idas e voltas pela rede.
O Gemini 3.1 Pro Preview é a opção quando a qualidade importa mais, mas você ainda se recusa a cair abaixo de 100 tok/s. A 126 tok/s e com índice de qualidade de 57,2, ele fica entre a faixa rápida e a fronteira lenta. Custa mais por token que o Qwen, mas oferece a maior qualidade entre os modelos que permanecem genuinamente rápidos.
Tabela de decisão
| Cenário | Use isto | Por quê |
|---|---|---|
| Agentes de voz, transcrição ao vivo | Gemini 3.5 Flash | 212 tok/s mantém respostas faladas abaixo de um segundo |
| Produto interativo sensível a custo em escala | Qwen3.7 Max | US$1,88/1M e 166 tok/s; pesos abertos reduzem o custo de hospedagem |
| Auto-hospedado, sem latência de API externa | Qwen3.7 Max | Pesos abertos eliminam as idas e voltas pela rede |
| Qualidade mais alta sem cair abaixo de 100 tok/s | Gemini 3.1 Pro Preview | 126 tok/s com qualidade de 57,2 |
| Autocompletar / sugestões em linha | Gemini 3.5 Flash | O throughput domina a experiência de conclusões curtas |
Os trade-offs que eu não ignoraria
Os números de velocidade descrevem a geração em estado estável, não o tempo até o primeiro token. A distância de rede até o provedor e o comprimento do prompt adicionam latência antes que o primeiro token seja transmitido. Se seus usuários estão longe dos endpoints do Google ou da Alibaba, uma implantação auto-hospedada do Qwen3.7 Max próxima ao seu tráfego pode superar um modelo mais rápido servido do outro lado do mundo.
Qualidade na faixa de 55 é adequada para respostas conversacionais, classificação e saída estruturada curta. Não é adequada para raciocínio de múltiplas etapas ou geração de código, onde os erros se acumulam em cascata. Se sua carga de trabalho em tempo real inclui qualquer um desses, direcione essas requisições para um modelo de maior qualidade e aceite o impacto na latência apenas nesse caminho. Dividir o tráfego por tarefa supera forçar um único modelo a fazer tudo.
O preço importa mais quando as repetições dominam. Um modelo de 212 tok/s que precisa de reenvios frequentes de prompts pode custar mais na prática do que um mais lento e mais confiável. Meça sua taxa real de repetições antes de se comprometer.
Minha recomendação
Use o Gemini 3.5 Flash como padrão para produtos em tempo real em que a latência de transmissão é a restrição dominante. Migre para o Qwen3.7 Max quando o custo em escala ou a auto-hospedagem prevalecerem, e você puder absorver a queda de throughput. Recorra ao Gemini 3.1 Pro Preview apenas quando precisar da qualidade extra e se recusar a ficar abaixo de 100 tok/s.
Compare throughput e preço para o seu próprio mix de tráfego no LLM Selector, ou explore o panorama completo em Explore.
Fique por dentro
Análise semanal de LLMs direto no seu email. Sem spam.