Qual LLM usar para aplicações em tempo real de baixa latência em junho de 2026?

Um guia prescritivo para escolher LLMs em cargas de trabalho em tempo real, onde a latência de inferência e os tokens por segundo dominam a experiência do usuário.

FindLLM12 de junho de 2026

low-latencyreal-timeinferencemodel-selection

Para aplicações em tempo real em que os usuários aguardam cada token, use o Gemini 3.5 Flash (Google). Ele gera 212 tokens por segundo a US$3,38/1M de tokens com um índice de qualidade de 55,3, sendo o modelo mais rápido neste conjunto de dados por uma margem clara. Se você precisa de pesos abertos ou um piso de preço mais baixo, o Qwen3.7 Max (Alibaba) roda a 166 tok/s por US$1,88/1M e atinge 56,6 em qualidade.

A decisão em cargas de trabalho limitadas por latência raramente se trata de qualidade máxima. Trata-se de quão rápido o primeiro token chega e quão rápido o restante é transmitido. Os modelos de fronteira, Claude Opus 4.8 (Anthropic) a 58 tok/s e GPT-5.5 (OpenAI) a 64 tok/s, são lentos demais para agentes de voz, autocompletar ou sobreposições de transcrição ao vivo. Você paga mais e espera mais por uma qualidade marginal.

O que "tempo real" realmente exige

Tokens por segundo determina o teto da responsividade percebida assim que a geração começa. Um agente de voz gerando uma resposta de 150 tokens a 58 tok/s leva cerca de 2,6 segundos para terminar de falar. A 212 tok/s, a mesma resposta chega em 0,7 segundos. Essa diferença é o que separa uma conversa utilizável de uma que os usuários abandonam.

Para interfaces interativas (busca enquanto se digita, sugestões em linha, chat com transmissão), eu dou peso elevado à velocidade e trato a qualidade como um piso, não como uma meta. Um modelo que atinge 55 e transmite a 212 tok/s vai superar um modelo que atinge 61 a 58 tok/s em quase todo produto em tempo real.

Velocidade de saída

As três principais escolhas para cargas de trabalho limitadas por latência

Modelo	Qualidade	Preço/1M	Velocidade	Pesos abertos
Gemini 3.5 Flash	55,3	US$3,38	212 tok/s	Não
Qwen3.7 Max	56,6	US$1,88	166 tok/s	Sim
Gemini 3.1 Pro Preview	57,2	US$4,50	126 tok/s	Não

O Gemini 3.5 Flash vence em throughput bruto. É o modelo que eu busco primeiro quando a latência de transmissão é a principal restrição e a carga de trabalho tolera um índice de qualidade na faixa de 55.

O Qwen3.7 Max é a jogada de custo-benefício. A US$1,88/1M, custa aproximadamente metade do preço do Gemini 3.5 Flash, atinge uma pontuação ligeiramente maior (56,6 contra 55,3) e abre mão de cerca de 22% do throughput. Para pipelines de alto volume combinando processamento em lote e interativo, onde o custo se acumula, essa troca favorece o Qwen. Pesos abertos também significam que você pode hospedar por conta própria e eliminar completamente as idas e voltas pela rede.

O Gemini 3.1 Pro Preview é a opção quando a qualidade importa mais, mas você ainda se recusa a cair abaixo de 100 tok/s. A 126 tok/s e com índice de qualidade de 57,2, ele fica entre a faixa rápida e a fronteira lenta. Custa mais por token que o Qwen, mas oferece a maior qualidade entre os modelos que permanecem genuinamente rápidos.

Tabela de decisão

Cenário	Use isto	Por quê
Agentes de voz, transcrição ao vivo	Gemini 3.5 Flash	212 tok/s mantém respostas faladas abaixo de um segundo
Produto interativo sensível a custo em escala	Qwen3.7 Max	US$1,88/1M e 166 tok/s; pesos abertos reduzem o custo de hospedagem
Auto-hospedado, sem latência de API externa	Qwen3.7 Max	Pesos abertos eliminam as idas e voltas pela rede
Qualidade mais alta sem cair abaixo de 100 tok/s	Gemini 3.1 Pro Preview	126 tok/s com qualidade de 57,2
Autocompletar / sugestões em linha	Gemini 3.5 Flash	O throughput domina a experiência de conclusões curtas

Os trade-offs que eu não ignoraria

Os números de velocidade descrevem a geração em estado estável, não o tempo até o primeiro token. A distância de rede até o provedor e o comprimento do prompt adicionam latência antes que o primeiro token seja transmitido. Se seus usuários estão longe dos endpoints do Google ou da Alibaba, uma implantação auto-hospedada do Qwen3.7 Max próxima ao seu tráfego pode superar um modelo mais rápido servido do outro lado do mundo.

Qualidade na faixa de 55 é adequada para respostas conversacionais, classificação e saída estruturada curta. Não é adequada para raciocínio de múltiplas etapas ou geração de código, onde os erros se acumulam em cascata. Se sua carga de trabalho em tempo real inclui qualquer um desses, direcione essas requisições para um modelo de maior qualidade e aceite o impacto na latência apenas nesse caminho. Dividir o tráfego por tarefa supera forçar um único modelo a fazer tudo.

O preço importa mais quando as repetições dominam. Um modelo de 212 tok/s que precisa de reenvios frequentes de prompts pode custar mais na prática do que um mais lento e mais confiável. Meça sua taxa real de repetições antes de se comprometer.

Minha recomendação

Use o Gemini 3.5 Flash como padrão para produtos em tempo real em que a latência de transmissão é a restrição dominante. Migre para o Qwen3.7 Max quando o custo em escala ou a auto-hospedagem prevalecerem, e você puder absorver a queda de throughput. Recorra ao Gemini 3.1 Pro Preview apenas quando precisar da qualidade extra e se recusar a ficar abaixo de 100 tok/s.

Compare throughput e preço para o seu próprio mix de tráfego no LLM Selector, ou explore o panorama completo em Explore.

Fique por dentro

Análises revisadas de LLMs quando uma nova edição estiver pronta. Sem spam.