Qual LLM usar para processamento de documentos de contexto longo em maio de 2026?
Um guia prescritivo para escolher um LLM em cargas de trabalho de documentos com mais de 100 mil tokens, ponderando throughput, qualidade e preço por milhão de tokens.
Para processamento de documentos com mais de 100 mil tokens, use o Gemini 3.1 Pro Preview (Google) como padrão. Ele atinge 57,2 em qualidade a US$ 4,50/1M de tokens e entrega 124 tok/s, que é o equilíbrio mais limpo entre compreensão e throughput disponível atualmente para tarefas em que o próprio prompt é gigantesco. Quando você processa documentos longos, a maior parte do seu gasto com tokens é de entrada, então um modelo de alta qualidade a um preço moderado supera um modelo de fronteira que cobra o dobro por um raciocínio marginalmente melhor.
Se o seu pipeline é limitado por throughput em vez de qualidade, mude para o Gemini 3.5 Flash a 227 tok/s e US$ 3,38/1M de tokens. Ele atinge 55,3, dois pontos abaixo da variante Pro, mas gera saída 1,8x mais rápido e custa 25% menos. Para sumarização, extração e classificação sobre grandes corpora, vale a pena fazer essa troca. Eu só passaria desses dois para documentos em que uma única frase mal interpretada tem um custo real.
Por que essas escolhas e não os modelos de fronteira
O instinto é pegar o índice de qualidade mais alto. Para trabalho com contexto longo, esse instinto é caro e geralmente errado.
O Claude Opus 4.8 (Anthropic) lidera em qualidade com 61,4, mas custa US$ 10,00/1M de tokens e roda a 63 tok/s. O GPT-5.5 (OpenAI) fica em 60,2 de qualidade e US$ 11,25/1M. Quando você alimenta qualquer um deles com um contrato de 150 mil tokens, só o custo de entrada já supera de longe a saída, e você paga um prêmio por uma profundidade de raciocínio que raramente usa em tarefas de extração e recuperação.
A diferença de 4 pontos de qualidade entre o Opus 4.8 e o Gemini 3.1 Pro corresponde a uma diferença de preço de 2,2x. Em um pipeline de documentos que processa milhões de tokens por lote, essa diferença é o que separa uma tarefa que escala de uma que precisa ser racionada.
O problema de throughput que ninguém precifica
Tarefas de contexto longo são sensíveis à latência de uma forma pouco valorizada. Um modelo rodando a 33 tok/s leva muito tempo para produzir a saída e, quando você processa documentos em sequência, isso se acumula.
É por isso que descarto o Kimi K2.6 (Kimi) para trabalho de documentos em alto volume, apesar do seu atraente preço de US$ 1,42/1M. A 33 tok/s, é o modelo mais lento desta lista. Para uma análise pontual de um único documento, o preço vence. Para uma fila de milhares de documentos, o imposto de throughput apaga a economia.
O Qwen3.7 Max (Alibaba) é o campeão de throughput entre os modelos de alta qualidade: 200 tok/s, 56,6 de qualidade, US$ 1,88/1M e código aberto. Se você puder fazer self-host e quiser processamento de contexto longo sem cobrança por token, este é o modelo a implantar.
Top três para trabalho com contexto longo
| Modelo | Qualidade | Preço/1M | Velocidade | Melhor para |
|---|---|---|---|---|
| Gemini 3.1 Pro Preview | 57,2 | US$ 4,50 | 124 tok/s | Extração sensível à qualidade sobre documentos grandes |
| Gemini 3.5 Flash | 55,3 | US$ 3,38 | 227 tok/s | Sumarização e classificação em alto volume |
| Qwen3.7 Max | 56,6 | US$ 1,88 | 200 tok/s | Processamento em lote self-hosted, sem cobrança por token |
Tabela de decisão
| Cenário | Use |
|---|---|
| Análise jurídica ou financeira em que erros de leitura são custosos | Gemini 3.1 Pro Preview |
| Sumarização em massa de grandes conjuntos de documentos | Gemini 3.5 Flash |
| Pipeline self-hosted, querendo evitar preço medido por uso | Qwen3.7 Max |
| Análise profunda pontual, throughput irrelevante | Claude Opus 4.8 |
| Orçamento é a restrição rígida, latência não é | Kimi K2.6 |
Como escolher entre Pro e Flash
Rode os dois em uma amostra representativa e meça a taxa de falha do parser no seu schema de saída real. Se o Flash produzir uma saída estruturada que sua ferramenta downstream aceite sem problemas, fique com o throughput 1,8x maior e o preço mais baixo. Se você observar erros de extração em passagens densas ou ambíguas, os dois pontos de qualidade do Gemini 3.1 Pro se pagam na redução da revisão manual.
Para a maioria dos pipelines de documentos, a resposta certa é uma configuração de roteamento em camadas: Flash para os 80% fáceis e Pro para os documentos sinalizados com baixa confiança. Isso mantém seu custo combinado perto de US$ 3,50/1M, preservando a precisão onde ela importa.
Compare os candidatos lado a lado no LLM Selector ou explore o campo completo em Explore.
Fique por dentro
Análise semanal de LLMs direto no seu email. Sem spam.