Claude Opus 4.7 versus Gemini 3.5 Flash: pagando o triplo por 2,5 pontos de qualidade

O Claude Opus 4.7 custa US$ 10/M e marca 57,3. O Gemini 3.5 Flash medium custa US$ 3,38/M e marca 54,8. Calculei quando a diferença vale a pena.

FindLLM4 de junho de 2026

model-comparisoncost-analysisanthropicgoogle

A diferença de 2,5 pontos de qualidade entre o Claude Opus 4.7 (Anthropic) e o Gemini 3.5 Flash medium (Google) custa um acréscimo de 3x nos tokens de entrada e um corte de 4x na taxa de processamento. Para a maioria das cargas de trabalho em produção, essa conta não fecha. O Opus 4.7 só é a escolha certa quando uma vantagem marginal de qualidade determina diretamente se o resultado é utilizável — e esse é um conjunto de tarefas mais restrito do que a diferença de preço sugere.

Aqui estão os números principais. O Claude Opus 4.7 marca 57,3 no índice de qualidade a US$ 10/M tokens, rodando a 55 tok/s. O Gemini 3.5 Flash medium marca 54,8 a US$ 3,38/M, rodando a 222 tok/s. Ou seja, você troca 2,5 pontos de qualidade por uma redução de 66% no preço e um aumento de 4x na velocidade.

O que 2,5 pontos de qualidade realmente compram

As diferenças no índice de qualidade se comprimem muito no topo. Ir de 50 para 52 e de 55 para 57 não são o mesmo tipo de melhoria — quanto mais alto você sobe, mais cada ponto reflete o tratamento de casos extremos em vez de competência básica. Em 54,8, o Gemini 3.5 Flash medium ultrapassa o limiar em que um modelo segue instruções de múltiplas etapas de forma confiável e produz saída estruturada bem formada.

Os 2,5 pontos que o Opus 4.7 adiciona em cima disso aparecem principalmente em cadeias de raciocínio mais difíceis e horizontes de tarefas mais longos. Se o seu pipeline é resumo, classificação, extração ou geração rotineira de código, você terá dificuldade em medir a diferença nas suas próprias avaliações. Se for uma análise de múltiplos saltos em que uma etapa intermediária errada contamina a resposta final, a diferença fica visível.

Comparação de qualidade

A diferença de throughput é a verdadeira história

O preço chama a atenção. A velocidade deveria chamar mais. O Gemini 3.5 Flash medium roda a 222 tok/s contra os 55 tok/s do Opus 4.7 — uma diferença de 4x que redefine quais tipos de aplicações são viáveis.

A 55 tok/s, uma resposta de 2.000 tokens leva cerca de 36 segundos para ser gerada. A 222 tok/s, a mesma resposta sai em cerca de 9 segundos. Para qualquer coisa voltada ao usuário ou qualquer loop agêntico com múltiplas chamadas sequenciais, essa latência se acumula. Um agente de cinco etapas no Opus 4.7 gasta minutos apenas na geração; no Flash, ele permanece interativo.

Velocidade de saída

Modelo	Qualidade	Preço/1M	Velocidade
Claude Opus 4.7	57,3	US$ 10,00	55 tok/s
Gemini 3.5 Flash medium	54,8	US$ 3,38	222 tok/s
Gemini 3.1 Pro Preview	57,2	US$ 4,50	127 tok/s

A comparação que derruba ambos os argumentos

Veja a terceira linha. O Gemini 3.1 Pro Preview marca 57,2 — a 0,1 do Opus 4.7 — a US$ 4,50/M e 127 tok/s. Esse único modelo derruba toda a premissa desse confronto.

Se você quer qualidade no nível do Opus, o Gemini 3.1 Pro entrega isso por um custo 55% menor e mais que o dobro da taxa de processamento. Se você quer a economia do Flash, você já está no Flash. O Opus 4.7 fica numa posição intermediária desconfortável: ele não é nem o líder em qualidade (esse é o Claude Opus 4.8 com 61,4) nem competitivo em custo por qualidade. É um carro-chefe da geração anterior com preço de geração atual.

Essa é a leitura honesta. O Opus 4.7 não é um modelo ruim. É um modelo cujo preço não acompanhou o resto do mercado ao seu redor.

Quando o Opus 4.7 ainda vence

Existe um caso real, e ele é sobre ecossistema em vez de números brutos. Se sua base de código, ferramentas e prompts são construídos em torno da API e do comportamento da Anthropic, o custo de migração para o stack do Google não é trivial. Padrões de prompt que funcionam no Claude não se transferem de forma limpa, e revalidar uma suíte de avaliação inteira custa tempo de engenharia que pode exceder a economia de inferência em cargas de trabalho de baixo volume.

O Opus 4.7 também tem um perfil de comportamento que algumas equipes preferem: recusas mais conservadoras, tom mais estável em documentos longos, menos surpresas de formatação. Isso não é captado em um único número de qualidade, e para saídas reguladas ou sensíveis à marca isso importa. Se você validou o Opus 4.7 em relação aos seus requisitos específicos e ele passa, a questão dos 2,5 pontos é irrelevante — você está comprando uma quantidade conhecida.

Quando o Gemini 3.5 Flash medium vence

Em todo lugar onde o volume domina. A US$ 3,38/M, você processa cerca de três vezes mais tokens por dólar. Para jobs em lote, pipelines com geração aumentada por recuperação e chat de alto tráfego, essa proporção decide se a economia unitária funciona afinal.

A vantagem de throughput se soma a isso. Uma geração mais rápida significa janelas de retry mais curtas quando as chamadas falham, o que importa porque, em escala, os retries representam uma parcela significativa do custo total. Um modelo que é tanto mais barato por token quanto mais rápido para concluir é mais barato por resposta bem-sucedida por uma margem maior do que os preços de tabela sugerem.

Comparação de preço

Minha leitura

Eu não implantaria o Opus 4.7 em um novo projeto hoje. O modelo é competente, mas sua posição de preço-por-qualidade é dominada pelo Gemini 3.1 Pro de um lado e pelo Flash medium do outro. Não há carga de trabalho em que o Opus 4.7 seja o ótimo claro, a menos que você já esteja preso ao stack da Anthropic e o custo de migração supere a economia.

Para projetos novos: comece com o Gemini 3.5 Flash medium e só suba de nível se suas avaliações mostrarem que o teto de qualidade é limitante. A maioria não mostrará. Para a minoria que precisa de margem extra de raciocínio, o Gemini 3.1 Pro é um destino melhor que o Opus 4.7 — mesmo nível de qualidade, custo menor, o dobro da velocidade.

Faça suas próprias contas em relação ao seu volume de tokens e orçamento de latência. Compare os preços atuais em todo o mercado em Explore, ou filtre pelo seu piso de qualidade e teto de preço no LLM Selector. A diferença de 2,5 pontos é real. Se ela vale 3x o preço depende inteiramente do que você está entregando.

Fique por dentro

Análises revisadas de LLMs quando uma nova edição estiver pronta. Sem spam.