Claude Fable 5 alcança qualidade de 64,9 a US$ 20/M. O melhor desempenho vale o dobro do preço?

O Claude Fable 5 lidera em qualidade com 64,9, mas custa US$ 20/M tokens. Eu analiso quando esse prêmio compensa e quando o Opus 4.8 ou o Gemini 3.1 Pro vencem.

FindLLM10 de junho de 2026

claude-fable-5model-comparisonpricing-analysisanthropic

O Claude Fable 5 (Anthropic) é o modelo de mais alta qualidade no mercado atualmente, com 64,9 no índice de qualidade, e cobra caro por esse privilégio: US$ 20/M tokens, o dobro do que custa seu irmão Opus 4.8. A questão não é se ele é bom. É se 3,5 pontos de qualidade a mais sobre o segundo melhor modelo justificam um prêmio de preço de 100% e uma taxa de saída mediana de 56 tok/s. Para a maioria das cargas de trabalho em produção, a resposta é não. Para uma classe específica de tarefas de raciocínio de alto risco e baixo volume, é claramente sim.

O que os 64,9 realmente compram

O Claude Fable 5 lidera o índice de qualidade por 3,5 pontos sobre o Claude Opus 4.8 (61,4) e 4,7 pontos sobre o GPT-5.5 (60,2). Essa é a maior vantagem de um único modelo no topo da tabela.

Mas a diferença diminui rápido à medida que você desce a lista. A diferença entre o Fable 5 e o Opus 4.8 é menor do que a diferença entre o Opus 4.8 e o GPT-5.5 (high), que está em 58,9. Você está pagando pelo ar rarefeito no topo da curva, e ar rarefeito é caro.

Comparação de qualidade

Modelo	Qualidade	Preço/1M	Velocidade
Claude Fable 5	64,9	US$ 20,00	56 tok/s
Claude Opus 4.8	61,4	US$ 10,00	60 tok/s
GPT-5.5	60,2	US$ 11,25	54 tok/s
Gemini 3.1 Pro Preview	57,2	US$ 4,50	127 tok/s

A matemática do preço por ponto de qualidade

Aqui está o cálculo ao qual eu sempre volto. O Opus 4.8 entrega 61,4 de qualidade a US$ 10/M — cerca de US$ 0,163 por ponto de qualidade. O Fable 5 entrega 64,9 a US$ 20/M, ou US$ 0,308 por ponto. Você está pagando quase o dobro por unidade de qualidade para chegar ao topo.

O Gemini 3.1 Pro Preview (Google) torna o contraste ainda mais nítido. Ele pontua 57,2 a US$ 4,50/M — cerca de US$ 0,079 por ponto de qualidade, menos de um terço da taxa do Fable 5. Você abre mão de 7,7 pontos de qualidade, mas pode processar mais de quatro vezes o volume com o mesmo orçamento.

Essa troca importa enormemente quando as repetições dominam o custo. Se o seu pipeline reexecuta gerações que falharam, um modelo mais barato que te leva a 90% do caminho e permite duas tentativas costuma ser mais barato no agregado do que uma única chamada cara e perfeita de primeira.

A velocidade é o problema silencioso

O Fable 5 roda a 56 tok/s. Isso é aceitável para trabalho em lote e assíncrono, mas é a ferramenta errada para qualquer coisa interativa.

O Gemini 3.1 Pro atinge 127 tok/s — mais do dobro — por um quarto do preço. Para loops agênticos onde você encadeia muitas chamadas, a latência se acumula. Um agente de 10 etapas no Fable 5 gasta cerca de 2,3x mais tempo por token do que o mesmo agente no Gemini 3.1 Pro, e você está pagando mais pelo privilégio de esperar.

Velocidade de saída

Então o Fable 5 não é nem o mais barato nem o mais rápido. Todo o seu argumento se apoia nesses 3,5 pontos de qualidade. Quando eles valem a pena?

Quando o prêmio compensa

O prêmio compensa quando uma única resposta errada custa mais do que toda a conta de inferência. Pense em análise de contratos jurídicos, conciliação financeira, síntese de literatura médica ou revisão final antes de algo ser entregue a um cliente.

Nesses casos, o volume é baixo e o risco é alto. Você pode rodar alguns milhares de chamadas do Fable 5 por mês, não alguns milhões. Nessa escala, a diferença absoluta em dólares entre US$ 10/M e US$ 20/M é arredondamento, e a vantagem de qualidade de 3,5 pontos se traduz em menos escalações, menos revisões humanas, menos erros caros.

O padrão que funciona melhor: modelo barato para os primeiros 95% do volume, Fable 5 como camada de escalação para casos difíceis ou verificação final. Você obtém o teto de qualidade onde importa, sem pagar US$ 20/M em tudo.

O contra-argumento

Alguém vai apontar que o índice de qualidade é um composto, e a vantagem do Fable 5 pode estar concentrada nos domínios que realmente importam para você. Justo. Se a sua carga de trabalho for dominada exatamente pelas tarefas em que o Fable 5 se destaca, a matemática por ponto subestima seu valor.

Eu discordaria com cautela. Uma vantagem composta de 3,5 pontos raramente se manifesta como uma vantagem de 3,5 pontos em cada subdomínio — ela é irregular. Antes de se comprometer com o prêmio, rode sua própria avaliação com seus próprios prompts. O índice publicado é uma hipótese inicial, não uma decisão de aquisição.

E observe que o Opus 4.8 é do mesmo provedor, mesma família de modelos, mais rápido (60 vs 56 tok/s) e metade do preço. Se você confia no stack da Anthropic e quer um padrão sensato, o Opus 4.8 é a escolha mais defensável para quase tudo que não seja uma tarefa de raciocínio de revisão final.

Minha recomendação

Use o Gemini 3.1 Pro Preview como padrão para trabalho de alto volume onde você precisa de qualidade sólida e iteração rápida — 57,2 de qualidade a US$ 4,50/M e 127 tok/s é o melhor equilíbrio deste grupo. Use o Claude Opus 4.8 quando quiser elevar a qualidade sem dobrar os gastos. Reserve o Claude Fable 5 para a camada de escalação: chamadas de baixo volume e alto risco, onde errar é o resultado caro.

Não compre os 64,9 como padrão geral. Compre-o como seguro para as chamadas que mais importam.

Para combinar um modelo com seu próprio orçamento de latência e piso de qualidade, rode seus prompts pelo LLM Selector ou compare o mercado completo no Explore.

Fique por dentro

Análises revisadas de LLMs quando uma nova edição estiver pronta. Sem spam.