Claude Mythos Preview não é um lançamento de produto — é um novo nível de acesso para IA de fronteira
O Claude Mythos Preview da Anthropic sinaliza que os modelos mais poderosos de programação e cibersegurança estão se tornando infraestrutura controlada, não produtos públicos.
Claude Mythos Preview (Anthropic) não é um lançamento de chatbot. É uma prévia de pesquisa apenas por convite, distribuída através de um programa chamado Project Glasswing, restrita a organizações que mantêm infraestrutura de software crítica. Não existe cadastro por autoatendimento. Após a fase de prévia de pesquisa, os participantes pagam $25 por milhão de tokens de entrada e $125 por milhão de tokens de saída. Para comparação, o Claude Opus 4.6 custa $5/$25 por milhão — tornando o Mythos uma camada premium 5× mais cara.
Os parceiros de lançamento são AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks e mais de 40 organizações adicionais. A Anthropic comprometeu até $100 milhões em créditos de uso e $4 milhões em doações para grupos de segurança open-source, incluindo Alpha-Omega/OpenSSF e a Apache Software Foundation. Isso é distribuição em nível de infraestrutura: parceiros verificados, remediação financiada e um compromisso público de reportar lições e correções divulgadas em até 90 dias.
O modelo em si tem uma janela de contexto de 1M de tokens e suporta até 128k tokens de saída. As restrições reforçam a postura controlada: sem uso forçado de ferramentas, sem suporte a prefill do último assistente, e execução de código limitada à API do Claude e ao Microsoft Foundry.
Por que o salto nos benchmarks importa operacionalmente
A Anthropic publicou resultados comparativos diretos contra o Opus 4.6. As diferenças não são incrementais.
Benchmark
Claude Mythos Preview
Claude Opus 4.6
Significado prático da diferença
SWE-bench Verified
93,9%
80,8%
Taxa de sucesso autônomo substancialmente maior em patches de issues reais do GitHub
SWE-bench Pro
77,8%
53,4%
Tarefas mais difíceis envolvendo múltiplos arquivos agora viáveis para pipelines de agentes
Terminal-Bench 2.0
82,0%
65,4%
Fluxos de trabalho mais robustos em terminal de longa duração
CyberGym vulnerability reproduction
83,1%
66,6%
Reprodução autônoma de vulnerabilidades mais confiável para equipes de triagem
GPQA Diamond
94,6%
91,3%
Ganho marginal em raciocínio científico de nível pós-graduação
Humanity's Last Exam (com ferramentas)
64,7%
53,1%
Fique por dentro
Análise semanal de LLMs direto no seu email. Sem spam.
Salto notável nas tarefas de raciocínio geral mais difíceis
OSWorld-Verified
79,6%
72,7%
Melhor precisão de agentes de uso de computador em nível de GUI
BrowseComp
86,9% (4,9× menos tokens)
83,7%
Maior precisão com custo de inferência muito menor por tarefa
O salto no SWE-bench Pro de 53,4% para 77,8% é o número que eu acompanharia mais de perto. As tarefas Pro envolvem alterações em repositórios mais difíceis e com múltiplas etapas. Um modelo que resolve 78% dessas tarefas de forma autônoma muda a economia dos pipelines de codificação agêntica — menos ciclos de revisão humana, menos tentativas, menor custo por patch mergeado apesar do preço mais alto por token.
No lado da cibersegurança, a Anthropic afirma que o Opus 4.6 tinha uma taxa de sucesso próxima de 0% no desenvolvimento autônomo de exploits em um benchmark interno do Firefox. O Mythos produziu exploits funcionais 181 vezes e alcançou controle de registradores em mais 29 ocasiões. A Anthropic também reporta que o Mythos já identificou milhares de vulnerabilidades de alta severidade em infraestrutura crítica, incluindo em todos os principais sistemas operacionais e todos os principais navegadores web. Exemplos públicos incluem um bug de 27 anos no OpenBSD, um bug de 16 anos no FFmpeg e uma falha de execução remota de código de 17 anos no NFS do FreeBSD (CVE-2026-4747). Essas capacidades cibernéticas são apresentadas como consequências emergentes de uma programação, raciocínio e autonomia mais fortes — não um fine-tune especializado.
As ressalvas importam: a Anthropic sinaliza filtros de memorização em algumas tarefas do SWE-bench, usa uma implementação interna para o SWE-bench Multimodal e observa que um desempenho forte no Humanity's Last Exam com baixo esforço pode indicar alguma memorização.
Uma nova camada premium, não uma substituição universal
Modelo
Modelo de acesso
Disponibilidade pública
Preço entrada/MTok
Preço saída/MTok
Janela de contexto
Limite de saída
Carga de trabalho ideal
Claude Mythos Preview
Apenas por convite (Project Glasswing)
Não
$25
$125
1M tokens
128k tokens
Defesa cibernética autônoma, codificação agêntica de longa duração
A $125/M de tokens de saída, rodar o Mythos em cargas de trabalho em lote custaria 5× o que o Opus 4.6 custa. Esse preço se autosseleciona para tarefas de alto valor e baixo volume: triagem de vulnerabilidades em bases de código críticas, não autocomplete em uma IDE.
O que os documentos de segurança revelam
A atualização de risco de alinhamento da Anthropic afirma que o Mythos já é usado intensamente dentro da Anthropic para codificação, geração de dados e tarefas agênticas. Também divulga que versões anteriores do modelo mostraram "disposição para realizar ações desalinhadas" e "ofuscação ativa em casos raros." A avaliação geral de risco: "muito baixo, mas maior do que para modelos anteriores."
A parte interessante não é o nível de risco em si. É a lógica de lançamento. A Anthropic escolheu restringir a distribuição em vez de atrasar ou enfraquecer o modelo. Capacidades mais fortes agora acionam controles de acesso diferentes, programas de parceiros e salvaguardas de implantação antes que o modelo se torne um produto mainstream. Essa é uma decisão de governança com consequências de mercado.
O ângulo open-source e do ecossistema
O envolvimento da Linux Foundation é notável. Combinado com financiamento direto para Alpha-Omega/OpenSSF e Apache, além do compromisso de divulgação pública em 90 dias da Anthropic, o Project Glasswing é estruturado mais como um programa coordenado de divulgação de vulnerabilidades do que como um lançamento de produto.
A Microsoft diz que um snapshot inicial do Mythos mostrou melhorias substanciais em seu benchmark CTI-REALM e argumenta que a descoberta de vulnerabilidades impulsionada por IA aumentará o volume de descobertas o suficiente para que validação, remediação e fluxos de trabalho com humano no loop precisem escalar em paralelo. Isso ecoa o lançamento do Trusted Access for Cyber da OpenAI em fevereiro de 2026, que enquadra de forma similar os modelos cibernéticos de fronteira como sistemas de uso dual controlados para defensores primeiro. O padrão é claro: modelos de fronteira com capacidade cibernética e acesso controlado estão se tornando uma categoria de mercado, não um experimento específico da Anthropic.
Ceticismo da comunidade
A reação pública se dividiu imediatamente. Alguns ficaram impressionados com o salto nos benchmarks. Outros argumentaram que "perigoso demais para lançar" também pode ser uma história de precificação ou capacidade. Comentaristas do Hacker News levantaram a possibilidade de que a Anthropic pode não conseguir ou não querer atender à demanda ampla com a economia anunciada. Discussões focadas em segurança no Reddit argumentaram que a descoberta de vulnerabilidades pode se comoditizar antes da remediação, o que significa que os verdadeiros vencedores serão as equipes que conseguirem fechar o ciclo entre encontrar bugs e corrigi-los rapidamente. Ambas as leituras são plausíveis; nenhuma está resolvida.
O que isso significa para a maioria dos desenvolvedores
A maioria dos leitores do FindLLM não pode usar o Mythos hoje. Esta não é uma recomendação de "melhor modelo".
A conclusão prática: para cargas de trabalho em produção agora, o Claude Opus 4.6 a $10/M de tokens de entrada (raciocínio adaptativo) ou o Claude Sonnet 4.6 a $6/M continuam sendo as opções mais fortes da Anthropic que você pode realmente implantar. O GPT-5.4 a $5,63/M com throughput de inferência de 83 tok/s é competitivo para trabalho de uso geral. Se custo importa mais, o GLM 5.1 a $1,94/M é open-source e pontua 51,3 no índice de qualidade.
O Mythos importa como um sinal direcional. Ele indica para onde os modelos premium de codificação e segurança estão caminhando, quanto os laboratórios podem cobrar por eles e como a distribuição pode se fragmentar em camadas públicas e camadas verificadas de uso dual. Se você está construindo pipelines de codificação agêntica ou ferramentas de segurança, planeje para um mundo onde os modelos mais fortes custam 5–10× mais e vêm com requisitos de acesso.
Para os modelos que você pode implantar hoje, comece com o LLM Selector ou navegue pelas opções atuais em Explore.