O governo dos Estados Unidos determinou nesta sexta-feira que a Anthropic desative imediatamente o acesso a dois de seus modelos de inteligência artificial mais poderosos — Claude Fable 5 e Claude Mythos 5 — citando preocupações com a segurança nacional. A empresa anunciou nas redes sociais que cumpriu a ordem, mas deixou claro que acredita que o governo cometeu um erro nessa decisão.
A diretriz, que a Anthropic afirmou ter recebido às 17h21 (horário do leste dos EUA) de sexta-feira, obriga a empresa a desativar ambos os modelos para todos os usuários em todo o mundo — não apenas para estrangeiros, que era o objetivo nominal do controle de exportação governo. O acesso aos demais modelos da empresa não foi afetado.
O Mythos é o modelo de IA mais capaz da Anthropic, apresentado pela empresa no início de abril e mantido sob restrições rigorosas desde então. A compañía descreveu o modelo como possuindo uma habilidade excepcional de encontrar vulnerabilidades de segurança em softwares. Segundo a Anthropic, o Mythos identificou falhas em todos os principais sistemas operacionais e navegadores da web que testou.
Em vez de lançá-lo publicamente, a empresa criou um programa controlado chamado Project Glasswing, compartilhando-o com aproximadamente 50 organizações verificadas, incluindo Amazon, Apple, Google, Microsoft e CrowdStrike, para trabalhos de cibersegurança defensiva.
O Fable 5, lançado há apenas três dias, foi a resposta da Anthropic à pressão comercial evidente: uma versão do Mythos equipped com barreiras de proteção que bloqueiam respostas em áreas de alto risco, como cibersegurança e biologia, tornando-o seguro o suficiente para lançamento geral, argumentou a empresa. Segundo testes de benchmark da Vals AI, empresa que acompanha o desempenho da tecnologia de IA, era imediatamente o modelo de IA mais capaz disponível ao público.
A diretriz do governo é apresentada como uma ação de controle de exportação, restringindo o acesso estrangeiro aos modelos. Mas em um extenso post em seu blog, a Anthropic afirma que sua compreensão é que a preocupação subjacente é uma suposta jailbreak do Fable 5. Até o momento, a empresa diz que o governo apresentou apenas evidências verbais de uma "potencial jailbreak limitada não-universal" — que, segundo a Anthropic, consiste em pedir ao modelo que leia uma base de código específica e identifique falhas de software.
A empresa acrescenta que esse nível de capacidade já está amplamente disponível em outros modelos acessíveis publicamente, incluindo o GPT-5.5 da OpenAI. Também é usado rotineiramente por profissionais de cibersegurança para fins defensivos.
O argumento mais amplo da Anthropic é que suas salvaguardas mais fortes operam por meio de sistemas de classificação independentes que funcionam separadamente do modelo em si. Isso significa que, mesmo que alguém convença o Fable a continuar conversando após uma recusa, as proteções subjacentes contra as saídas mais perigosas permanecem ativas.
Claramente, nada disso foi suficiente para impedir o governo de agir, e a Anthropic não está escondendo sua frustração. "Discordamos que a descoberta de uma potencial jailbreak limitada deva ser motivo para recolher um modelo comercial implantado para centenas de milhões de pessoas", escreveu a empresa. "Se esse padrão fosse aplicado em toda a indústria, acreditamos que essencialmente interromperia todas as novas implantações de modelos para todos os provedores de modelos de ponta."
Espera-se amplamente que a Anthropic busque uma oferta pública inicial este ano e construiu grande parte de sua identidade pública como a alternativa focada em segurança em relação aos seus rivais. A ironia não passa despercebida pelos observadores: a própria cautela que a Anthropic demonstrou ao restringir o Mythos — que promoveu como um modelo tão perigoso que não poderia ser lançado publicamente — agora aparentemente atraiu exatamente o tipo de escrutínio governamental que poderia mais atrapalhar seus negócios.
Sam Altman, da OpenAI, deve estar aproveitando isso, pelo menos. Em abril, ele disse ao podcaster Ashlee Vance que o tratamento da Anthropic com o Mythos equivalia a "marketing baseado em medo". "É claramente marketing incrível dizer: 'Construímos uma bomba. Estávamos prestes a soltá-la na sua cabeça. Venderemos um abrigo antibomba por 100 milhões de dólares'", disse Altman.
Altman, cuja empresa também deve buscar uma IPO o mais rápido possível, não previu um shutdown governamental, mas identificou algo que agora voltou para prejudicar a Anthropic: quando você passa meses dizendo ao mundo que sua IA é exclusivamente perigosa, o mundo — incluindo o governo dos EUA — tende a ouvir.
Fonte: TechCrunch
