Os agentes de inteligência artificial estão se tornando cada vez mais sofisticados, evoluindo de simples respondedores de perguntas para executores autônomos de tarefas complexas de múltiplas etapas. No entanto, antes que esses agentes possam ser confiáveis para reservar viagens ou conduzir análises financeiras em nome dos usuários, os provedores de modelos e as startups que constroem esses agentes precisam garantir que eles funcionem de maneira confiável em uma vasta gama de cenários.
A Patronus AI, startup fundada em 2023 por ex-pesquisadores da Meta, Anand Kannappan e Rebecca Qian, está ajudando fabricantes de modelos e empresas a refinar seus sistemas para justamente isso: criando ambientes digitais simulados nos quais avaliar o desempenho dos agentes. A empresa, com sede em São Francisco, parece estar resolvendo um problema fundamental. Praticamente todos os laboratórios de fronteira em inteligência artificial e muitas startups emergentes agora são clientes, segundo Glenn Solomon, diretor-gerente da Notable Capital, que descreve a demanda pelos ambientes simulados da empresa como quase insaciável.
A receita da Patronus cresceu 15 vezes no último ano, alimentando um interesse significativo dos investidores. Na quinta-feira, a empresa anunciou uma rodada de 50 milhões de dólares liderada pela Greenfield Partners, com participação da Notable Capital, Lightspeed, Datadog e Samsung. Essa rodada eleva o financiamento total da empresa para 70 milhões de dólares.
A Patronus utiliza o que chama de "modelos de mundos digitais" para criar réplicas de websites e sistemas internos. Nesses ambientes, os agentes são submetidos a testes de estresse após o treinamento, usando aprendizado por reforço, que iterative rewards successful task completion and penalizes errors. Os laboratórios de inteligência artificial veem grande valor nessas simulações digitais porque dão aos agentes a chance de experimentar diferentes cenários, às vezes imprevisíveis.
A empresa compara sua abordagem com a forma como a Waymo treinou carros autônomos primeiro construindo mundos sintéticos para testar veículos contra perigos raros, como clima severo ou uma criança correndo atrás de uma bola. A diferença com os agentes de inteligência artificial é que eles tendem a usar atalhos, o que significa que falham em completar a tarefa corretamente.
A Patronus está atualmente fornecendo seus mundos digitais simulados para engenharia de software e finanças, mas esses são apenas o início, segundo Kannappan. "Hoje estamos muito focados em problemas que são verificáveis, então problemas que você pode verificar imediatamente, mas existem muitas áreas que são muito não verificáveis ou muito difíceis de verificar", explicou ele.
O fato de esses processos serem verificáveis não significa que sejam simples. "Queremos ser capazes de criar o ambiente no qual você pode operar um agente que pode funcionar por 10 horas ou 10 dias ou 10 semanas", disse Kannappan.
Em relação aos concorrentes, a Patronus acredita que está competindo principalmente contra as equipes internas que os laboratórios de inteligência artificial já construíram para avaliar o comportamento dos agentes. Enquanto empresas de dados humanos como Mercor e Surge ajudam os fabricantes de modelos com aprendizado por reforço, a Patronus opera de forma diferente ao avaliar como os agentes se comportam sem qualquer envolvimento humano.
Fonte: TechCrunch
