Um consórcio de pesquisadores em inteligência artificial lançou uma plataforma colaborativa para identificar e registrar comportamentos perigosos de sistemas de IA. O projeto, chamado FLARE-AI (Flaw Reporting for AI), permite que usuários reportem desde chatbots que geram instruções para fabricação de bombas ou malware até vazamentos de dados pessoais e casos de indução de pensamento delirante.
A plataforma foi desenvolvida por pesquisadores incluindo Avijit Ghosh, especialista em políticas de IA da HuggingFace, que liderou o projeto junto com os cientistas da computação Elaine Zhu e Shayne Longpre. O sistema de código aberto permite que outros verifiquem os problemas reportados e enviem relatórios aos criadores dos modelos, além de organizações como o MITRE, uma entidade sem fins lucrativos que monitora problemas em sistemas técnicos.
O alarme foi criado em colaboração com 49 especialistas em IA de 32 organizações diferentes. Em um artigo que descreve o trabalho, os pesquisadores argumentam que a iniciativa pode se tornar crucial à medida que a IA é adotada de forma mais ampla e os sistemas agentivos ganham maior poder. A falta de um método consistente para reportar falhas em IA é um problema significativo, afirmam.
Jessica Ji, pesquisadora do centro de pensamento Center for Security and Emerging Technology, declarou apoio à iniciativa. Ela concorda que os mecanismos de denúncia existentes são fragmentados e que os modelos de IA funcionam como caixas pretas. No entanto, a especialista destaca desafios como o gerenciamento de um grande volume de relatórios, muitos dos quais podem não ser graves, além da necessidade de garantir que os sistemas sejam apoiados por organizações confiáveis e autoritárias.
Uma série de incidentes recentes envolvendo ferramentas populares de IA demonstra como a tecnologia pode facilmente sair do controle. Nesta semana, uma empresa chamada LayerX revelou uma maneira de enganar navegadores web equipados com IA, incluindo o Atlas da OpenAI e o Comet da Perplexity, fazendo-os ignorar suas proteções de segurança. Convencer o modelo de IA por trás do navegador de que estava jogando um jogo, por exemplo, poderia fazer o navegador se comportar de forma perigosa e tentar invadir um site.
Em abril, Johann Rehberger, pesquisador de segurança, descobriu uma maneira de enganar o Claude para revelar dados pessoais usando imagens geradas pelo ChatGPT. No ano passado, a OpenAI foi obrigada a atualizar seus modelos após descobrir que eles eram excessivamente subservientes, o que às vezes parecia encorajar pensamentos delirantes nos usuários.
Ghosh destaca que os problemas com sistemas de IA abrangem temas como danos psicológicos, discriminação ou viés e desinformação. Ele acrescenta que diferentes empresas têm padrões diferentes em relação a essas questões, o que significa que alguns problemas passam despercebidos. Na ausência de um sistema coordenado de divulgação, não há mecanismos externos para impor transparência.
Um projeto de lei congressual anunciado em junho poderia colocar o peso do governo americano por trás de esforços como o FLARE-AI. A legislação, apresentada pelos representantes Deborah Ross, Jeff Hurd e Don Beyer, exigiria que o Instituto Nacional de Padrões e Tecnologia desenvolvesse padrões para reportar falhas de IA e mantivesse um banco de dados centralizado. Ghosh e seus colaboradores afirmam que isso incentivaria os desenvolvedores de IA a abordar questões em seus sistemas e permitiria que os usuários examinassem a segurança de diferentes sistemas para diferentes casos de uso.
A necessidade de novas formas de reportar danos causados pela IA provavelmente continuará crescendo. Sistemas agentivos como o OpenClaw têm maior potencial para causar danos, assim como modelos mais capazes de investigar e invadir sistemas de computador.
Fonte: Feed: All Latest
