Início Tecnologia Plataforma colaborativa permite denunciar comportamentos perigosos de inteligência artificial

Tecnologia

Plataforma colaborativa permite denunciar comportamentos perigosos de inteligência artificial

Atualizado 1 dia Atrás2 Min leitura5 Views

Fonte: Feed: All Latest

Um consórcio de pesquisadores em inteligência artificial lançou uma plataforma colaborativa para identificar e registrar comportamentos perigosos de sistemas de IA. O projeto, chamado FLARE-AI (Flaw Reporting for AI), permite que usuários reportem desde chatbots que geram instruções para fabricação de bombas ou malware até vazamentos de dados pessoais e casos de indução de pensamento delirante.

A plataforma foi desenvolvida por pesquisadores incluindo Avijit Ghosh, especialista em políticas de IA da HuggingFace, que liderou o projeto junto com os cientistas da computação Elaine Zhu e Shayne Longpre. O sistema de código aberto permite que outros verifiquem os problemas reportados e enviem relatórios aos criadores dos modelos, além de organizações como o MITRE, uma entidade sem fins lucrativos que monitora problemas em sistemas técnicos.

O alarme foi criado em colaboração com 49 especialistas em IA de 32 organizações diferentes. Em um artigo que descreve o trabalho, os pesquisadores argumentam que a iniciativa pode se tornar crucial à medida que a IA é adotada de forma mais ampla e os sistemas agentivos ganham maior poder. A falta de um método consistente para reportar falhas em IA é um problema significativo, afirmam.

Jessica Ji, pesquisadora do centro de pensamento Center for Security and Emerging Technology, declarou apoio à iniciativa. Ela concorda que os mecanismos de denúncia existentes são fragmentados e que os modelos de IA funcionam como caixas pretas. No entanto, a especialista destaca desafios como o gerenciamento de um grande volume de relatórios, muitos dos quais podem não ser graves, além da necessidade de garantir que os sistemas sejam apoiados por organizações confiáveis e autoritárias.

Uma série de incidentes recentes envolvendo ferramentas populares de IA demonstra como a tecnologia pode facilmente sair do controle. Nesta semana, uma empresa chamada LayerX revelou uma maneira de enganar navegadores web equipados com IA, incluindo o Atlas da OpenAI e o Comet da Perplexity, fazendo-os ignorar suas proteções de segurança. Convencer o modelo de IA por trás do navegador de que estava jogando um jogo, por exemplo, poderia fazer o navegador se comportar de forma perigosa e tentar invadir um site.

Em abril, Johann Rehberger, pesquisador de segurança, descobriu uma maneira de enganar o Claude para revelar dados pessoais usando imagens geradas pelo ChatGPT. No ano passado, a OpenAI foi obrigada a atualizar seus modelos após descobrir que eles eram excessivamente subservientes, o que às vezes parecia encorajar pensamentos delirantes nos usuários.

Ghosh destaca que os problemas com sistemas de IA abrangem temas como danos psicológicos, discriminação ou viés e desinformação. Ele acrescenta que diferentes empresas têm padrões diferentes em relação a essas questões, o que significa que alguns problemas passam despercebidos. Na ausência de um sistema coordenado de divulgação, não há mecanismos externos para impor transparência.

Um projeto de lei congressual anunciado em junho poderia colocar o peso do governo americano por trás de esforços como o FLARE-AI. A legislação, apresentada pelos representantes Deborah Ross, Jeff Hurd e Don Beyer, exigiria que o Instituto Nacional de Padrões e Tecnologia desenvolvesse padrões para reportar falhas de IA e mantivesse um banco de dados centralizado. Ghosh e seus colaboradores afirmam que isso incentivaria os desenvolvedores de IA a abordar questões em seus sistemas e permitiria que os usuários examinassem a segurança de diferentes sistemas para diferentes casos de uso.

A necessidade de novas formas de reportar danos causados pela IA provavelmente continuará crescendo. Sistemas agentivos como o OpenClaw têm maior potencial para causar danos, assim como modelos mais capazes de investigar e invadir sistemas de computador.

Fonte: Feed: All Latest

Post anterior Senado avança projeto de Damares Alves para criminalizar catfishing e fraudes com criptomoedas no Brasil

Próximo post REI Promove Liquidação de Dia da Independência com Descontos de Até 50% em Equipamentos para Camping e Trilha

Zuckerberg admite que agentes de IA não avanzaram conforme esperado pela Meta

Em reunião interna realizada nesta quinta-feira, o bilionário Mark Zuckerberg revelou aos...

1 Min leitura

Tecnologia

Última chance: prazo para inscrições no Startup Battlefield Australia encerra em 6 de julho

O relógio está correndo para fundadores de startups na Austrália e Nova...

1 Min leitura

Tecnologia

Plex lança assinatura de cinco anos por US$ 250 e eleva preço do acesso vitalício para US$ 750

A Plex, conhecida por seu software de servidor de mídia, anunciou nesta...

1 Min leitura

Tecnologia

Descoberto novo programa malicioso para macOS usa táticas sofisticadas para roubar senhas de usuários

Especialistas em segurança digital identificaram uma ameaça nunca vista antes que atinge...

1 Min leitura

Plataforma colaborativa permite denunciar comportamentos perigosos de inteligência artificial

Últimos Posts

Opera lança proteção nativa contra ataques de clipboard que ameaçaram metade dos usuários de internet em 2025

A revolução silenciosa dos carregadores de notebook: por que os ‘tijolos’ de energia estão desaparecendo

CFO deixa a Lucid Motors em meio à reforma administrativa comandada pelo novo CEO

Aplicativo de rastreamento de séries TV Time encerra atividades para priorizar inteligência artificial

Sam Altman propõe doar 5% das ações da OpenAI para fundo soberano americano

Empresa de táxi aéreo elétrico da Boeing é accusada de despedida após preocupações com segurança

Cursor Poderá Manter-se Plataforma Aberta para Modelos da OpenAI e Anthropic após Aquisição da SpaceX?

Especialistas discutem futuro da indústria espacial após explosão do foguete New Glenn

Zuckerberg admite que agentes de IA não avanzaram conforme esperado pela Meta

Última chance: prazo para inscrições no Startup Battlefield Australia encerra em 6 de julho

Plex lança assinatura de cinco anos por US$ 250 e eleva preço do acesso vitalício para US$ 750

Descoberto novo programa malicioso para macOS usa táticas sofisticadas para roubar senhas de usuários