O repórter Alex Reisner, do veículo norte-americano The Atlantic, descobriu e tornou públicos quatro conjuntos de dados contendo músicas utilizadas no treinamento de modelos de inteligência artificial. A ferramenta foi disponibilizada para consulta pela população em geral.
Dois dos conjuntos de dados possuem dimensões expressivas, com 12 milhões e 9 milhões de faixas musicais respectivamente. Os outros dois conjuntos, embora menores, ainda representam uma quantidade relevante de material para treinamento, com mais de 100.000 canções cada.
De acordo com informações divulgadas por Reisner, esses conjuntos de dados foram baixados milhares de vezes por diferentes pesquisadores e empresas. Embora seja impossível determinar com precisão todos os usuários, tanto o Google quanto a empresa Stability confirmaram, em artigos científicos publicados, que utilizaram esses materiais em suas pesquisas.
Alguns dos dados proveniem de fontes como o Free Music Archive, que permite streaming gratuito para uso pessoal. No entanto, a questão sobre a legalidade do uso dessas músicas para treinar sistemas de inteligência artificial permanece objeto de debate no setor.
Fonte: The Verge
