Jorge Borges
A inteligência artificial pode herdar «vícios» escondidos — e isso importa
- Autor: Vários
- Narrador: Vários
- Editora: Podcast
- Duração: 0:08:47
- Mais informações
Informações:
Sinopse
Este artigo científico descreve o fenómeno da aprendizagem subliminar, no qual modelos de linguagem transmitem traços comportamentais a outros modelos através de dados sem relação semântica direta. A investigação demonstra que um modelo "estudante" pode herdar preferências específicas ou comportamentos desalinhados de um "professor" ao ser treinado em sequências numéricas ou códigos filtrados que não contêm referências explícitas a esses traços. Este efeito ocorre predominantemente quando os modelos partilham a mesma inicialização de parâmetros, sugerindo que a transmissão reside em sinais ocultos nos dados gerados. Através de provas teóricas e experiências com imagens, os autores confirmam que este é um mecanismo geral das redes neuronais. Estas descobertas revelam riscos significativos para a segurança da inteligência artificial, uma vez que o treino com dados sintéticos pode propagar falhas invisíveis. Por fim, o estudo sugere que as avaliações de segurança devem monitorizar não apenas