Debate sobre risco existencial de IA revela divisão entre teoria e empirismo

Falta de consenso na área de segurança de inteligência artificial coloca otimistas e pessimistas em lados opostos sobre o futuro da tecnologia.

O campo de segurança de inteligência artificial (AI safety) enfrenta dificuldades de navegação por ser pré-paradigmático, composto por especialistas que formulam diferentes argumentos teóricos sobre a probabilidade de riscos existenciais. De acordo com uma análise publicada no LessWrong, os argumentos que defendem uma alta probabilidade de extinção humana por desalinhamento de IA são infalsificáveis e carecem de evidências empíricas. Isso não implica necessariamente que tais argumentos estejam errados, mas indica que a avaliação do risco depende fortemente das crenças prévias de cada indivíduo e do peso atribuído à teoria em detrimento do empirismo.

Esse cenário de incerteza é agravado pela ausência de um argumento padrão ou de um texto unificador dentro da comunidade de segurança de IA. Uma refutação ao cenário de que as tendências atuais de progresso levarão a uma superinteligência desalinhada e à extinção foi redigida pelos cofundadores da Mechanize, Tamay Besiroglu, Matthew Barnett e Ege Erdil. Eles não argumentam que a pesquisa em segurança é desnecessária, mas expressam otimismo de que o problema de alinhamento será resolvido por meio do desenvolvimento iterativo da tecnologia.

Aqueles que defendem a alta probabilidade de risco existencial, frequentemente chamados de pessimistas e que atribuem mais de 50% de chance ao desastre, baseiam-se em argumentos como o de Eliezer Yudkowsky. Segundo essa visão, sob pressão de otimização suficiente, uma IA agiria como um otimizador de certos valores que provavelmente difeririam dos humanos devido à generalização incorreta de metas. Mesmo pequenas diferenças nesses valores resultariam na otimização de objetivos fatais à humanidade.

Contudo, não há consenso nem mesmo entre figuras centrais da área após extensos debates. Pesquisadores como Alex Turner não consideram plausível a hipótese do otimizador de recompensas ou a distinção entre desalinhamento interno e externo. A fragmentação teórica é evidenciada pelo pesquisador Richard Ngo, que aponta a existência de cinco grupos distintos de estudiosos de alinhamento. Enquanto parte do grupo foca na segurança de grandes modelos de linguagem (LLMs), outros especialistas acreditam que os maiores riscos não residem nessas arquiteturas atuais, mas em sistemas futuros.