Avaliações multidimensionais propõem novo método para cibersegurança com IA

Texto publicado no LessWrong defende o uso de avaliações de múltiplas dimensões para mensurar e aprimorar a segurança de códigos gerados por inteligência artificial.

Uma publicação no LessWrong propõe uma mudança na forma como avaliações de inteligência artificial são estruturadas. Atualmente, os testes costumam seguir um formato de uma ou múltiplas dimensões confrontadas com um conjunto de amostras. O autor do texto argumenta que o modelo ideal deveria expandir essa lógica para múltiplas dimensões, permitindo que variáveis além do modelo de linguagem sejam testadas simultaneamente.

No contexto da cibersegurança, a proposta é utilizar essa abordagem para mensurar o endurecimento de sistemas. Segundo o texto, existem três abordagens principais para fortalecer códigos com IA: a primeira consiste em um ciclo de ataque e defesa, onde o próprio modelo é usado para encontrar vulnerabilidades e gerar correções. A segunda envolve a adaptação de provas formais, utilizando ferramentas como Verus ou Lean para validar o código. A terceira abordagem sugere a reescrita do código do zero, já em um formato nativo para provas matemáticas.

A avaliação multidimensional permitiria testar essas diferentes abordagens de forma comparativa. Em vez de apenas variar o modelo de IA testado, a metodologia propõe alterar a implementação do código ou as especificações de segurança. Dessa forma, a ferramenta de IA atua como um inspetor de propriedades de segurança, funcionando de maneira análoga a um processador que avalia características de desempenho.

O autor ressalta que a viabilidade de investir tokens computacionais nessas abordagens de segurança pode ser limitada pelos custos e capacidades atuais. No entanto, a expectativa é que a proposta se torne prática nos próximos meses ou anos. O texto cita que iniciativas de empresas como Glasswing e AISLE já exploram o ciclo básico de ataque e defesa, mas defende que o sucesso das abordagens mais complexas é mensurável através dessas avaliações expandidas.