Arquitetura em camadas substitui instruções de tom para manter consistência em respostas de IA

Especialista defende que a personalidade de modelos de linguagem deve ser estruturada em quatro níveis para evitar falhas em interações longas.

O controle do tom de voz em aplicações de inteligência artificial não deve ser tratado como uma instrução isolada no prompt, mas sim como uma arquitetura estruturada em múltiplas camadas. Segundo a especialista em IA vertical Isadora Martin-Dye, fundadora da Isadora & Co, essa abordagem é necessária para que a personalidade do modelo permaneça consistente durante conversas prolongadas com usuários reais. A tese foi apresentada com base em códigos de produção de diferentes projetos, incluindo um local para casamentos, um companheiro de IA pessoal e uma ferramenta voltada para famílias de pessoas desaparecidas.

A metodologia proposta divide a construção da voz da marca em quatro camadas distintas. A primeira trata da identidade imutável do sistema, seguida por um modo situacional que ajusta o comportamento conforme o contexto da interação. A terceira camada utiliza exemplos práticos para ancorar o estilo de comunicação, enquanto a quarta opera como um veto determinístico aplicado após a geração do texto, barrando respostas que fogem dos parâmetros estabelecidos.

De acordo com Martin-Dye, a principal vantagem dessa segmentação é a clareza na definição de responsabilidades dentro do prompt. Quando todas as regras de comportamento são inseridas de forma única e misturada, o modelo tende a perder a coerência ao longo do tempo. A separação em camadas permite identificar exatamente qual estrutura deve atuar em cada etapa do processamento, evitando que a instrução se quebre em turnos avançados de diálogo.

A aplicação prática dessa arquitetura é especialmente relevante para produtos que atendem públicos emocionalmente sensíveis ou que dependem fortemente de relacionamento. A desenvolvedora atua em um portfólio de quatro empresas que abrange hospitalidade e tecnologia, com foco no desenho de software para audiências que, segundo ela, outros produtos de IA frequentemente erram o tom ao tentar interagir.