Nova arquitetura sem codificadores permite que modelo de código aberto processe texto, imagem e áudio diretamente em hardware de consumo.
O Google apresentou o Gemma 4 12B, um modelo de inteligência artificial de pesos abertos que se destaca por sua capacidade de operar localmente em laptops convencionais. A nova ferramenta exige apenas 16 GB de memória RAM para funcionar e é capaz de processar texto, imagens e áudio de forma unificada. A execução offline dispensa a necessidade de chaves de API ou conexão com a nuvem, tornando a tecnologia acessível para desenvolvedores que buscam independência de servidores externos.
O principal diferencial técnico do Gemma 4 12B é a sua arquitetura livre de codificadores (encoders). Segundo o Analytics Vidhya, essa estrutura elimina a necessidade de codificadores separados para diferentes tipos de dados, o que explica a capacidade do modelo de caber no hardware de consumo. A unificação do processamento de múltiplos formatos em um único modelo é apontada como o fator que viabiliza seu desempenho em máquinas com restrições de memória.
Para a execução local, o modelo pode ser operado por meio do Ollama, permitindo a instalação e o uso prático em poucos minutos. Demonstrações da ferramenta incluem a geração de código, criação de texto e a extração de dados de tabelas a partir de imagens. Os testes de desempenho indicam que a versão de 12 bilhões de parâmetros apresenta resultados competitivos quando comparada a modelos maiores da própria Google, como a variante de 27 bilhões de parâmetros.
O lançamento preenche uma lacuna na linha de modelos Gemma 4 do Google, oferecendo uma alternativa mais leve e prática para o ecossistema de código aberto. A possibilidade de rodar um modelo multimodal de forma totalmente offline em máquinas domésticas representa um avanço para a adoção de IA local, reduzindo a dependência de infraestruturas em nuvem e custos associados a APIs.
É um modelo de inteligência artificial de pesos abertos lançado pelo Google, capaz de processar texto, imagem e áudio. Seu principal destaque é a capacidade de rodar localmente em laptops convencionais com apenas 16 GB de RAM, sem necessidade de conexão com a nuvem ou chaves de API.
O modelo utiliza uma arquitetura inovadora livre de codificadores (encoders). Essa estrutura elimina a necessidade de codificadores separados para diferentes tipos de dados, unificando o processamento de múltiplos formatos e permitindo que o modelo de 12 bilhões de parâmetros caiba e funcione em máquinas com restrições de memória.
A execução local pode ser feita por meio do Ollama, o que permite a instalação e o uso prático em poucos minutos. O modelo pode ser usado offline para gerar código, criar textos e extrair dados de tabelas a partir de imagens.