Notícia
Inteligência Artificial
O melhor de dois mundos

No início do milênio, os usuários da internet foram apresentados à barra de pesquisas da Google. Esse método de busca de informações foi amplamente utilizado até o surgimento e popularização das IAs generativas de texto. As chamadas LLMs (Large Language Models) permitem que o usuário converse com um interlocutor virtual que, tecnicamente, foi “ensinado” a responder sobre os mais diversos assuntos e a imitar, de forma convincente, a linguagem humana.
Paradigmas
O paradigma de recuperação de informações clássico, estilo Google, realiza buscas de documentos na Web relacionados às consultas de usuários. Grande parte dessa utilização é do tipo informacional, isto é, tem como objetivo encontrar informações, fatos ou conhecimento. Essa necessidade nos conduziu ao paradigma atual, dos LLMs, em que um modelo de linguagem aprende conteúdo informacional a partir de uma enorme base de conhecimento fixa.
“O LLM exige um aprendizado de máquina sofisticado, alimentado com uma base massiva de informações. Trata-se de um pré-treinamento que, em regra, não ocorre durante o momento da operação, o que pode gerar uma defasagem temporal”, explica Marcelo Pita, desenvolvedor da área de Inteligência Artificial Generativa do Serpro.
Diante disso, como alimentar os LLMs com novas informações e garantir a atualização dos dados? O RAG (Retrieval-Augmented Generation), uma arquitetura híbrida de IA que combina busca de informações externas contextuais com geração de texto, foi desenvolvido justamente para atender a essa demanda.
“Rag esperto”
O desenvolvimento de um sistema RAG envolve algumas decisões importantes. Uma delas é o “chunking”, que organiza os dados em grupos ou “pedaços”, já os modelos de embedding capturam o significado. As estratégias de busca, por sua vez, encontram o conteúdo certo e, por fim, a inserção de contexto no prompt garante que a resposta seja clara e fiel aos dados.
“No ‘RAG esperto’, o chunking é feito de forma semântica, passando por uma curadoria cuidadosa para dividir as informações em partes que fazem sentido juntas, agrupando ideias relacionadas com cada ‘pedaço’, representando um tópico ou conceito coerente”, explica Marcelo Pita.
Outras características de um modelo de desenvolvimento ideal incluem o uso de embeddings especializados, busca com variáveis estratégicas, curadoria humana e armazenamento em cache otimizado para recuperar informações e gerar respostas.
Serpro RAG Engine
Segundo Pita, com o Serpro RAG Engine, a empresa pública está preparada para executar projetos de IA Generativa personalizados com a tecnologia RAG. “O RAG é uma das estratégias mais interessantes e de menor custo para agregar conhecimento às LLMs. A arquitetura básica é bastante simples, mas o segredo está na combinação das estratégias utilizadas para diminuir o custo e otimizar a qualidade das respostas”, avalia o desenvolvedor.
Semana de IA do Serpro
Confira abaixo a íntegra da apresentação de Marcelo Pita durante a Semana de IA do Serpro. Para assistir essa e todas as outras atividades da programação, acesse o canal da empresa no Youtube.
O evento foi realizado entre os dias 13 e 17 de outubro, na sede do Serpro, em Brasília, cumprindo o objetivo de promover a discussão e o compartilhamento de experiências com palestras de especialistas de governo, empresas de TI e profissionais de mercado, além de workshops para apresentar cases reais, direcionamentos estratégicos e tendências globais na área.