Glossário
RAG (Retrieval-Augmented Generation)
Arquitetura que combina recuperação de informação (search) com geração via LLM para responder consultas usando uma base de conhecimento proprietária.
Definição completa
RAG (Retrieval-Augmented Generation) é uma arquitetura de IA aplicada na qual um LLM gera respostas usando informação recuperada dinamicamente de uma base de conhecimento externa, em vez de depender apenas do conhecimento embutido no modelo.
O pipeline canônico tem três etapas. Ingestão: documentos são divididos em chunks, transformados em vetores via embedding model e indexados em um vector database (pgvector, Pinecone, Qdrant, Weaviate). Retrieval: a query do usuário é vetorizada e os top-k chunks mais similares são recuperados, frequentemente combinados com busca lexical (BM25) em modo híbrido. Generation: o LLM recebe a query mais os chunks recuperados como contexto e gera resposta com citações.
RAG resolve três limitações dos LLMs: conhecimento defasado (modelo treinado em dado antigo), conhecimento restrito a dados públicos (não conhece dados internos) e janela de contexto finita (não cabe a base inteira). Em troca, adiciona complexidade operacional: qualidade do retrieval determina qualidade da resposta.
Em 90% dos casos B2B de IA generativa, RAG bem desenhado é preferível a fine-tuning: mais barato, atualizável em tempo real, sem retreino e auditável — cada resposta pode citar o documento-fonte.