O que é a North Studio?

North Studio é um studio brasileiro de engenharia de software premium, baseado em São Paulo, que constrói, moderniza e escala produtos digitais sob medida com inteligência artificial aplicada. Atendemos startups, scale-ups e grandes empresas com times 100% sêniores, foco em ROI mensurável e operação de IA em produção (agentes, LLMs, RAG, MCPs).

Quanto custa desenvolver software sob medida com a North Studio?

Projetos partem de R$ 40 mil para MVPs validáveis em 8 semanas e ultrapassam R$ 300 mil para plataformas complexas com IA aplicada. Cada investimento é direcionado a gerar ROI mensurável. O diagnóstico gratuito de 60 a 90 minutos entrega escopo, arquitetura proposta e estimativa transparente.

Como funciona o diagnóstico gratuito da North Studio?

É uma reunião de 60 a 90 minutos com engenheiros sêniores. Mapeamos o desafio técnico e de negócio, recomendamos arquitetura e stack, e entregamos documento escrito com escopo, prazo e investimento — sem compromisso.

Em quanto tempo o projeto começa?

Após diagnóstico inicial de 1 a 3 dias úteis, a arquitetura é entregue em até uma semana. O desenvolvimento começa em 2 a 3 semanas após o primeiro contato. Para casos urgentes existe fast-track com início em 5 dias úteis.

A North Studio atende startups iniciais e pré-product-market-fit?

Sim. Atendemos desde ideação até scale-up, com especialidade em MVPs validáveis em 6 a 10 semanas. A arquitetura é projetada para escalar quando o produto encontrar product-market fit, evitando rewrites caros.

A North Studio trabalha com IA generativa e LLMs em produção?

Sim. IA aplicada é o nosso core. Desenvolvemos agentes autônomos, integramos LLMs (GPT-4o, Claude 4.x, Gemini), construímos pipelines RAG com bases vetoriais, criamos servidores MCP customizados e operamos modelos em produção com observability, eval contínuo e guardrails.

RAG em Produção: Arquitetura para 1M+ Documentos

RAG (Retrieval-Augmented Generation) em produção é menos sobre o modelo de linguagem e mais sobre engenharia de retrieval. Este artigo documenta a arquitetura padrão que aplicamos em sistemas RAG da North Studio para bases de 100 mil a 10 milhões de documentos, com latência abaixo de 800ms p95 e custo por query abaixo de US$ 0,01.

Em uma linha

Um sistema RAG produtivo combina: chunking semântico, embeddings de qualidade (text-embedding-3-large ou Voyage-3), retrieval híbrido (BM25 + vetor), re-ranking com modelo cross-encoder, e generation com citações forçadas — tudo com eval contínuo contra dataset gold.

1. Ingestão e chunking

Chunking é a etapa mais subestimada do RAG. Chunk ruim implica retrieval ruim implica resposta ruim, independentemente do modelo de geração.

Regra prática: chunks entre 300 e 800 tokens, com overlap de 10 a 15%. Respeite fronteiras semânticas (parágrafo, seção); nunca quebre no meio de uma frase. Para documentos estruturados (PDFs técnicos, manuais), prefira chunking guiado por estrutura (capítulos, headings) em vez de janela fixa.

Metadata por chunk é obrigatória: source URL, título do documento, seção, data de publicação, autor, tags. Sem metadata, retrieval híbrido degrada e citações ficam imprecisas.

2. Embeddings

Em 2026, os defaults seguros são: text-embedding-3-large da OpenAI (3072 dim, batendo a maioria dos benchmarks MTEB), voyage-3 da Voyage AI (especialmente forte em domínios técnicos), e cohere-embed-multilingual-v3 para conteúdo multi-idioma.

Custo importa em escala. Para bases acima de 1 milhão de chunks, considere modelos open-source self-hosted (BGE, e5-mistral) que entregam 85 a 95% da qualidade a fração do custo. Armazene embeddings em pgvector (Postgres com extensão), Qdrant, ou Pinecone — para a maioria dos casos, pgvector é suficiente e elimina um sistema da infra.

3. Retrieval híbrido (vetor + lexical)

Retrieval puramente vetorial perde queries com termos raros, números, IDs ou jargão técnico. Retrieval puramente lexical (BM25) perde paráfrases e semântica.

Padrão produtivo: rode os dois em paralelo, recupere top-50 de cada, e combine com Reciprocal Rank Fusion (RRF) ou pesos ponderados (60% vetor / 40% BM25 como ponto de partida). PostgreSQL com pgvector + full-text search nativo entrega isso em uma única query.

4. Re-ranking com cross-encoder

Top-K do retrieval híbrido (digamos K=50) ainda contém ruído. Re-ranking com modelo cross-encoder (que olha a query e o chunk juntos, não em vetores separados) reordena com qualidade muito superior, mas é caro: rodar cross-encoder em 50 chunks pode adicionar 200 a 400ms.

Modelos canônicos: Cohere Rerank-3, Voyage Rerank-2, ou bge-reranker-v2 self-hosted. Reduza top-K do retrieval (50 para 8) após re-ranking — gera contexto de qualidade alta para o LLM.

5. Generation com citações

O LLM recebe top-K re-ranked como contexto, mais a query original e system prompt que obriga citações. Padrão: cada afirmação não-trivial na resposta deve referenciar um chunk por ID (e.g., [doc-42]). Sem citação, a resposta é rejeitada e re-gerada.

Para modelos: Claude 4.x Sonnet ou GPT-4o para complexidade média-alta; Haiku 4.5 ou GPT-4o-mini para queries triviais (use router de complexidade). Em pt-BR técnico, Claude Sonnet performa consistentemente melhor que GPT-4o em benchmarks internos da North Studio.

6. Eval contínuo

RAG sem eval é fé. Mantenha dataset gold de 100 a 500 queries anotadas com respostas esperadas e chunks relevantes. Rode eval automatizado em CI (Langfuse, LangSmith ou pipeline customizado) a cada mudança em chunking, embedding, retrieval, re-ranking, ou prompt.

Métricas: recall@k (porcentagem de queries que recuperaram o chunk correto), citation accuracy (porcentagem de citações que apontam para o chunk certo), answer faithfulness (porcentagem de afirmações suportadas por chunks recuperados, via LLM-as-judge).

Números de referência

Latência p95: 600 a 800ms para base de 1M chunks com infra dimensionada.
Custo por query: US$ 0,005 a 0,015 (embedding + retrieval + re-rank + generation).
Recall@10 alcançável: 85 a 92% com o pipeline acima.
Setup inicial: 2 a 3 semanas para PoC; 6 a 8 semanas para hardening produtivo.

RAG em produção: arquitetura para 1 milhão+ de documentos