RAG sem Vetores: O Fim do 'Fatiamento' de Documentos na IA?

O Problema Sujo do RAG

Se você trabalha com IA generativa, já ouviu falar de RAG (Retrieval-Augmented Generation). É a técnica que permite à IA consultar os documentos da sua empresa para dar respostas precisas.

O conceito é brilhante:

IA não precisa saber tudo de cor
Busca informações em seus documentos
Combina busca + geração de texto
Respostas baseadas em dados reais

Mas o RAG tradicional tem um problema “sujo”:

Ele fatia seus documentos em pedaços (chunks), o que muitas vezes faz a máquina perder o fio da meada ou ignorar tabelas e contextos importantes.

Como RAG Tradicional Funciona (e Falha)

O Processo Padrão

Passo 1: Fatiamento (Chunking)

Documento de 100 páginas
↓
Dividido em 500 pedaços de ~200 palavras
↓
Cada pedaço vira um vetor matemático
↓
Armazenado em banco vetorial

Passo 2: Busca

Usuário pergunta: "Qual foi o lucro líquido?"
↓
Pergunta vira vetor
↓
Busca pedaços similares (semelhança semântica)
↓
Retorna 3-5 pedaços mais relevantes

Passo 3: Geração

IA recebe pedaços + pergunta
↓
Gera resposta baseada nos pedaços

O Que Dá Errado?

Problema 1: Contexto Quebrado

Chunk 237: "...conforme mostrado na Tabela 5"
Chunk 238: [Tabela 5 estava aqui, mas ficou em outro chunk]
Chunk 239: "Com base nesses dados..."

Resultado: IA não vê a Tabela 5 quando precisa

Problema 2: Informação Espalhada

Documento diz:
Página 12: "Receita: $500M"
Página 87: "Custos: $300M"
Página 143: "Lucro: $200M"

Pergunta: "Qual a margem de lucro?"
RAG tradicional: Pode pegar apenas 1 ou 2 chunks
Resposta: Incompleta ou errada

Problema 3: Tabelas Destroçadas

Tabela original:
| Produto | Q1  | Q2  | Q3  |
|---------|-----|-----|-----|
| A       | 100 | 150 | 200 |
| B       | 50  | 75  | 90  |

Após chunking:
Chunk X: "| Produto | Q1  | Q2"
Chunk Y: "| Q3  | |---------|-----|"
Chunk Z: "75  | 90  |"

IA: "Não consigo entender essa tabela"

Problema 4: Perda de Estrutura

Documento tem:
- Seção 1: Introdução
  - 1.1 Contexto
  - 1.2 Objetivos
- Seção 2: Metodologia
  - 2.1 Abordagem
  - 2.2 Dados

RAG tradicional: Ignora hierarquia
IA não sabe que 1.1 e 1.2 estão relacionados

PageIndex: A Solução Radical de 2026

O cenário de 2026 propõe uma solução radical: o PageIndex (ou RAG sem vetores).

Do “Busca por Semelhança” para “Raciocínio Estruturado”

No RAG comum:

IA busca palavras semelhantes
Vetores matemáticos
Sem entender estrutura

No PageIndex:

Abordagem mais humana
Entende estrutura lógica
Navega como você leria um índice

Como PageIndex Funciona

1. Árvore de Conteúdo

Em vez de picotar o texto, a IA lê o documento inteiro e cria uma estrutura de árvore, como um sumário ultra detalhado (em formato JSON) que fica dentro da “memória de trabalho” do modelo.

Exemplo de árvore gerada:

{
  "document": "Relatório Anual 2025",
  "sections": [
    {
      "id": "1",
      "title": "Sumário Executivo",
      "page_range": [1, 5],
      "subsections": [
        {
          "id": "1.1",
          "title": "Destaques Financeiros",
          "page": 2,
          "content_summary": "Receita $500M, lucro $200M",
          "has_table": true,
          "table_ref": "Table_1_Financial_Summary"
        }
      ]
    },
    {
      "id": "2",
      "title": "Análise Detalhada",
      "page_range": [6, 50],
      "subsections": [...]
    }
  ],
  "tables": [
    {
      "id": "Table_1_Financial_Summary",
      "location": "page 2",
      "columns": ["Métrica", "2024", "2025"],
      "referenced_in": ["1.1", "3.2"]
    }
  ]
}

A IA criou um “mapa mental” do documento.

2. Navegação Inteligente

Quando você faz uma pergunta, a IA não sai procurando palavras soltas.

Processo de raciocínio:

Pergunta: "Qual foi o crescimento de receita?"

IA pensa:
1. "Isso é sobre finanças"
2. "Provavelmente está em Sumário Executivo ou Análise Financeira"
3. Consulta árvore → identifica seção 1.1
4. "Seção 1.1 tem uma tabela financeira"
5. Vai direto para Table_1_Financial_Summary
6. Lê dados relevantes
7. Calcula: ($500M - $400M) / $400M = 25%
8. Responde: "25% de crescimento"

Ela olha para o sumário, raciocina sobre qual seção deve ter a resposta (ex: “isso deve estar na Seção 4”) e vai direto ao ponto.

3. Referência Cruzada

Problema resolvido:

Texto diz: "Como mostrado na Tabela 3..."

RAG tradicional:
- Não sabe onde está Tabela 3
- Ignora a referência

PageIndex:
- Vê referência à Tabela 3
- Consulta árvore
- Encontra: table_ref: "Table_3_Market_Share"
- Navega até a tabela
- Conecta informações

Se o texto diz “veja a tabela 3”, a IA consegue navegar na árvore, encontrar a tabela e conectar as informações.

O Resultado: Precisão Esmagadora

Benchmarks Reais

Em testes de benchmarks financeiros, essa abordagem atingiu 98% de precisão, superando de longe o RAG tradicional.

Comparação:

Métrica	RAG Tradicional	PageIndex
Precisão	73%	98%
Recall (encontra tudo)	65%	95%
Tabelas	45%	97%
Referências cruzadas	20%	92%
Custo por consulta	$0.02	$0.15
Latência	2s	8s

Para empresas que lidam com contratos complexos ou relatórios anuais de centenas de páginas, isso muda o jogo.

Casos de Uso Perfeitos

✅ Excelente para:

Contratos legais complexos
Relatórios financeiros anuais
Documentação técnica estruturada
Manuais com muitas tabelas/referências
Due diligence em M&A
Compliance e auditoria

❌ Não vale a pena para:

FAQs simples
Documentos curtos (<10 páginas)
Busca em milhares de documentos
Casos onde velocidade > precisão

O “Preço” da Inteligência

Nem tudo são flores. Existem dois desafios reais para essa tecnologia:

1. Custo e Latência

O problema:

Como a IA precisa fazer várias “chamadas” para navegar na árvore de conteúdo, o processo é mais lento e caro que uma busca simples.

Exemplo de navegação:

Chamada 1: Criar árvore do documento ($0.05)
Chamada 2: Analisar pergunta e decidir seção ($0.02)
Chamada 3: Ler seção específica ($0.03)
Chamada 4: Buscar tabela referenciada ($0.02)
Chamada 5: Sintetizar resposta ($0.03)

Total: $0.15 por consulta (vs $0.02 RAG tradicional)
Tempo: 8 segundos (vs 2 segundos)

Trade-off:

7.5x mais caro
4x mais lento
Mas 25% mais preciso

Vale a pena? Depende do caso de uso.

2. Limite de Memória

O problema:

A estrutura da árvore precisa caber na janela de contexto da IA.

Números reais:

Claude 3.5 Sonnet: 200k tokens de contexto

Documento de 100 páginas:
- Texto: ~50k tokens
- Árvore JSON: ~20k tokens
- Espaço para resposta: ~10k tokens
Total usado: ~80k tokens
✅ Funciona!

Biblioteca com 50 documentos:
- 50 × 50k = 2.5M tokens
❌ Não cabe!

Tentar aplicar isso a uma biblioteca inteira de documentos ainda não é viável.

Soluções parciais:

Árvores mais compactas (resumos)
Hierarquia em camadas (buscar documento primeiro, depois detalhar)
Modelos com contexto maior (Gemini 1.5: 1M tokens)

A Evolução do Profissional de IA

O Orquestrador em Ação

Isso reforça nossa tese do Orquestrador de IA.

O profissional de sucesso não é quem apenas “instala” o RAG, mas quem entende:

Quando usar RAG Tradicional (vetorial):

Cenário: FAQ de produto
- 1000 perguntas comuns
- Respostas curtas
- Velocidade importa
- Custo importa
Decisão: RAG vetorial (rápido e barato)

Quando usar PageIndex:

Cenário: Análise de contrato de $10M
- Documento de 200 páginas
- Precisa de 98% precisão
- Erro pode custar milhões
- Cliente espera 1 dia pela análise
Decisão: PageIndex (lento mas preciso)

Quando usar Híbrido:

Cenário: Sistema de suporte técnico
- 80% perguntas simples → RAG vetorial
- 15% perguntas médias → RAG + validação humana
- 5% perguntas complexas → PageIndex
Decisão: Roteamento inteligente

As Novas Habilidades

❌ Não basta mais:

Saber instalar biblioteca de RAG
Rodar tutorial do LangChain
Aplicar mesma solução em tudo

✅ É necessário:

Entender trade-offs (custo vs precisão vs velocidade)
Arquitetar soluções híbridas
Medir o que importa (não apenas “funciona”)
Otimizar custos sem sacrificar qualidade
Saber quando tecnologia nova vale o investimento

O Futuro das Buscas em Documentos

2026-2027: Três Abordagens Coexistindo

Nível 1: RAG Vetorial (commodity)

Casos simples
Alta escala
Baixo custo
70-80% precisão

Nível 2: RAG Híbrido (padrão emergente)

Vetorial para filtro inicial
PageIndex para refinamento
85-92% precisão
Custo médio

Nível 3: PageIndex Puro (premium)

Casos críticos
Máxima precisão (95-98%)
Alto custo justificado
Latência aceitável

A escolha certa depende do contexto, não da moda.

Conclusão

RAG sem vetores (PageIndex) não é a substituição do RAG tradicional.

É uma ferramenta adicional no arsenal do profissional de IA.

Lições principais:

Tecnologia nova ≠ Sempre melhor
- PageIndex é mais preciso
- Mas também mais caro e lento
- Nem sempre vale a pena
Contexto é rei
- FAQ simples? RAG vetorial
- Contrato crítico? PageIndex
- Híbrido? Provavelmente
Orquestração é a habilidade
- Saber qual ferramenta quando
- Otimizar custo sem perder qualidade
- Medir impacto real
Precisão tem preço
- 98% vs 73% = 7.5x mais caro
- Às vezes vale (análise legal)
- Às vezes não vale (busca em email)
O profissional evolui
- De instalador para arquiteto
- De executor para orquestrador
- De técnico para estrategista

O Que Você Prefere?

Uma IA rápida que “chuta” com base em semelhança ou uma IA um pouco mais lenta, mas que entende a estrutura lógica do seu documento com 98% de precisão?

A precisão compensa o custo na sua área?

Como você decidiria entre as duas abordagens?

Compartilhe sua opinião:

Email: fodra@fodra.com.br
LinkedIn: linkedin.com/in/mauriciofodra

O futuro não é sobre ter a tecnologia mais nova. É sobre usar a tecnologia certa para o problema certo.