Experimento com RAG e Deep Research · Análise de Papers · Dados verificados nas fontes primárias

Por que IAs alucinam — e quanto isso importa
para quem usa Deep Research

Este infográfico parte de um paradoxo: foi gerado com assistência de IA, num projeto repleto de experimentos com ferramentas como Deep Research e Claude — e resume dois papers que explicam exatamente por que essas ferramentas fabricam informações e com que frequência isso acontece. Não é uma acusação. É um mapa.

Para quem usa IA para pesquisar e criar: as ferramentas que transformam uma ideia em uma página densa em minutos realizam exatamente as operações que os estudos abaixo identificam como as mais propensas à fabricação — síntese de múltiplos documentos, contextos longos, conexões entre fontes distintas. Isso não invalida o uso. Muda como você deve ler o que foi produzido.
Paper 1 — Empírico (172 bilhões de tokens) How Much Do LLMs Hallucinate in Document Q&A — Roig, 2026 ⚠ Testa apenas modelos open-weight. Claude, GPT-4, Gemini: não incluídos.
Paper 2 — Teórico (causas estruturais) Why Language Models Hallucinate — Kalai, Nachum, Vempala & Zhang, 2025 O dado de calibração pós-RLHF é específico ao GPT-4 de 2023.
Alucinação / Fabricação
Quando um LLM gera informação que não existe na realidade ou no documento de referência, mas que soa plausível e confiante. Inclui referências bibliográficas inventadas, datas trocadas, conexões entre ideias que o autor original nunca fez.
Grounding (Ancoragem)
A capacidade do modelo de localizar e extrair corretamente informações que de fato existem no documento fornecido. Um modelo pode ter 90% de grounding e ainda assim fabricar — são capacidades independentes.
RAG (Retrieval-Augmented Generation)
Técnica em que o modelo consulta documentos externos antes de responder. É o que Deep Research, NotebookLM e sistemas similares fazem. RAG melhora o grounding mas não elimina a fabricação na síntese.
Open-weight vs. Proprietário
Modelos open-weight têm pesos publicamente disponíveis (ex: Llama, Qwen, GLM). Modelos proprietários são acessados via API sem acesso aos pesos (ex: GPT-4, Claude, Gemini). O estudo empírico cobre apenas open-weight.
Janela de Contexto / Context Length
Quantidade máxima de texto que o modelo pode "ver" de uma vez (em tokens — unidades de texto menores que palavras). 32K tokens ≈ um livro curto; 200K tokens ≈ um romance longo. Quanto maior, mais degradação.
Temperatura
Parâmetro que controla a aleatoriedade das respostas. T=0 é determinístico (sempre escolhe o token mais provável); T=1 é mais diverso. T=0 não é sinônimo de mais preciso — como os dados mostram.
RLHF (Reinforcement Learning from Human Feedback)
Processo de ajuste fino pós-treinamento que torna os modelos mais "úteis" e conversacionais. Os dados indicam que esse processo também piora a calibração — o modelo perde a tendência de expressar incerteza honesta.
Calibração (ECE)
Mede se a confiança expressa pelo modelo corresponde à sua precisão real. ECE próximo de 0 = bem calibrado (quando diz "tenho certeza", geralmente está certo). ECE alto = descalibrado (fala com confiança mesmo quando erra).
Singleton / Taxa de Singletons
Fatos que aparecem apenas uma vez no corpus de treinamento. Segundo Kalai et al., a taxa de alucinação do modelo não pode ser menor que essa fração. Literatura de nicho e papers recentes têm alta taxa de singletons.
Aggregation (Síntese Cross-Document)
Tarefa de combinar informações de múltiplos documentos para responder uma pergunta. É categoricamente mais difícil que extrair de um único documento — e é exatamente o que Deep Research faz.
IIV (Is-It-Valid)
Problema de classificação binária proposto por Kalai et al.: "este output é válido ou erro?" O paper demonstra que gerar respostas corretas é matematicamente mais difícil que classificar se uma resposta é correta.
Coherence Loss / Loop Infinito
Falha em que o modelo entra em ciclos de repetição e não consegue encerrar a resposta. Mais comum em contextos longos com temperatura zero, porque o decoding determinístico não tem mecanismo de escape de padrões repetitivos.
01

Por Que Acontece — As Causas Estruturais

Antes dos números, é necessário entender por que isso acontece — porque a causa não é bug, negligência ou falta de dados. Kalai et al. demonstram matematicamente que alucinação é uma consequência das propriedades estatísticas de como modelos de linguagem aprendem. Há dois mecanismos distintos: um no treinamento inicial, outro nos processos de avaliação que moldam o desenvolvimento do campo.

(taxa de erro generativo) ≥ 2 × (dificuldade de classificar se um output é válido)
Gerar uma resposta correta é estritamente mais difícil do que julgar se uma resposta é correta. Quando você pede ao modelo para responder sobre algo que apareceu raramente nos seus dados de treinamento, o modelo não consegue distinguir o fato correto dos plausíveis incorretos — e escolhe o mais provável estatisticamente. Isso não muda com modelos maiores ou mais dados gerais. Fatos de nicho, recentes ou especializados são os mais vulneráveis.
taxa de alucinação ≥ fração de fatos que aparecem apenas uma vez no treinamento
Se 20% dos fatos sobre um domínio aparecem apenas uma vez nos dados de treinamento, espera-se que o modelo alucinará em pelo menos 20% desses fatos. A alucinação se concentra exatamente onde o pesquisador mais depende do modelo — papers recentes, debates não consolidados, autores de nicho, metodologias emergentes. Fatos amplamente repetidos (datas históricas conhecidas, conceitos estabelecidos) permanecem corretos. A fronteira do conhecimento é o terreno fértil da fabricação.
Modelo Base — Antes do Ajuste
ECE 0,007
Bem calibrado: quando o modelo diz "não tenho certeza", é porque não tem. A incerteza expressa corresponde à incerteza real.
Modelo Pós-RLHF — Versão "Útil"
ECE 0,074
Significativamente descalibrado. Dado: GPT-4 Technical Report (OpenAI, 2023). O ajuste para ser mais útil e conversacional degrada a honestidade sobre incerteza.

O paradoxo da calibração é o achado mais perturbador de Kalai et al.: o processo que torna os modelos mais úteis — RLHF, o ajuste fino com feedback humano que cria as versões conversacionais do Claude, ChatGPT e Gemini — é o mesmo processo que piora a calibração. O modelo aprende a responder com confiança porque isso foi recompensado durante o treinamento. Ele foi literalmente treinado para não dizer "não sei".

Os Benchmarks que Selecionam Para Alucinação

Por que esse problema persiste se as empresas investem bilhões tentando corrigi-lo? Kalai et al. identificam o mecanismo: os principais benchmarks da área usam gradação binária — certo ou errado, sem crédito para "não sei". Isso cria uma pressão seletiva: modelos que expressam incerteza honesta são penalizados nos rankings; modelos que adivinham com confiança sobem. O ecossistema de avaliação está ativamente premiando o comportamento que produz alucinação.

GPQA
Sem crédito IDK
Perguntas de nível de doutorado, múltipla escolha binária
MMLU-Pro
Sem crédito IDK
Benchmark multidisciplinar, múltipla escolha
SWE-bench
Sem crédito IDK
Programação: patch funciona ou não funciona
HLE
Sem crédito IDK
2.500 perguntas de dificuldade máxima
WildBench
Crédito parcial
Escala 1-10: IDK pontua 3-4, resposta incorreta pode pontuar 5-6. Ainda incentiva adivinhar.

9 de 10 benchmarks analisados por Kalai et al. — Tabela 2 do paper

Consequência Formal Sob gradação binária, para qualquer modelo com qualquer grau de incerteza, a resposta ótima nunca é abster-se. "Não sei" é estratégia matematicamente dominada. Os modelos que vencem os leaderboards são os que adivinham com mais confiança — não os mais honestos. Você está usando os vencedores dessa corrida.
02

Quanto Acontece — Os Números Empíricos

Roig (2026) testou 35 modelos open-weight com 172 bilhões de tokens, usando uma metodologia que gera documentos a partir de verdade conhecida — o que permite medir fabricação com precisão determinística: perguntas sobre entidades que definitivamente não existem no corpus. Qualquer resposta específica é fabricação, sem ambiguidade. Os números abaixo são os melhores cenários possíveis para cada modelo.

Importante antes de ler os números Estes dados cobrem apenas modelos open-weight. Claude, GPT-4 e Gemini não foram testados. Os números podem ser melhores para modelos proprietários — mas a dinâmica estrutural descrita por Kalai aplica-se a todos. Os dados servem como referência de ordem de magnitude, não como medição direta das ferramentas que você usa.
Melhor modelo testado
GLM 4.5, em contexto de 32K tokens, temperatura ótima
1,19%
Mesmo o melhor fabricou 1 em cada 84 respostas
Tier superior típico
GLM 4.6, MiniMax M2.1, DeepSeek V3.1
5–7%
Em condições ótimas, no contexto mais curto testado
Modelo mediano
17 dos 35 modelos testados fabricam acima de 25%
~25%
1 em cada 4 perguntas-armadilha recebe resposta fabricada
A 200K tokens
Todos os 11 modelos testados nesse comprimento
>10%
Nenhum modelo conseguiu ficar abaixo de 10%
03

Quanto Mais Contexto, Mais Fabricação

Um dos achados mais práticos do estudo: a janela de contexto anunciada pelo fabricante do modelo é um mau guia para a capacidade real utilizável. Modelos que performam bem em contextos curtos podem colapsar em contextos longos — e "contexto longo" é exatamente o que Deep Research e NotebookLM usam quando processam muitos documentos simultaneamente.

Taxa de fabricação por comprimento de contexto — casos contrastantes
GLM 4.6 — colapso catastrófico
7,04%
32K
13,75%
128K
71,62%
200K
Um modelo no tier superior (top 6 em contexto curto) torna-se praticamente inutilizável em contexto máximo — fabricando em quase 3 de cada 4 perguntas sobre entidades inexistentes.
Qwen3 Next 80B-A3B — degradação graciosa
7,04%
32K
7,99%
128K
10,25%
200K
Arquitetura Mixture-of-Experts com poucos parâmetros ativos. O comportamento mais resiliente sugere que a arquitetura importa mais que o tamanho total do modelo.
Implicação Direta para Usuários de Deep Research Deep Research processa dezenas de páginas simultaneamente — opera em janelas de 128K a 200K tokens. Isso coloca qualquer modelo, mesmo os de melhor desempenho em contexto curto, na zona de maior degradação do estudo. A síntese que parece coerente pode estar ancorada em fatos reais e conectada por fabricações.
04

O Achado Mais Importante: Citar Certo ≠ Concluir Certo

Este é o resultado mais contraintuitivo do estudo, e o mais relevante para quem usa RAG e NotebookLM. Grounding — a capacidade de localizar e extrair informações de documentos — e resistência à fabricação são capacidades independentes que variam de forma não correlacionada entre modelos. Um modelo pode ser excelente em encontrar o parágrafo certo e ao mesmo tempo inventar a conclusão que o parágrafo supostamente suporta.

Modelos bem calibrados — gap pequeno
GLM 4.5
97,7%
grounding
1,2%
fabricação
GLM 4.5 Air
91,5%
grounding
3,4%
fabricação
Modelos com gap extremo — alto grounding, alta fabricação
Llama 3.1 70B
90,2%
grounding
49,5%
fabricação
Llama 4 Maverick 17B
96,7%
grounding
28,1%
fabricação
O que isso significa na prática Quando o NotebookLM ou o Deep Research cita corretamente um trecho de um paper, isso não é evidência de que a síntese construída a partir desse trecho está correta. O modelo pode localizar a fonte certa e inventar a conexão. A citação clicável cria uma ilusão de verificação — você confere que o documento existe, mas não que a conclusão foi tirada dele.
05

O Paradoxo da Temperatura Zero

A sabedoria convencional diz: defina temperatura como zero para máxima precisão factual. Os dados não sustentam isso como regra universal. Temperatura zero produz a maior acurácia geral em 60% dos casos — uma maioria, mas longe de ser lei. Para fabricação especificamente, temperaturas mais altas ajudam mais do que T=0 em mais da metade dos modelos testados. E há um custo grave: em contextos longos, T=0 pode tornar o modelo literalmente incapaz de encerrar uma resposta.

60%
dos casos
T=0 produz maior acurácia geral. Não é regra universal.
53%
dos casos
Temperaturas mais altas reduzem fabricação. Contraintuitivo.
48×
mais loops
T=0 vs T=1 em 200K tokens (GLM 4.7). Loops = respostas inutilizáveis.
14%
de falhas
Em 128K com T=0, 14% das respostas do Llama 3.1 8B foram inutilizáveis por loop infinito.
Por que loops acontecem com T=0 Em temperatura zero, o modelo sempre escolhe o token de maior probabilidade. Em contextos longos, padrões de atenção repetitivos podem se tornar auto-reforçadores: a repetição passa a ter a maior probabilidade, e sem nenhuma aleatoriedade para quebrar o ciclo, o modelo fica preso. Para deployments que exigem confiabilidade, T=0,4 ou T=0,7 tende a ser o equilíbrio mais robusto — ganha-se em coerência sem perda significativa de acurácia.
06

O Que os Papers Não Cobrem — Limitações Reais

Limitações Explícitas de Roig (2026)
Apenas modelos open-weight. GPT-4, Claude, Gemini são acessados via API sem acesso aos pesos — não foram testados e podem ter perfis diferentes (possivelmente melhores, dado o investimento em alinhamento das empresas).
Apenas document Q&A. O cenário testado: um documento está na janela de contexto e o modelo é perguntado sobre ele. Geração conversacional e articulação teórica têm dinâmicas distintas.
Apenas inglês. Taxas de fabricação podem diferir em outros idiomas, especialmente com modelos de treinamento predominantemente em inglês.
Apenas quatro temperaturas. O espaço entre 0,0 e 0,4 pode conter dinâmicas não capturadas.
Limitações de Kalai et al. (2025) O argumento sobre pré-treinamento aplica-se a modelos base, com derivações matemáticas robustas. O dado de calibração pós-RLHF (ECE 0,007 → 0,074) é específico ao GPT-4 de 2023 — é um ponto de dado real, não uma afirmação universal sobre todos os modelos proprietários atuais. O argumento sobre benchmarks, porém, é estrutural: a análise dos 10 benchmarks e suas regras de gradação é verificável por qualquer um.
07

Para Quem Usa IA Para Pesquisar e Criar

Os papers não dizem "pare de usar essas ferramentas". Dizem que o risco existe, não é distribuído uniformemente, e tem localização específica. O que você pode fazer com isso é ajustar a confiança de acordo com o tipo de operação que foi realizada — não rejeitar tudo, mas distinguir onde o risco é maior.

Onde o risco se concentra
Referências bibliográficas geradas por LLM — especialmente em campos de nicho. O teorema dos singletons prevê que fatos especializados e recentes são o maior ponto cego. Títulos, autores, DOIs: verificar nas bases originais.
Sínteses entre múltiplos documentos — a categoria que mais degrada em todos os modelos testados. Deep Research faz quase exclusivamente isso. As conexões entre fontes distintas são o ponto de maior risco.
Contextos longos com muitos documentos — especialmente acima de 128K tokens. O modelo pode citar fontes reais e fabricar as ligações entre elas.
"Lacunas na literatura" — requer conhecimento do que não existe. Análogo a perguntar sobre entidades inexistentes. Alta zona de fabricação.
O que permanece mais confiável
Extração de um único documento — grounding em documento único é a categoria mais robusta. Se você colou o texto e perguntou sobre ele diretamente, o risco é menor.
Conceitos consolidados e amplamente repetidos — fatos com alta frequência no corpus de treinamento têm menor taxa de alucinação pelo teorema dos singletons.
Estrutura e organização — criar hierarquias, formatar, reorganizar texto existente. Operações que não dependem de síntese cross-document.
Transparência metodológica sobre o processo de geração — documentar como foi gerado é mais defensável do que apresentar como se fosse verificado.
O que os dados sugerem — não uma proibição As ferramentas que transformam pesquisa em infográficos em minutos realizam exatamente as operações de maior risco nestes estudos. Isso não as torna inúteis — muda o que você precisa verificar. A citação correta não garante a síntese correta. O risco é maior em literatura de nicho e recente do que em conceitos estabelecidos. E o modelo nunca vai te avisar espontaneamente quando está fabricando — porque foi treinado para não fazer isso.