Experimento com RAG e Deep Research·Análise de Papers·Dados verificados nas fontes primárias
Por que IAs alucinam — e quanto isso importa para quem usa Deep Research
Este infográfico parte de um paradoxo: foi gerado com assistência de IA, num projeto repleto de
experimentos com ferramentas como Deep Research e Claude — e resume dois papers que explicam exatamente
por que essas ferramentas fabricam informações e com que frequência isso acontece. Não
é uma acusação. É um mapa.
Para quem usa IA para pesquisar e criar: as ferramentas que transformam uma ideia em
uma página densa em minutos realizam exatamente as operações que os estudos abaixo identificam como as
mais propensas à fabricação — síntese de múltiplos documentos, contextos longos, conexões entre fontes
distintas. Isso não invalida o uso. Muda como você deve ler o que foi produzido.
Paper 1 — Empírico (172 bilhões de tokens)How Much Do LLMs Hallucinate in Document Q&A — Roig, 2026⚠ Testa apenas modelos open-weight. Claude, GPT-4, Gemini: não
incluídos.
Paper 2 — Teórico (causas estruturais)Why Language Models Hallucinate — Kalai, Nachum, Vempala & Zhang,
2025O dado de calibração pós-RLHF é específico ao GPT-4 de 2023.
Alucinação / Fabricação
Quando um LLM gera informação que não existe na realidade ou no documento de
referência, mas que soa plausível e confiante. Inclui referências bibliográficas inventadas,
datas trocadas, conexões entre ideias que o autor original nunca fez.
Grounding (Ancoragem)
A capacidade do modelo de localizar e extrair corretamente informações que de
fato existem no documento fornecido. Um modelo pode ter 90% de grounding e ainda assim
fabricar — são capacidades independentes.
RAG (Retrieval-Augmented Generation)
Técnica em que o modelo consulta documentos externos antes de responder. É o
que Deep Research, NotebookLM e sistemas similares fazem. RAG melhora o grounding mas não
elimina a fabricação na síntese.
Open-weight vs. Proprietário
Modelos open-weight têm pesos publicamente disponíveis (ex: Llama, Qwen,
GLM). Modelos proprietários são acessados via API sem acesso aos pesos (ex: GPT-4, Claude,
Gemini). O estudo empírico cobre apenas open-weight.
Janela de Contexto / Context Length
Quantidade máxima de texto que o modelo pode "ver" de uma vez (em tokens —
unidades de texto menores que palavras). 32K tokens ≈ um livro curto; 200K tokens ≈ um
romance longo. Quanto maior, mais degradação.
Temperatura
Parâmetro que controla a aleatoriedade das respostas. T=0 é determinístico
(sempre escolhe o token mais provável); T=1 é mais diverso. T=0 não é sinônimo de mais
preciso — como os dados mostram.
RLHF (Reinforcement Learning from Human Feedback)
Processo de ajuste fino pós-treinamento que torna os modelos mais "úteis" e
conversacionais. Os dados indicam que esse processo também piora a calibração — o modelo
perde a tendência de expressar incerteza honesta.
Calibração (ECE)
Mede se a confiança expressa pelo modelo corresponde à sua precisão real. ECE
próximo de 0 = bem calibrado (quando diz "tenho certeza", geralmente está certo). ECE alto =
descalibrado (fala com confiança mesmo quando erra).
Singleton / Taxa de Singletons
Fatos que aparecem apenas uma vez no corpus de treinamento. Segundo Kalai et
al., a taxa de alucinação do modelo não pode ser menor que essa fração. Literatura de nicho
e papers recentes têm alta taxa de singletons.
Aggregation (Síntese Cross-Document)
Tarefa de combinar informações de múltiplos documentos para responder uma
pergunta. É categoricamente mais difícil que extrair de um único documento — e é exatamente
o que Deep Research faz.
IIV (Is-It-Valid)
Problema de classificação binária proposto por Kalai et al.: "este output é
válido ou erro?" O paper demonstra que gerar respostas corretas é matematicamente mais
difícil que classificar se uma resposta é correta.
Coherence Loss / Loop Infinito
Falha em que o modelo entra em ciclos de repetição e não consegue encerrar a
resposta. Mais comum em contextos longos com temperatura zero, porque o decoding
determinístico não tem mecanismo de escape de padrões repetitivos.
01
Por Que Acontece — As Causas Estruturais
Antes dos números, é necessário entender por que isso acontece — porque a causa não é bug,
negligência ou falta de dados. Kalai et al. demonstram matematicamente que alucinação é uma consequência
das propriedades estatísticas de como modelos de linguagem aprendem. Há dois mecanismos distintos: um no
treinamento inicial, outro nos processos de avaliação que moldam o desenvolvimento do campo.
(taxa de erro generativo) ≥ 2 × (dificuldade de classificar se um output é
válido)
Gerar uma resposta correta é estritamente mais difícil do que julgar se uma
resposta é correta. Quando você pede ao modelo para responder sobre algo que apareceu raramente nos
seus dados de treinamento, o modelo não consegue distinguir o fato correto dos plausíveis incorretos
— e escolhe o mais provável estatisticamente. Isso não muda com modelos maiores ou mais dados
gerais. Fatos de nicho, recentes ou especializados são os mais vulneráveis.
taxa de alucinação ≥ fração de fatos que aparecem apenas uma vez no treinamento
Se 20% dos fatos sobre um domínio aparecem apenas uma vez nos dados de treinamento, espera-se que o
modelo alucinará em pelo menos 20% desses fatos. A alucinação se concentra exatamente onde o
pesquisador mais depende do modelo — papers recentes, debates não consolidados, autores
de nicho, metodologias emergentes. Fatos amplamente repetidos (datas históricas conhecidas,
conceitos estabelecidos) permanecem corretos. A fronteira do conhecimento é o terreno fértil da
fabricação.
Modelo Base — Antes do Ajuste
ECE 0,007
Bem calibrado: quando o modelo diz "não tenho certeza", é porque não tem. A
incerteza expressa corresponde à incerteza real.
Modelo Pós-RLHF — Versão "Útil"
ECE 0,074
Significativamente descalibrado. Dado: GPT-4 Technical Report (OpenAI, 2023).
O ajuste para ser mais útil e conversacional degrada a honestidade sobre incerteza.
O paradoxo da calibração é o achado mais perturbador de Kalai et al.: o processo que torna os modelos
mais úteis — RLHF, o ajuste fino com feedback humano que cria as versões conversacionais do
Claude, ChatGPT e Gemini — é o mesmo processo que piora a calibração. O modelo aprende a responder com
confiança porque isso foi recompensado durante o treinamento. Ele foi literalmente treinado para não
dizer "não sei".
Os Benchmarks que Selecionam Para Alucinação
Por que esse problema persiste se as empresas investem bilhões tentando corrigi-lo? Kalai et al.
identificam o mecanismo: os principais benchmarks da área usam gradação binária — certo ou errado, sem
crédito para "não sei". Isso cria uma pressão seletiva: modelos que expressam incerteza honesta são
penalizados nos rankings; modelos que adivinham com confiança sobem. O ecossistema de avaliação está
ativamente premiando o comportamento que produz alucinação.
GPQA
Sem crédito IDK
Perguntas de nível de doutorado, múltipla escolha binária
MMLU-Pro
Sem crédito IDK
Benchmark multidisciplinar, múltipla escolha
SWE-bench
Sem crédito IDK
Programação: patch funciona ou não funciona
HLE
Sem crédito IDK
2.500 perguntas de dificuldade máxima
WildBench
Crédito parcial
Escala 1-10: IDK pontua 3-4, resposta incorreta pode pontuar 5-6. Ainda
incentiva adivinhar.
9 de 10 benchmarks analisados por Kalai
et al. — Tabela 2 do paper
Consequência Formal
Sob gradação binária, para qualquer modelo com qualquer grau de incerteza, a resposta ótima
nunca é abster-se. "Não sei" é estratégia matematicamente dominada. Os modelos que vencem
os leaderboards são os que adivinham com mais confiança — não os mais honestos. Você está usando os
vencedores dessa corrida.
02
Quanto Acontece — Os Números Empíricos
Roig (2026) testou 35 modelos open-weight com 172 bilhões de tokens, usando uma metodologia que gera
documentos a partir de verdade conhecida — o que permite medir fabricação com precisão determinística:
perguntas sobre entidades que definitivamente não existem no corpus. Qualquer resposta específica é
fabricação, sem ambiguidade. Os números abaixo são os melhores cenários possíveis para cada modelo.
Importante antes de ler os números
Estes dados cobrem apenas modelos open-weight. Claude, GPT-4 e Gemini não foram
testados. Os números podem ser melhores para modelos proprietários — mas a dinâmica estrutural descrita
por Kalai aplica-se a todos. Os dados servem como referência de ordem de magnitude, não como medição
direta das ferramentas que você usa.
Melhor modelo testado
GLM 4.5, em contexto de 32K tokens, temperatura ótima
1,19%
Mesmo o melhor fabricou 1 em cada 84 respostas
Tier superior típico
GLM 4.6, MiniMax M2.1, DeepSeek V3.1
5–7%
Em condições ótimas, no contexto mais curto testado
Modelo mediano
17 dos 35 modelos testados fabricam acima de 25%
~25%
1 em cada 4 perguntas-armadilha recebe resposta fabricada
A 200K tokens
Todos os 11 modelos testados nesse comprimento
>10%
Nenhum modelo conseguiu ficar abaixo de 10%
03
Quanto Mais Contexto, Mais Fabricação
Um dos achados mais práticos do estudo: a janela de contexto anunciada pelo fabricante do modelo é um
mau guia para a capacidade real utilizável. Modelos que performam bem em contextos curtos podem colapsar
em contextos longos — e "contexto longo" é exatamente o que Deep Research e NotebookLM usam quando
processam muitos documentos simultaneamente.
Taxa de fabricação por comprimento de contexto — casos contrastantes
GLM 4.6 — colapso
catastrófico
7,04%
32K
13,75%
128K
71,62%
200K
Um modelo no tier superior (top 6 em contexto curto) torna-se praticamente
inutilizável em contexto máximo — fabricando em quase 3 de cada 4 perguntas sobre entidades
inexistentes.
Qwen3 Next 80B-A3B — degradação
graciosa
7,04%
32K
7,99%
128K
10,25%
200K
Arquitetura Mixture-of-Experts com poucos parâmetros ativos. O
comportamento mais resiliente sugere que a arquitetura importa mais que o tamanho total do
modelo.
Implicação Direta para Usuários de Deep Research
Deep Research processa dezenas de páginas simultaneamente — opera em janelas de 128K a 200K tokens. Isso
coloca qualquer modelo, mesmo os de melhor desempenho em contexto curto, na zona de maior
degradação do estudo. A síntese que parece coerente pode estar ancorada em fatos reais e
conectada por fabricações.
04
O Achado Mais Importante: Citar Certo ≠ Concluir Certo
Este é o resultado mais contraintuitivo do estudo, e o mais relevante para quem usa RAG e NotebookLM.
Grounding — a capacidade de localizar e extrair informações de documentos — e resistência à fabricação
são capacidades independentes que variam de forma não correlacionada entre modelos. Um modelo
pode ser excelente em encontrar o parágrafo certo e ao mesmo tempo inventar a conclusão que o parágrafo
supostamente suporta.
Modelos bem calibrados — gap pequeno
GLM 4.5
97,7%
grounding
→
1,2%
fabricação
GLM 4.5 Air
91,5%
grounding
→
3,4%
fabricação
Modelos com gap extremo — alto grounding, alta fabricação
Llama 3.1 70B
90,2%
grounding
→
49,5%
fabricação
Llama 4 Maverick 17B
96,7%
grounding
→
28,1%
fabricação
O que isso significa na prática
Quando o NotebookLM ou o Deep Research cita corretamente um trecho de um paper, isso
não é evidência de que a síntese construída a partir desse trecho está correta. O modelo pode localizar
a fonte certa e inventar a conexão. A citação clicável cria uma ilusão de verificação — você confere que
o documento existe, mas não que a conclusão foi tirada dele.
05
O Paradoxo da Temperatura Zero
A sabedoria convencional diz: defina temperatura como zero para máxima precisão factual. Os dados não
sustentam isso como regra universal. Temperatura zero produz a maior acurácia geral em 60% dos casos —
uma maioria, mas longe de ser lei. Para fabricação especificamente, temperaturas mais altas ajudam mais
do que T=0 em mais da metade dos modelos testados. E há um custo grave: em contextos longos, T=0 pode
tornar o modelo literalmente incapaz de encerrar uma resposta.
60%
dos casos
T=0 produz maior acurácia geral. Não é regra universal.
53%
dos casos
Temperaturas mais altas reduzem fabricação. Contraintuitivo.
48×
mais loops
T=0 vs T=1 em 200K tokens (GLM 4.7). Loops = respostas inutilizáveis.
14%
de falhas
Em 128K com T=0, 14% das respostas do Llama 3.1 8B foram inutilizáveis por
loop infinito.
Por que loops acontecem com T=0
Em temperatura zero, o modelo sempre escolhe o token de maior probabilidade. Em contextos longos,
padrões de atenção repetitivos podem se tornar auto-reforçadores: a repetição passa a ter a maior
probabilidade, e sem nenhuma aleatoriedade para quebrar o ciclo, o modelo fica preso. Para deployments
que exigem confiabilidade, T=0,4 ou T=0,7 tende a ser o equilíbrio mais robusto —
ganha-se em coerência sem perda significativa de acurácia.
06
O Que os Papers Não Cobrem — Limitações Reais
Limitações Explícitas de Roig (2026)
Apenas modelos open-weight. GPT-4, Claude, Gemini são acessados
via API sem acesso aos pesos — não foram testados e podem ter perfis diferentes (possivelmente
melhores, dado o investimento em alinhamento das empresas).
Apenas document Q&A. O cenário testado: um documento está na
janela de contexto e o modelo é perguntado sobre ele. Geração conversacional e articulação teórica
têm dinâmicas distintas.
Apenas inglês. Taxas de fabricação podem diferir em outros
idiomas, especialmente com modelos de treinamento predominantemente em inglês.
Apenas quatro temperaturas. O espaço entre 0,0 e 0,4 pode conter
dinâmicas não capturadas.
Limitações de Kalai et al. (2025)
O argumento sobre pré-treinamento aplica-se a modelos base, com derivações matemáticas robustas. O dado
de calibração pós-RLHF (ECE 0,007 → 0,074) é específico ao GPT-4 de 2023 — é um ponto
de dado real, não uma afirmação universal sobre todos os modelos proprietários atuais. O argumento sobre
benchmarks, porém, é estrutural: a análise dos 10 benchmarks e suas regras de gradação é verificável por
qualquer um.
07
Para Quem Usa IA Para Pesquisar e Criar
Os papers não dizem "pare de usar essas ferramentas". Dizem que o risco existe, não é distribuído
uniformemente, e tem localização específica. O que você pode fazer com isso é ajustar a confiança de
acordo com o tipo de operação que foi realizada — não rejeitar tudo, mas distinguir onde o risco é
maior.
Onde o risco se concentra
Referências bibliográficas geradas por LLM — especialmente
em campos de nicho. O teorema dos singletons prevê que fatos especializados e recentes são o
maior ponto cego. Títulos, autores, DOIs: verificar nas bases originais.
Sínteses entre múltiplos documentos — a categoria que mais
degrada em todos os modelos testados. Deep Research faz quase exclusivamente isso. As conexões
entre fontes distintas são o ponto de maior risco.
Contextos longos com muitos documentos — especialmente acima
de 128K tokens. O modelo pode citar fontes reais e fabricar as ligações entre elas.
"Lacunas na literatura" — requer conhecimento do que não
existe. Análogo a perguntar sobre entidades inexistentes. Alta zona de fabricação.
O que permanece mais confiável
Extração de um único documento — grounding em documento
único é a categoria mais robusta. Se você colou o texto e perguntou sobre ele diretamente, o
risco é menor.
Conceitos consolidados e amplamente repetidos — fatos com
alta frequência no corpus de treinamento têm menor taxa de alucinação pelo teorema dos
singletons.
Estrutura e organização — criar hierarquias, formatar,
reorganizar texto existente. Operações que não dependem de síntese cross-document.
Transparência metodológica sobre o processo de geração — documentar
como foi gerado é mais defensável do que apresentar como se fosse verificado.
O que os dados sugerem — não uma proibição
As ferramentas que transformam pesquisa em infográficos em minutos realizam exatamente as operações de
maior risco nestes estudos. Isso não as torna inúteis — muda o que você precisa verificar. A
citação correta não garante a síntese correta. O risco é maior em literatura de nicho e
recente do que em conceitos estabelecidos. E o modelo nunca vai te avisar espontaneamente quando está
fabricando — porque foi treinado para não fazer isso.