Por Que LLMs Alucinam — e Quanto — Análise de Dois Papers

Alucinação / Fabricação

Quando um LLM gera informação que não existe na realidade ou no documento de referência, mas que soa plausível e confiante. Inclui referências bibliográficas inventadas, datas trocadas, conexões entre ideias que o autor original nunca fez.

Grounding (Ancoragem)

A capacidade do modelo de localizar e extrair corretamente informações que de fato existem no documento fornecido. Um modelo pode ter 90% de grounding e ainda assim fabricar — são capacidades independentes.

RAG (Retrieval-Augmented Generation)

Técnica em que o modelo consulta documentos externos antes de responder. É o que Deep Research, NotebookLM e sistemas similares fazem. RAG melhora o grounding mas não elimina a fabricação na síntese.

Open-weight vs. Proprietário

Modelos open-weight têm pesos publicamente disponíveis (ex: Llama, Qwen, GLM). Modelos proprietários são acessados via API sem acesso aos pesos (ex: GPT-4, Claude, Gemini). O estudo empírico cobre apenas open-weight.

Janela de Contexto / Context Length

Quantidade máxima de texto que o modelo pode "ver" de uma vez (em tokens — unidades de texto menores que palavras). 32K tokens ≈ um livro curto; 200K tokens ≈ um romance longo. Quanto maior, mais degradação.

Temperatura

Parâmetro que controla a aleatoriedade das respostas. T=0 é determinístico (sempre escolhe o token mais provável); T=1 é mais diverso. T=0 não é sinônimo de mais preciso — como os dados mostram.

RLHF (Reinforcement Learning from Human Feedback)

Processo de ajuste fino pós-treinamento que torna os modelos mais "úteis" e conversacionais. Os dados indicam que esse processo também piora a calibração — o modelo perde a tendência de expressar incerteza honesta.

Calibração (ECE)

Mede se a confiança expressa pelo modelo corresponde à sua precisão real. ECE próximo de 0 = bem calibrado (quando diz "tenho certeza", geralmente está certo). ECE alto = descalibrado (fala com confiança mesmo quando erra).

Singleton / Taxa de Singletons

Fatos que aparecem apenas uma vez no corpus de treinamento. Segundo Kalai et al., a taxa de alucinação do modelo não pode ser menor que essa fração. Literatura de nicho e papers recentes têm alta taxa de singletons.

Aggregation (Síntese Cross-Document)

Tarefa de combinar informações de múltiplos documentos para responder uma pergunta. É categoricamente mais difícil que extrair de um único documento — e é exatamente o que Deep Research faz.

IIV (Is-It-Valid)

Problema de classificação binária proposto por Kalai et al.: "este output é válido ou erro?" O paper demonstra que gerar respostas corretas é matematicamente mais difícil que classificar se uma resposta é correta.

Coherence Loss / Loop Infinito

Falha em que o modelo entra em ciclos de repetição e não consegue encerrar a resposta. Mais comum em contextos longos com temperatura zero, porque o decoding determinístico não tem mecanismo de escape de padrões repetitivos.

01

Por Que Acontece — As Causas Estruturais

Antes dos números, é necessário entender por que isso acontece — porque a causa não é bug, negligência ou falta de dados. Kalai et al. demonstram matematicamente que alucinação é uma consequência das propriedades estatísticas de como modelos de linguagem aprendem. Há dois mecanismos distintos: um no treinamento inicial, outro nos processos de avaliação que moldam o desenvolvimento do campo.

(taxa de erro generativo) ≥ 2 × (dificuldade de classificar se um output é válido)

Gerar uma resposta correta é estritamente mais difícil do que julgar se uma resposta é correta. Quando você pede ao modelo para responder sobre algo que apareceu raramente nos seus dados de treinamento, o modelo não consegue distinguir o fato correto dos plausíveis incorretos — e escolhe o mais provável estatisticamente. Isso não muda com modelos maiores ou mais dados gerais. Fatos de nicho, recentes ou especializados são os mais vulneráveis.

taxa de alucinação ≥ fração de fatos que aparecem apenas uma vez no treinamento

Se 20% dos fatos sobre um domínio aparecem apenas uma vez nos dados de treinamento, espera-se que o modelo alucinará em pelo menos 20% desses fatos. A alucinação se concentra exatamente onde o pesquisador mais depende do modelo — papers recentes, debates não consolidados, autores de nicho, metodologias emergentes. Fatos amplamente repetidos (datas históricas conhecidas, conceitos estabelecidos) permanecem corretos. A fronteira do conhecimento é o terreno fértil da fabricação.

Modelo Base — Antes do Ajuste

ECE 0,007

Bem calibrado: quando o modelo diz "não tenho certeza", é porque não tem. A incerteza expressa corresponde à incerteza real.

Modelo Pós-RLHF — Versão "Útil"

ECE 0,074

Significativamente descalibrado. Dado: GPT-4 Technical Report (OpenAI, 2023). O ajuste para ser mais útil e conversacional degrada a honestidade sobre incerteza.

O paradoxo da calibração é o achado mais perturbador de Kalai et al.: o processo que torna os modelos mais úteis — RLHF, o ajuste fino com feedback humano que cria as versões conversacionais do Claude, ChatGPT e Gemini — é o mesmo processo que piora a calibração. O modelo aprende a responder com confiança porque isso foi recompensado durante o treinamento. Ele foi literalmente treinado para não dizer "não sei".

Os Benchmarks que Selecionam Para Alucinação

Por que esse problema persiste se as empresas investem bilhões tentando corrigi-lo? Kalai et al. identificam o mecanismo: os principais benchmarks da área usam gradação binária — certo ou errado, sem crédito para "não sei". Isso cria uma pressão seletiva: modelos que expressam incerteza honesta são penalizados nos rankings; modelos que adivinham com confiança sobem. O ecossistema de avaliação está ativamente premiando o comportamento que produz alucinação.

GPQA

Sem crédito IDK

Perguntas de nível de doutorado, múltipla escolha binária

MMLU-Pro

Sem crédito IDK

Benchmark multidisciplinar, múltipla escolha

SWE-bench

Sem crédito IDK

Programação: patch funciona ou não funciona

HLE

Sem crédito IDK

2.500 perguntas de dificuldade máxima

WildBench

Crédito parcial

Escala 1-10: IDK pontua 3-4, resposta incorreta pode pontuar 5-6. Ainda incentiva adivinhar.

9 de 10 benchmarks analisados por Kalai et al. — Tabela 2 do paper

Consequência Formal Sob gradação binária, para qualquer modelo com qualquer grau de incerteza, a resposta ótima nunca é abster-se. "Não sei" é estratégia matematicamente dominada. Os modelos que vencem os leaderboards são os que adivinham com mais confiança — não os mais honestos. Você está usando os vencedores dessa corrida.

02

Quanto Acontece — Os Números Empíricos

Roig (2026) testou 35 modelos open-weight com 172 bilhões de tokens, usando uma metodologia que gera documentos a partir de verdade conhecida — o que permite medir fabricação com precisão determinística: perguntas sobre entidades que definitivamente não existem no corpus. Qualquer resposta específica é fabricação, sem ambiguidade. Os números abaixo são os melhores cenários possíveis para cada modelo.

Importante antes de ler os números Estes dados cobrem apenas modelos open-weight. Claude, GPT-4 e Gemini não foram testados. Os números podem ser melhores para modelos proprietários — mas a dinâmica estrutural descrita por Kalai aplica-se a todos. Os dados servem como referência de ordem de magnitude, não como medição direta das ferramentas que você usa.

Melhor modelo testado

GLM 4.5, em contexto de 32K tokens, temperatura ótima

1,19%

Mesmo o melhor fabricou 1 em cada 84 respostas

Tier superior típico

GLM 4.6, MiniMax M2.1, DeepSeek V3.1

5–7%

Em condições ótimas, no contexto mais curto testado

Modelo mediano

17 dos 35 modelos testados fabricam acima de 25%

~25%

1 em cada 4 perguntas-armadilha recebe resposta fabricada

A 200K tokens

Todos os 11 modelos testados nesse comprimento

>10%

Nenhum modelo conseguiu ficar abaixo de 10%

03

Quanto Mais Contexto, Mais Fabricação

Um dos achados mais práticos do estudo: a janela de contexto anunciada pelo fabricante do modelo é um mau guia para a capacidade real utilizável. Modelos que performam bem em contextos curtos podem colapsar em contextos longos — e "contexto longo" é exatamente o que Deep Research e NotebookLM usam quando processam muitos documentos simultaneamente.

Taxa de fabricação por comprimento de contexto — casos contrastantes

GLM 4.6 — colapso catastrófico

7,04%

32K

13,75%

128K

71,62%

200K

Um modelo no tier superior (top 6 em contexto curto) torna-se praticamente inutilizável em contexto máximo — fabricando em quase 3 de cada 4 perguntas sobre entidades inexistentes.

Qwen3 Next 80B-A3B — degradação graciosa

7,04%

32K

7,99%

128K

10,25%

200K

Arquitetura Mixture-of-Experts com poucos parâmetros ativos. O comportamento mais resiliente sugere que a arquitetura importa mais que o tamanho total do modelo.

Implicação Direta para Usuários de Deep Research Deep Research processa dezenas de páginas simultaneamente — opera em janelas de 128K a 200K tokens. Isso coloca qualquer modelo, mesmo os de melhor desempenho em contexto curto, na zona de maior degradação do estudo. A síntese que parece coerente pode estar ancorada em fatos reais e conectada por fabricações.

04

O Achado Mais Importante: Citar Certo ≠ Concluir Certo

Este é o resultado mais contraintuitivo do estudo, e o mais relevante para quem usa RAG e NotebookLM. Grounding — a capacidade de localizar e extrair informações de documentos — e resistência à fabricação são capacidades independentes que variam de forma não correlacionada entre modelos. Um modelo pode ser excelente em encontrar o parágrafo certo e ao mesmo tempo inventar a conclusão que o parágrafo supostamente suporta.

Modelos bem calibrados — gap pequeno

GLM 4.5

97,7%

grounding

→

1,2%

fabricação

GLM 4.5 Air

91,5%

grounding

→

3,4%

fabricação

Modelos com gap extremo — alto grounding, alta fabricação

Llama 3.1 70B

90,2%

grounding

→

49,5%

fabricação

Llama 4 Maverick 17B

96,7%

grounding

→

28,1%

fabricação

O que isso significa na prática Quando o NotebookLM ou o Deep Research cita corretamente um trecho de um paper, isso não é evidência de que a síntese construída a partir desse trecho está correta. O modelo pode localizar a fonte certa e inventar a conexão. A citação clicável cria uma ilusão de verificação — você confere que o documento existe, mas não que a conclusão foi tirada dele.

05

O Paradoxo da Temperatura Zero

A sabedoria convencional diz: defina temperatura como zero para máxima precisão factual. Os dados não sustentam isso como regra universal. Temperatura zero produz a maior acurácia geral em 60% dos casos — uma maioria, mas longe de ser lei. Para fabricação especificamente, temperaturas mais altas ajudam mais do que T=0 em mais da metade dos modelos testados. E há um custo grave: em contextos longos, T=0 pode tornar o modelo literalmente incapaz de encerrar uma resposta.

60%

dos casos

T=0 produz maior acurácia geral. Não é regra universal.

53%

dos casos

Temperaturas mais altas reduzem fabricação. Contraintuitivo.

48×

mais loops

T=0 vs T=1 em 200K tokens (GLM 4.7). Loops = respostas inutilizáveis.

14%

de falhas

Em 128K com T=0, 14% das respostas do Llama 3.1 8B foram inutilizáveis por loop infinito.

Por que loops acontecem com T=0 Em temperatura zero, o modelo sempre escolhe o token de maior probabilidade. Em contextos longos, padrões de atenção repetitivos podem se tornar auto-reforçadores: a repetição passa a ter a maior probabilidade, e sem nenhuma aleatoriedade para quebrar o ciclo, o modelo fica preso. Para deployments que exigem confiabilidade, T=0,4 ou T=0,7 tende a ser o equilíbrio mais robusto — ganha-se em coerência sem perda significativa de acurácia.

06

O Que os Papers Não Cobrem — Limitações Reais

Limitações Explícitas de Roig (2026)

Apenas modelos open-weight. GPT-4, Claude, Gemini são acessados via API sem acesso aos pesos — não foram testados e podem ter perfis diferentes (possivelmente melhores, dado o investimento em alinhamento das empresas).

Apenas document Q&A. O cenário testado: um documento está na janela de contexto e o modelo é perguntado sobre ele. Geração conversacional e articulação teórica têm dinâmicas distintas.

Apenas inglês. Taxas de fabricação podem diferir em outros idiomas, especialmente com modelos de treinamento predominantemente em inglês.

Apenas quatro temperaturas. O espaço entre 0,0 e 0,4 pode conter dinâmicas não capturadas.

Limitações de Kalai et al. (2025) O argumento sobre pré-treinamento aplica-se a modelos base, com derivações matemáticas robustas. O dado de calibração pós-RLHF (ECE 0,007 → 0,074) é específico ao GPT-4 de 2023 — é um ponto de dado real, não uma afirmação universal sobre todos os modelos proprietários atuais. O argumento sobre benchmarks, porém, é estrutural: a análise dos 10 benchmarks e suas regras de gradação é verificável por qualquer um.

07

Para Quem Usa IA Para Pesquisar e Criar

Os papers não dizem "pare de usar essas ferramentas". Dizem que o risco existe, não é distribuído uniformemente, e tem localização específica. O que você pode fazer com isso é ajustar a confiança de acordo com o tipo de operação que foi realizada — não rejeitar tudo, mas distinguir onde o risco é maior.

Onde o risco se concentra

Referências bibliográficas geradas por LLM — especialmente em campos de nicho. O teorema dos singletons prevê que fatos especializados e recentes são o maior ponto cego. Títulos, autores, DOIs: verificar nas bases originais.

Sínteses entre múltiplos documentos — a categoria que mais degrada em todos os modelos testados. Deep Research faz quase exclusivamente isso. As conexões entre fontes distintas são o ponto de maior risco.

Contextos longos com muitos documentos — especialmente acima de 128K tokens. O modelo pode citar fontes reais e fabricar as ligações entre elas.

"Lacunas na literatura" — requer conhecimento do que não existe. Análogo a perguntar sobre entidades inexistentes. Alta zona de fabricação.

O que permanece mais confiável

Extração de um único documento — grounding em documento único é a categoria mais robusta. Se você colou o texto e perguntou sobre ele diretamente, o risco é menor.

Conceitos consolidados e amplamente repetidos — fatos com alta frequência no corpus de treinamento têm menor taxa de alucinação pelo teorema dos singletons.

Estrutura e organização — criar hierarquias, formatar, reorganizar texto existente. Operações que não dependem de síntese cross-document.

Transparência metodológica sobre o processo de geração — documentar como foi gerado é mais defensável do que apresentar como se fosse verificado.

O que os dados sugerem — não uma proibição As ferramentas que transformam pesquisa em infográficos em minutos realizam exatamente as operações de maior risco nestes estudos. Isso não as torna inúteis — muda o que você precisa verificar. A citação correta não garante a síntese correta. O risco é maior em literatura de nicho e recente do que em conceitos estabelecidos. E o modelo nunca vai te avisar espontaneamente quando está fabricando — porque foi treinado para não fazer isso.