Análise de resíduos na regressão: o checklist completo antes de fechar o modelo
Os coeficientes contam o que o modelo aprendeu; os resíduos contam o que ele não aprendeu. É na diferença entre o valor observado e o valor estimado de cada dado que se escondem os defeitos de especificação, as variáveis esquecidas, os dados problemáticos e as violações de pressupostos que invalidam os testes estatísticos. Este artigo organiza, em forma de checklist, a análise de resíduos que todo modelo de avaliação deve passar antes de virar laudo.
O que são os resíduos — e por que eles validam o modelo
O resíduo de cada dado é a sobra: resíduo = valor observado − valor estimado. A inferência clássica — testes t e F, intervalos de confiança — só vale se os resíduos se comportarem como a teoria pressupõe: distribuição aproximadamente normal, variância constante, sem padrão sistemático. Se os resíduos violam os pressupostos, as significâncias reportadas no laudo perdem o lastro — e com elas, o enquadramento do grau de fundamentação.
Para a análise, trabalha-se em geral com os resíduos padronizados (resíduo dividido pelo desvio padrão dos resíduos), que permitem comparações em escala única.
Item 1 — Normalidade: a regra 68 / 90 / 95
A verificação prática consagrada compara a distribuição dos resíduos padronizados com o que a curva normal prevê:
| Intervalo de resíduos padronizados | Frequência esperada (normal) |
|---|---|
| entre −1 e +1 | ≈ 68% dos dados |
| entre −1,64 e +1,64 | ≈ 90% dos dados |
| entre −1,96 e +1,96 | ≈ 95% dos dados |
Se as frequências observadas na sua amostra ficam próximas dessas referências, a normalidade está razoavelmente atendida. Desvios fortes — caudas pesadas, assimetria visível no histograma — indicam problemas: outliers não tratados, variável faltante ou forma funcional inadequada da variável dependente (a transformação para ln(y) frequentemente normaliza resíduos de amostras imobiliárias, como discutimos em transformações de variáveis).
Item 2 — Homocedasticidade: o gráfico que não pode ter funil
Homocedasticidade é variância constante dos resíduos. A verificação é visual e direta: plote os resíduos (eixo vertical) contra os valores estimados (eixo horizontal). O desejável é uma nuvem sem forma, distribuída de modo uniforme em torno do zero.
O padrão patológico clássico é o funil: resíduos pequenos para valores baixos e crescentes para valores altos. Em avaliação de imóveis é comuníssimo — o erro absoluto cresce com o valor do imóvel — e o tratamento usual é modelar ln(y) em vez de y, transformando dispersão proporcional em dispersão constante.
Por que importa: com heterocedasticidade, os erros padrão dos coeficientes ficam mal calculados e os testes de significância reportam números que não merecem confiança.
Item 3 — Linearidade: resíduos contra cada variável
Plote os resíduos contra cada variável independente do modelo. Novamente, o desejável é ausência de padrão. Uma curvatura visível — resíduos positivos nas pontas e negativos no meio, por exemplo — denuncia que a forma funcional daquela variável está errada: a relação real é curva e o modelo a tratou como reta. A correção não é excluir dados; é rever a transformação da variável.
Item 4 — Pontos discrepantes e influenciantes
O exame individual dos resíduos identifica os candidatos a outlier (resíduos padronizados fora de ±2), mas o diagnóstico completo exige medir também a influência de cada dado sobre o modelo — e aí a ferramenta é a distância de Cook. O fluxo completo de investigação e os critérios de exclusão estão no nosso artigo dedicado: distância de Cook e outliers.
Lembrete que não envelhece: cada exclusão muda os resíduos de todos os demais dados — o checklist inteiro deve ser refeito após qualquer exclusão, inclusive a verificação de quantidade mínima e micronumerosidade.
Item 5 — Resíduos relativos: a leitura que o contratante entende
Além dos resíduos padronizados (escala estatística), a prática avaliatória consagrou os resíduos relativos: a diferença entre observado e estimado expressa como percentual do valor observado de cada dado.
resíduo relativo = (observado − estimado) ÷ observado × 100
A leitura é imediata: um resíduo relativo de +18% significa que o modelo estimou aquele dado 18% abaixo do valor observado. A análise serve a dois propósitos:
- Triagem complementar de dados problemáticos: resíduos relativos muito elevados apontam dados que merecem investigação (erro de cadastro, característica não capturada) — em paralelo ao critério padronizado;
- Comunicação da qualidade do modelo: dizer que "o modelo estima a maioria dos dados com desvio inferior a 15%" é compreensível para qualquer leitor do laudo, inclusive o não técnico. Vários contratantes institucionais, inclusive, estabelecem limites próprios de resíduo relativo em seus normativos internos — verifique as exigências do seu contratante.
Item 6 — Coerência dos sinais e magnitudes
O último item não é gráfico, é juízo: os coeficientes fazem sentido perante o mercado? Área com efeito coerente, padrão construtivo valorizando, distância penalizando na direção certa? Sinal contraintuitivo com resíduos limpos costuma indicar multicolinearidade ou variável faltante. Modelo estatisticamente impecável e economicamente absurdo não está pronto — está errado de um jeito mais difícil de ver.
O checklist em ordem de execução
| # | Verificação | Ferramenta | Sinal de problema |
|---|---|---|---|
| 1 | Outliers e influenciantes | Resíduos padronizados + distância de Cook | Dados fora de ±2; Cook destacado |
| 2 | Linearidade | Resíduos × cada variável | Curvatura, padrão sistemático |
| 3 | Homocedasticidade | Resíduos × valores estimados | Funil, dispersão crescente |
| 4 | Normalidade | Histograma + regra 68/90/95 | Assimetria, caudas pesadas |
| 5 | Resíduos relativos | Tabela dado a dado | Percentuais elevados concentrados |
| 6 | Coerência econômica | Leitura crítica dos coeficientes | Sinais e magnitudes sem sentido de mercado |
A ordem importa: outliers e forma funcional (itens 1 a 3) são causas; não-normalidade (item 4) é frequentemente consequência. Corrigir a causa costuma resolver o sintoma — o caminho inverso (perseguir a normalidade excluindo dados) é o vício a evitar.
Erros comuns
- Verificar apenas a normalidade e ignorar homocedasticidade e linearidade.
- Olhar só estatísticas-resumo e nunca os gráficos — resíduo se analisa com os olhos.
- Excluir dados até o histograma "ficar normal", em vez de corrigir a especificação.
- Esquecer de refazer todo o checklist após excluir um dado ou trocar uma transformação.
- Tratar resíduo relativo alto como sentença de exclusão, sem investigar o dado.
- Aprovar o modelo pelos números e não submeter os coeficientes ao teste do bom senso de mercado.
Perguntas frequentes
Quantos dados podem ficar fora de ±2 desvios?
Pela própria curva normal, cerca de 5% dos dados devem naturalmente cair fora desse intervalo. Em uma amostra de 40 dados, um ou dois resíduos entre 2 e 2,5 são esperados — o alerta real são resíduos muito extremos (acima de 3) ou concentração anormal fora do intervalo.
Preciso de teste formal de normalidade ou o histograma basta?
Para o porte típico das amostras de avaliação, a verificação pela aderência aos percentuais 68/90/95 e pelo exame do histograma é a prática consagrada e suficiente. Testes formais existem e podem complementar, mas em amostras pequenas têm pouco poder — e em amostras grandes rejeitam normalidade por desvios irrelevantes.
Resíduos ruins invalidam o valor estimado?
Invalidam a confiança nos testes e nos intervalos reportados — que sustentam significâncias, grau de fundamentação e precisão. A estimativa pontual pode até ser razoável, mas um laudo não se sustenta em "pode até ser": resolve-se a especificação antes de fechar.
E a independência dos resíduos (autocorrelação)?
Em dados de corte transversal, como as amostras típicas de avaliação, a autocorrelação clássica de séries temporais raramente é o problema central. A versão imobiliária do fenômeno é espacial — dados do mesmo empreendimento ou da mesma quadra com erros parecidos — e o tratamento prático é garantir diversidade na coleta e incluir as variáveis de localização adequadas.
Conclusão
A análise de resíduos é o controle de qualidade do modelo: é nela que a especificação mostra suas falhas antes que o laudo as carregue. O método é simples e visual — gráficos contra estimados e contra cada variável, histograma contra a regra 68/90/95, tabela de resíduos relativos, leitura crítica dos coeficientes — e o custo de pular qualquer etapa é assinar significâncias que os pressupostos não sustentam. Modelo bom não é o que tem resíduos pequenos: é o que tem resíduos sem história para contar.
