Análise de Resíduos na Regressão: Checklist do Modelo

Análise de resíduos na regressão: o checklist completo antes de fechar o modelo

Análise de resíduos na regressão: o checklist completo antes de fechar o modelo

Os coeficientes contam o que o modelo aprendeu; os resíduos contam o que ele não aprendeu. É na diferença entre o valor observado e o valor estimado de cada dado que se escondem os defeitos de especificação, as variáveis esquecidas, os dados problemáticos e as violações de pressupostos que invalidam os testes estatísticos. Este artigo organiza, em forma de checklist, a análise de resíduos que todo modelo de avaliação deve passar antes de virar laudo.

O que são os resíduos — e por que eles validam o modelo

O resíduo de cada dado é a sobra: resíduo = valor observado − valor estimado. A inferência clássica — testes t e F, intervalos de confiança — só vale se os resíduos se comportarem como a teoria pressupõe: distribuição aproximadamente normal, variância constante, sem padrão sistemático. Se os resíduos violam os pressupostos, as significâncias reportadas no laudo perdem o lastro — e com elas, o enquadramento do grau de fundamentação.

Para a análise, trabalha-se em geral com os resíduos padronizados (resíduo dividido pelo desvio padrão dos resíduos), que permitem comparações em escala única.

Item 1 — Normalidade: a regra 68 / 90 / 95

A verificação prática consagrada compara a distribuição dos resíduos padronizados com o que a curva normal prevê:

Intervalo de resíduos padronizados Frequência esperada (normal)
entre −1 e +1 ≈ 68% dos dados
entre −1,64 e +1,64 ≈ 90% dos dados
entre −1,96 e +1,96 ≈ 95% dos dados

Se as frequências observadas na sua amostra ficam próximas dessas referências, a normalidade está razoavelmente atendida. Desvios fortes — caudas pesadas, assimetria visível no histograma — indicam problemas: outliers não tratados, variável faltante ou forma funcional inadequada da variável dependente (a transformação para ln(y) frequentemente normaliza resíduos de amostras imobiliárias, como discutimos em transformações de variáveis).

Item 2 — Homocedasticidade: o gráfico que não pode ter funil

Homocedasticidade é variância constante dos resíduos. A verificação é visual e direta: plote os resíduos (eixo vertical) contra os valores estimados (eixo horizontal). O desejável é uma nuvem sem forma, distribuída de modo uniforme em torno do zero.

O padrão patológico clássico é o funil: resíduos pequenos para valores baixos e crescentes para valores altos. Em avaliação de imóveis é comuníssimo — o erro absoluto cresce com o valor do imóvel — e o tratamento usual é modelar ln(y) em vez de y, transformando dispersão proporcional em dispersão constante.

Por que importa: com heterocedasticidade, os erros padrão dos coeficientes ficam mal calculados e os testes de significância reportam números que não merecem confiança.

Item 3 — Linearidade: resíduos contra cada variável

Plote os resíduos contra cada variável independente do modelo. Novamente, o desejável é ausência de padrão. Uma curvatura visível — resíduos positivos nas pontas e negativos no meio, por exemplo — denuncia que a forma funcional daquela variável está errada: a relação real é curva e o modelo a tratou como reta. A correção não é excluir dados; é rever a transformação da variável.

Item 4 — Pontos discrepantes e influenciantes

O exame individual dos resíduos identifica os candidatos a outlier (resíduos padronizados fora de ±2), mas o diagnóstico completo exige medir também a influência de cada dado sobre o modelo — e aí a ferramenta é a distância de Cook. O fluxo completo de investigação e os critérios de exclusão estão no nosso artigo dedicado: distância de Cook e outliers.

Lembrete que não envelhece: cada exclusão muda os resíduos de todos os demais dados — o checklist inteiro deve ser refeito após qualquer exclusão, inclusive a verificação de quantidade mínima e micronumerosidade.

Item 5 — Resíduos relativos: a leitura que o contratante entende

Além dos resíduos padronizados (escala estatística), a prática avaliatória consagrou os resíduos relativos: a diferença entre observado e estimado expressa como percentual do valor observado de cada dado.

resíduo relativo = (observado − estimado) ÷ observado × 100

A leitura é imediata: um resíduo relativo de +18% significa que o modelo estimou aquele dado 18% abaixo do valor observado. A análise serve a dois propósitos:

  • Triagem complementar de dados problemáticos: resíduos relativos muito elevados apontam dados que merecem investigação (erro de cadastro, característica não capturada) — em paralelo ao critério padronizado;
  • Comunicação da qualidade do modelo: dizer que "o modelo estima a maioria dos dados com desvio inferior a 15%" é compreensível para qualquer leitor do laudo, inclusive o não técnico. Vários contratantes institucionais, inclusive, estabelecem limites próprios de resíduo relativo em seus normativos internos — verifique as exigências do seu contratante.

Item 6 — Coerência dos sinais e magnitudes

O último item não é gráfico, é juízo: os coeficientes fazem sentido perante o mercado? Área com efeito coerente, padrão construtivo valorizando, distância penalizando na direção certa? Sinal contraintuitivo com resíduos limpos costuma indicar multicolinearidade ou variável faltante. Modelo estatisticamente impecável e economicamente absurdo não está pronto — está errado de um jeito mais difícil de ver.

O checklist em ordem de execução

# Verificação Ferramenta Sinal de problema
1 Outliers e influenciantes Resíduos padronizados + distância de Cook Dados fora de ±2; Cook destacado
2 Linearidade Resíduos × cada variável Curvatura, padrão sistemático
3 Homocedasticidade Resíduos × valores estimados Funil, dispersão crescente
4 Normalidade Histograma + regra 68/90/95 Assimetria, caudas pesadas
5 Resíduos relativos Tabela dado a dado Percentuais elevados concentrados
6 Coerência econômica Leitura crítica dos coeficientes Sinais e magnitudes sem sentido de mercado

A ordem importa: outliers e forma funcional (itens 1 a 3) são causas; não-normalidade (item 4) é frequentemente consequência. Corrigir a causa costuma resolver o sintoma — o caminho inverso (perseguir a normalidade excluindo dados) é o vício a evitar.

Erros comuns

  • Verificar apenas a normalidade e ignorar homocedasticidade e linearidade.
  • Olhar só estatísticas-resumo e nunca os gráficos — resíduo se analisa com os olhos.
  • Excluir dados até o histograma "ficar normal", em vez de corrigir a especificação.
  • Esquecer de refazer todo o checklist após excluir um dado ou trocar uma transformação.
  • Tratar resíduo relativo alto como sentença de exclusão, sem investigar o dado.
  • Aprovar o modelo pelos números e não submeter os coeficientes ao teste do bom senso de mercado.

Perguntas frequentes

Quantos dados podem ficar fora de ±2 desvios?

Pela própria curva normal, cerca de 5% dos dados devem naturalmente cair fora desse intervalo. Em uma amostra de 40 dados, um ou dois resíduos entre 2 e 2,5 são esperados — o alerta real são resíduos muito extremos (acima de 3) ou concentração anormal fora do intervalo.

Preciso de teste formal de normalidade ou o histograma basta?

Para o porte típico das amostras de avaliação, a verificação pela aderência aos percentuais 68/90/95 e pelo exame do histograma é a prática consagrada e suficiente. Testes formais existem e podem complementar, mas em amostras pequenas têm pouco poder — e em amostras grandes rejeitam normalidade por desvios irrelevantes.

Resíduos ruins invalidam o valor estimado?

Invalidam a confiança nos testes e nos intervalos reportados — que sustentam significâncias, grau de fundamentação e precisão. A estimativa pontual pode até ser razoável, mas um laudo não se sustenta em "pode até ser": resolve-se a especificação antes de fechar.

E a independência dos resíduos (autocorrelação)?

Em dados de corte transversal, como as amostras típicas de avaliação, a autocorrelação clássica de séries temporais raramente é o problema central. A versão imobiliária do fenômeno é espacial — dados do mesmo empreendimento ou da mesma quadra com erros parecidos — e o tratamento prático é garantir diversidade na coleta e incluir as variáveis de localização adequadas.

Conclusão

A análise de resíduos é o controle de qualidade do modelo: é nela que a especificação mostra suas falhas antes que o laudo as carregue. O método é simples e visual — gráficos contra estimados e contra cada variável, histograma contra a regra 68/90/95, tabela de resíduos relativos, leitura crítica dos coeficientes — e o custo de pular qualquer etapa é assinar significâncias que os pressupostos não sustentam. Modelo bom não é o que tem resíduos pequenos: é o que tem resíduos sem história para contar.

Experimente o Datawarp gratuitamente

Acesse a plataforma completa de avaliação imobiliária com inteligência artificial.

Começar agora →
DataWarp Logo DataWarp