Distância de Cook e outliers: quando excluir um dado da amostra
Todo avaliador já passou por isso: o modelo está quase pronto, mas um ou dois dados teimam em destoar do conjunto. Excluir ou manter? A decisão não pode ser tomada apenas para "melhorar o R²" — ela precisa de critério estatístico e justificativa técnica. Neste artigo, explicamos a diferença entre outlier e ponto influenciante, como usar a distância de Cook e quais cuidados a NBR 14653-2 exige nesse processo.
Outlier não é tudo igual: três conceitos diferentes
Antes de qualquer exclusão, é preciso distinguir três situações que costumam ser tratadas como sinônimos, mas não são:
- Outlier (ponto discrepante): dado cujo valor observado está muito distante do valor estimado pelo modelo — ou seja, apresenta resíduo elevado;
- Ponto de alavancagem (leverage): dado cujas características (variáveis independentes) estão distantes do restante da amostra — por exemplo, um terreno de 5.000 m² em uma amostra onde todos os demais têm entre 200 e 500 m²;
- Ponto influenciante: dado que, ao ser retirado, altera significativamente os coeficientes do modelo. Em geral resulta da combinação de resíduo elevado com alta alavancagem.
Um dado pode ser outlier sem ser influenciante (resíduo alto, mas no centro da amostra) e pode ser influenciante sem ter resíduo chamativo (alavancagem alta "puxa" a reta para perto de si, mascarando o próprio resíduo). É exatamente por isso que olhar só os resíduos não basta.
Identificando outliers: resíduos padronizados
O critério mais usado na prática avaliatória é o dos resíduos padronizados: divide-se cada resíduo pelo desvio padrão dos resíduos, obtendo uma medida comparável entre todos os dados.
O critério usual considera discrepantes os dados com resíduo padronizado fora do intervalo de −2 a +2 desvios padrões. Em uma distribuição normal, espera-se que cerca de 5% dos dados fiquem fora desse intervalo naturalmente — portanto, um dado em ±2,1 não é automaticamente um problema; um dado em ±4 merece investigação imediata.
O que é a distância de Cook?
A distância de Cook mede a influência de cada observação sobre o modelo: ela quantifica o quanto os valores estimados (e, por consequência, os coeficientes) mudariam se aquela observação fosse removida da amostra.
Conceitualmente, ela combina as duas dimensões do problema:
- O tamanho do resíduo da observação;
- A alavancagem da observação (quão atípicas são suas características).
Por isso a distância de Cook é a ferramenta certa para responder à pergunta que realmente importa: "este dado está distorcendo o meu modelo?"
Como interpretar os valores
Não existe um corte único universalmente aceito, mas os critérios práticos mais difundidos são:
| Critério | Leitura |
|---|---|
| Di > 1 | Observação fortemente influenciante — investigação obrigatória |
| Di > 4/n | Critério mais rigoroso, útil como triagem em amostras maiores |
| Di muito maior que o dos demais dados | Mesmo abaixo dos cortes, um valor destacado do conjunto merece atenção |
Na prática, mais importante que o corte absoluto é a leitura comparativa: ordene as distâncias de Cook e observe se há um ou dois dados claramente descolados dos demais.
O fluxo de decisão: investigar antes de excluir
Identificar um dado discrepante ou influenciante não autoriza sua exclusão automática. O fluxo correto é:
1. Verifique erro de cadastro. Grande parte dos "outliers" são erros de digitação: área com um zero a mais, valor total lançado como unitário, endereço errado. Corrigido o erro, o dado volta ao modelo.
2. Verifique se o dado pertence ao mesmo mercado. Um imóvel em condições atípicas de negociação (venda entre parentes, leilão, urgência do vendedor) ou com característica não capturada pelas variáveis do modelo (vista para o mar, contaminação do solo) pode legitimamente ser excluído — e a justificativa é mercadológica, não apenas estatística.
3. Avalie se falta variável no modelo. Às vezes o dado discrepante está revelando uma característica relevante que o modelo ignora. Nesse caso, a solução é melhorar a especificação do modelo, não descartar o dado.
4. Só então decida pela exclusão estatística. Se o dado é legítimo, pertence ao mercado, mas distorce o modelo de forma comprovada (distância de Cook destacada, resíduo padronizado extremo), a exclusão pode ser feita — sempre registrada e justificada no laudo.
Cuidados exigidos pela boa prática e pela norma
- Documente cada exclusão. O laudo deve permitir que outro profissional reproduza o caminho: quais dados saíram e por quê.
- Reverifique a micronumerosidade. Os mínimos da NBR 14653-2 valem para os dados efetivamente utilizados. Se a exclusão deixar uma categoria de dummy abaixo do mínimo, surge um novo problema — veja nosso artigo sobre micronumerosidade na NBR 14653-2.
- Cuidado com a exclusão em cascata. Ao retirar um dado, os resíduos de todos os outros mudam, e novos dados podem aparecer fora do intervalo de ±2. Excluir sucessivamente até "limpar" a amostra é um vício metodológico que artificializa o modelo e reduz sua aderência ao mercado real.
- Desconfie de modelos perfeitos. Uma amostra de mercado real tem dispersão. R² altíssimo obtido à custa de muitas exclusões costuma indicar modelo sobreajustado, não modelo bom.
Exemplo prático
Em uma amostra de 32 apartamentos, o modelo apresenta um dado com resíduo padronizado de +3,1 e distância de Cook de 0,9 — muito acima dos demais, todos abaixo de 0,15.
A investigação revela que o anúncio informava "120 m²" referindo-se à área total, enquanto os demais dados da amostra usavam área privativa. Corrigida a área para 87 m² de área privativa, o dado se realinha ao conjunto: resíduo padronizado de +0,6 e distância de Cook irrelevante.
Sem a investigação, esse dado teria sido excluído — e uma informação de mercado perfeitamente válida seria desperdiçada por um erro de cadastro.
Erros comuns
- Excluir dados apenas para aumentar o R² ou melhorar a significância das variáveis.
- Olhar somente os resíduos e ignorar a alavancagem (pontos influenciantes passam despercebidos).
- Excluir em cascata, rodada após rodada, até a amostra ficar "comportada".
- Não registrar no laudo quais dados foram excluídos e por quê.
- Esquecer de reverificar micronumerosidade e quantidade mínima de dados após as exclusões.
Perguntas frequentes
Existe um limite de quantos dados posso excluir?
A norma não fixa um percentual máximo, mas a quantidade de dados efetivamente utilizados precisa continuar atendendo aos mínimos do grau de fundamentação pretendido. Além disso, exclusões numerosas enfraquecem a representatividade da amostra e devem acender um alerta sobre a especificação do modelo.
Resíduo padronizado fora de ±2 obriga a exclusão?
Não. Estatisticamente, espera-se que cerca de 5% dos dados de uma amostra normal fiquem fora desse intervalo. O critério aponta candidatos à investigação, não condenados à exclusão.
Distância de Cook alta com resíduo baixo: como isso é possível?
Acontece com pontos de alta alavancagem: por estarem isolados no espaço das variáveis independentes, eles "puxam" a superfície de regressão para perto de si, o que reduz artificialmente o próprio resíduo. A distância de Cook captura essa influência que o resíduo esconde.
Devo excluir o dado mais caro e o mais barato da amostra?
Não como regra. Valores extremos legítimos delimitam o intervalo de mercado e podem ser exatamente os dados que sustentam a avaliação de imóveis nos extremos da amostra. A exclusão só se justifica pelos critérios de investigação descritos acima.
Conclusão
A distância de Cook e os resíduos padronizados são ferramentas complementares: o resíduo mostra quem destoa do modelo, a distância de Cook mostra quem distorce o modelo. Nenhuma das duas, porém, substitui a investigação do dado — erro de cadastro, condição atípica de mercado ou variável faltante explicam a maioria dos casos. Excluir deve ser a última etapa de um processo documentado, e nunca um atalho para melhorar estatísticas de ajuste.
