Saneamento de Amostra em Avaliação Imobiliária | DataWarp

Saneamento de amostra: critérios para incluir ou excluir dados antes da regressão

O que é saneamento de amostra?

Sanear a amostra significa revisar criticamente cada dado coletado antes de rodar a regressão. O objetivo é garantir que apenas elementos comparáveis, confiáveis e representativos do mercado entrem no modelo — sem inflar artificialmente o tamanho da amostra com dados inadequados.

A NBR 14653-2 trata do tema no item 8.2.1, estabelecendo que os dados devem ser selecionados com base em atributos comparáveis ao bem avaliando, e que o tratamento de dados discrepantes deve seguir critérios técnicos justificados. Não existe uma lista fechada de passos obrigatórios, mas é possível organizar o processo em três etapas principais.

O DataWarp realiza o saneamento automático da amostra antes de rodar qualquer modelo. Dados com tipologia incompatível, fora do intervalo esperado de variáveis ou com resíduos acima do limite crítico são sinalizados automaticamente — e você decide o que fazer com cada um antes de fechar o laudo.

Etapa 1 — Homogeneidade: a amostra faz sentido junto?

O primeiro filtro é conceitual: os imóveis coletados pertencem ao mesmo segmento de mercado? A NBR 14653-2 (item 8.2.1.1) exige que a amostra seja homogênea quanto às características que influenciam o valor.

Na prática, isso significa verificar:

  • Tipologia: misturar apartamentos padrão com quitinetes é aceitável somente se uma variável dicotômica explicar adequadamente a diferença. Sem esse controle, os dois grupos puxam o modelo em direções opostas e os coeficientes perdem sentido.
  • Vocação: imóveis mistos (comercial + residencial) têm dinâmicas de mercado distintas. A recomendação normativa é usar modelos separados. Se a amostra for insuficiente para isso, a variável dicotômica é a alternativa — desde que a diferença seja estatisticamente significativa.
  • Localização: ampliar demais a região para atingir o n mínimo compromete a comparabilidade. A extensão geográfica deve ser justificada pela homogeneidade de características, não pela necessidade de dados.
Incluir um dado inadequado para "fechar o número" é pior do que trabalhar com amostra menor. O modelo vai tentar explicar variações que não existem, e os coeficientes vão refletir isso.

Etapa 2 — Dados temporais: quando o dado é velho demais?

A NBR 14653-1 (itens 6.4.1 e 6.4.2) não fixa um limite rígido de tempo para validade dos dados. A recomendação é buscar dados com atributos comparáveis ao bem avaliando e priorizar os mais recentes quando disponíveis.

O que a norma exige é que a variável temporal seja tratada adequadamente no modelo quando o período de coleta for longo o suficiente para capturar variações de preço. Há duas abordagens:

  • Variável quantitativa: número de meses entre a data do dado e a data de referência da avaliação. O coeficiente captura a tendência de valorização ou desvalorização ao longo do tempo.
  • Variável proxy: indexador de mercado (IGMI, INCC, etc.) aplicado à data do evento. Útil quando a valorização segue um índice conhecido.

Em ambos os casos, a escolha e a forma de tratamento devem estar explícitas no laudo. Um dado antigo sem nenhum ajuste temporal é um dado potencialmente inadequado — não necessariamente descartável, mas que precisa de tratamento.

Etapa 3 — Dados discrepantes: excluir ou manter?

Identificar um dado como discrepante não é suficiente para descartá-lo. A NBR 14653-2 (item 8.2.1.2) exige que o tratamento de outliers seja baseado em critérios estatísticos robustos e que a decisão seja justificada tecnicamente.

O fluxo correto é:

  1. Identificar: análise gráfica de resíduos, Distância de Cook, padronização dos resíduos. Um dado com resíduo muito alto ou Distância de Cook próxima ou acima de 1 merece atenção.
  2. Investigar a causa: o dado é discrepante porque é de fato atípico no mercado, ou porque há um erro de coleta (área errada, data errada, transação entre partes relacionadas)?
  3. Decidir com critério:
    • Erro de coleta confirmado → corrigir ou descartar, com justificativa.
    • Dado atípico de mercado, mas estatisticamente controlado (Cook < 1, resíduos normais) → manter, especialmente se a remoção piora o modelo.
    • Dado que distorce significativamente os coeficientes sem explicação de mercado → descartar, com justificativa explícita no laudo.

Um caso concreto da base normativa: em uma amostra de terrenos, um dado com Distância de Cook de 0,3 (bem abaixo do limite crítico de 1) e resíduos com distribuição aproximadamente normal deve ser mantido — mesmo que pareça outlier visualmente. Removê-lo sem justificativa técnica configura manipulação da amostra.

Imóveis singulares: quando a amostra simplesmente não existe

Alguns imóveis são genuinamente singulares — uma edificação com uso misto em imóvel de matrícula única, por exemplo. Nesses casos, a NBR 14653-2 (item 8.2.2) reconhece a impossibilidade de formação de amostra adequada e permite o uso do campo de arbítrio, desde que devidamente justificado.

O ponto crítico: não se deve incluir comparáveis inadequados apenas para atingir o número mínimo de dados. Se a amostra representativa não existe, o caminho normativo é reconhecer isso e usar os instrumentos previstos na norma — não forçar uma regressão com dados que não fazem sentido comparativo.

O que registrar no laudo

O saneamento da amostra precisa estar documentado. Para cada decisão relevante, o laudo deve conter:

  • Critério utilizado para inclusão ou exclusão do dado
  • Referência normativa que ampara a decisão
  • Para exclusões: a razão técnica (erro de coleta, dado atípico sem respaldo de mercado, incompatibilidade tipológica)
  • Para manutenção de dados discrepantes: os indicadores estatísticos que sustentam a decisão (Cook, resíduos, impacto no modelo)

Um laudo que descarta dados sem justificativa, ou que mantém dados inadequados para inflar a amostra, fica vulnerável a questionamentos técnicos — independentemente de quantas casas decimais o resultado final tenha.

Resumo prático

Situação Ação recomendada Referência
Dado de tipologia diferente Incluir com variável dicotômica ou excluir NBR 14653-2, 8.2.1.1
Dado antigo sem ajuste temporal Incluir variável de tempo ou excluir NBR 14653-1, 6.4.1 e 6.4.2
Outlier com erro de coleta confirmado Corrigir ou descartar, com justificativa NBR 14653-2, 8.2.1.2
Outlier estatisticamente controlado (Cook < 1) Manter, especialmente se remoção piora o modelo NBR 14653-2, 8.2.1.2
Imóvel singular sem amostra adequada Campo de arbítrio com justificativa NBR 14653-2, 8.2.2 e 9.2.1

Experimente o Datawarp gratuitamente

Acesse a plataforma completa de avaliação imobiliária com inteligência artificial.

Começar agora →
DataWarp Logo DataWarp