O que é saneamento de amostra?
Sanear a amostra significa revisar criticamente cada dado coletado antes de rodar a regressão. O objetivo é garantir que apenas elementos comparáveis, confiáveis e representativos do mercado entrem no modelo — sem inflar artificialmente o tamanho da amostra com dados inadequados.
A NBR 14653-2 trata do tema no item 8.2.1, estabelecendo que os dados devem ser selecionados com base em atributos comparáveis ao bem avaliando, e que o tratamento de dados discrepantes deve seguir critérios técnicos justificados. Não existe uma lista fechada de passos obrigatórios, mas é possível organizar o processo em três etapas principais.
O DataWarp realiza o saneamento automático da amostra antes de rodar qualquer modelo. Dados com tipologia incompatível, fora do intervalo esperado de variáveis ou com resíduos acima do limite crítico são sinalizados automaticamente — e você decide o que fazer com cada um antes de fechar o laudo.
Etapa 1 — Homogeneidade: a amostra faz sentido junto?
O primeiro filtro é conceitual: os imóveis coletados pertencem ao mesmo segmento de mercado? A NBR 14653-2 (item 8.2.1.1) exige que a amostra seja homogênea quanto às características que influenciam o valor.
Na prática, isso significa verificar:
- Tipologia: misturar apartamentos padrão com quitinetes é aceitável somente se uma variável dicotômica explicar adequadamente a diferença. Sem esse controle, os dois grupos puxam o modelo em direções opostas e os coeficientes perdem sentido.
- Vocação: imóveis mistos (comercial + residencial) têm dinâmicas de mercado distintas. A recomendação normativa é usar modelos separados. Se a amostra for insuficiente para isso, a variável dicotômica é a alternativa — desde que a diferença seja estatisticamente significativa.
- Localização: ampliar demais a região para atingir o n mínimo compromete a comparabilidade. A extensão geográfica deve ser justificada pela homogeneidade de características, não pela necessidade de dados.
Incluir um dado inadequado para "fechar o número" é pior do que trabalhar com amostra menor. O modelo vai tentar explicar variações que não existem, e os coeficientes vão refletir isso.
Etapa 2 — Dados temporais: quando o dado é velho demais?
A NBR 14653-1 (itens 6.4.1 e 6.4.2) não fixa um limite rígido de tempo para validade dos dados. A recomendação é buscar dados com atributos comparáveis ao bem avaliando e priorizar os mais recentes quando disponíveis.
O que a norma exige é que a variável temporal seja tratada adequadamente no modelo quando o período de coleta for longo o suficiente para capturar variações de preço. Há duas abordagens:
- Variável quantitativa: número de meses entre a data do dado e a data de referência da avaliação. O coeficiente captura a tendência de valorização ou desvalorização ao longo do tempo.
- Variável proxy: indexador de mercado (IGMI, INCC, etc.) aplicado à data do evento. Útil quando a valorização segue um índice conhecido.
Em ambos os casos, a escolha e a forma de tratamento devem estar explícitas no laudo. Um dado antigo sem nenhum ajuste temporal é um dado potencialmente inadequado — não necessariamente descartável, mas que precisa de tratamento.
Etapa 3 — Dados discrepantes: excluir ou manter?
Identificar um dado como discrepante não é suficiente para descartá-lo. A NBR 14653-2 (item 8.2.1.2) exige que o tratamento de outliers seja baseado em critérios estatísticos robustos e que a decisão seja justificada tecnicamente.
O fluxo correto é:
- Identificar: análise gráfica de resíduos, Distância de Cook, padronização dos resíduos. Um dado com resíduo muito alto ou Distância de Cook próxima ou acima de 1 merece atenção.
- Investigar a causa: o dado é discrepante porque é de fato atípico no mercado, ou porque há um erro de coleta (área errada, data errada, transação entre partes relacionadas)?
- Decidir com critério:
- Erro de coleta confirmado → corrigir ou descartar, com justificativa.
- Dado atípico de mercado, mas estatisticamente controlado (Cook < 1, resíduos normais) → manter, especialmente se a remoção piora o modelo.
- Dado que distorce significativamente os coeficientes sem explicação de mercado → descartar, com justificativa explícita no laudo.
Um caso concreto da base normativa: em uma amostra de terrenos, um dado com Distância de Cook de 0,3 (bem abaixo do limite crítico de 1) e resíduos com distribuição aproximadamente normal deve ser mantido — mesmo que pareça outlier visualmente. Removê-lo sem justificativa técnica configura manipulação da amostra.
Imóveis singulares: quando a amostra simplesmente não existe
Alguns imóveis são genuinamente singulares — uma edificação com uso misto em imóvel de matrícula única, por exemplo. Nesses casos, a NBR 14653-2 (item 8.2.2) reconhece a impossibilidade de formação de amostra adequada e permite o uso do campo de arbítrio, desde que devidamente justificado.
O ponto crítico: não se deve incluir comparáveis inadequados apenas para atingir o número mínimo de dados. Se a amostra representativa não existe, o caminho normativo é reconhecer isso e usar os instrumentos previstos na norma — não forçar uma regressão com dados que não fazem sentido comparativo.
O que registrar no laudo
O saneamento da amostra precisa estar documentado. Para cada decisão relevante, o laudo deve conter:
- Critério utilizado para inclusão ou exclusão do dado
- Referência normativa que ampara a decisão
- Para exclusões: a razão técnica (erro de coleta, dado atípico sem respaldo de mercado, incompatibilidade tipológica)
- Para manutenção de dados discrepantes: os indicadores estatísticos que sustentam a decisão (Cook, resíduos, impacto no modelo)
Um laudo que descarta dados sem justificativa, ou que mantém dados inadequados para inflar a amostra, fica vulnerável a questionamentos técnicos — independentemente de quantas casas decimais o resultado final tenha.
Resumo prático
| Situação | Ação recomendada | Referência |
|---|---|---|
| Dado de tipologia diferente | Incluir com variável dicotômica ou excluir | NBR 14653-2, 8.2.1.1 |
| Dado antigo sem ajuste temporal | Incluir variável de tempo ou excluir | NBR 14653-1, 6.4.1 e 6.4.2 |
| Outlier com erro de coleta confirmado | Corrigir ou descartar, com justificativa | NBR 14653-2, 8.2.1.2 |
| Outlier estatisticamente controlado (Cook < 1) | Manter, especialmente se remoção piora o modelo | NBR 14653-2, 8.2.1.2 |
| Imóvel singular sem amostra adequada | Campo de arbítrio com justificativa | NBR 14653-2, 8.2.2 e 9.2.1 |
