Como criar variáveis dummy em avaliações imobiliárias

Em avaliações imobiliárias é comum encontrar características que não podem ser representadas diretamente por números, como localização, padrão construtivo, vocação do imóvel ou tipo de uso. Para que essas informações possam ser utilizadas em modelos de regressão, utiliza-se a técnica das variáveis dummy.

O que é uma variável dummy?

Uma variável dummy é uma variável binária que assume apenas dois valores: 0 ou 1.

O valor 1 indica a presença de determinada característica e o valor 0 indica sua ausência.

Dessa forma, características qualitativas podem ser incorporadas ao modelo estatístico sem comprometer os cálculos da regressão.

Por que não usar simplesmente códigos 1, 2, 3?

Uma dúvida frequente é: por que não atribuir o código 1 para a Cidade A, 2 para a Cidade B e 3 para a Cidade C em uma única variável?

O problema é que a regressão trata números como grandezas. Ao codificar dessa forma, o modelo assume que a Cidade B "vale o dobro" da Cidade A e que a diferença entre A e B é igual à diferença entre B e C — relações que não existem na realidade.

As variáveis dummy resolvem esse problema porque cada categoria recebe seu próprio coeficiente, sem impor nenhuma ordem ou proporção artificial entre elas.

Existe ainda a alternativa dos códigos alocados, em que uma escala ordenada é atribuída às categorias (por exemplo, padrão construtivo baixo = 1, normal = 2, alto = 3). Essa técnica é admitida pela norma, mas exige que a escala seja justificada e tem reflexos no grau de fundamentação do laudo, como veremos adiante.

Exemplo com cidades

Suponha uma amostra composta por imóveis localizados em três cidades:

Cidade A
Cidade B
Cidade C

Neste caso, não é necessário criar uma variável para cada cidade.

Seleciona-se uma cidade como referência e criam-se apenas duas variáveis dummy.

Cidade	Dummy A	Dummy B
Cidade C (referência)	0	0
Cidade A	1	0
Cidade B	0	1

A cidade de referência é representada pelo conjunto de zeros.

Regra geral

Para uma variável qualitativa com N categorias, devem ser criadas N − 1 variáveis dummy.

2 categorias → 1 dummy
3 categorias → 2 dummies
4 categorias → 3 dummies
5 categorias → 4 dummies

A categoria não representada torna-se a categoria de referência.

A armadilha da dummy (dummy variable trap)

Se forem criadas N dummies para N categorias, a soma das dummies será sempre igual a 1 em todas as observações — exatamente o valor do intercepto do modelo.

Isso gera multicolinearidade perfeita: o sistema de equações não tem solução única e a regressão simplesmente não pode ser estimada (ou o software descarta uma das variáveis automaticamente, sem que o avaliador perceba).

Por isso a regra N − 1 não é uma convenção estética: é uma exigência matemática do modelo.

Interpretação dos coeficientes

Quando uma variável dummy é incluída em um modelo de regressão, seu coeficiente representa a diferença média em relação à categoria de referência, mantendo constantes as demais variáveis do modelo.

Por esse motivo, a escolha da categoria de referência deve ser feita de forma criteriosa, normalmente utilizando a categoria mais representativa da amostra.

Exemplo numérico

Considere o modelo estimado abaixo, com valor unitário em R$/m²:

Valor unitário = 1.800 + 320 · DummyA − 150 · DummyB − 4,2 · Idade

A leitura dos coeficientes é direta:

Um imóvel na Cidade A vale, em média, R$ 320/m² a mais que um imóvel equivalente na Cidade C (referência);
Um imóvel na Cidade B vale, em média, R$ 150/m² a menos que na Cidade C;
A comparação entre A e B é feita pela diferença dos coeficientes: 320 − (−150) = R$ 470/m².

Atenção aos modelos com transformação ln(y)

Quando a variável dependente está transformada em logaritmo — situação muito comum em avaliações —, o coeficiente da dummy não representa a diferença em reais, e sim uma variação aproximadamente percentual.

A variação percentual exata é dada por (e^β − 1) × 100.

Por exemplo, se o coeficiente da DummyA em um modelo com ln(valor) for 0,25, a diferença em relação à categoria de referência é de (e^0,25 − 1) ≈ 28,4%, e não 25%. Para coeficientes pequenos a aproximação direta é razoável, mas para coeficientes maiores o erro de interpretação se torna relevante.

Dummies e a NBR 14653-2: micronumerosidade

A NBR 14653-2 estabelece critérios para evitar a micronumerosidade, que ocorre quando uma categoria possui poucos dados na amostra. Nesses casos, o coeficiente da dummy fica apoiado em pouquíssimas observações e perde confiabilidade estatística.

Como regra prática, cada categoria representada por uma dummy deve contar com um número mínimo de dados efetivamente utilizados no modelo, proporcional ao tamanho da amostra. Categorias com 1 ou 2 observações devem ser evitadas: nesses casos, o coeficiente da dummy praticamente "decora" aqueles dados específicos em vez de capturar um efeito de mercado.

Alternativas quando há poucas observações em uma categoria:

Agrupar categorias semelhantes (por exemplo, bairros com comportamento de mercado equivalente);
Ampliar a pesquisa de dados naquela categoria;
Excluir os dados da categoria minoritária e restringir o campo de aplicação do modelo.

Dummies × códigos alocados no grau de fundamentação

A escolha entre variáveis dummy e códigos alocados não é apenas técnica: ela impacta a pontuação do laudo no grau de fundamentação previsto na NBR 14653-2.

Variáveis dicotômicas (dummies) são tratadas de forma mais favorável que códigos alocados, pois não dependem de uma escala arbitrada pelo avaliador. Já os códigos alocados exigem justificativa da escala adotada e limitam a pontuação do item correspondente.

Na prática: sempre que a quantidade de dados permitir, prefira dummies. Recorra a códigos alocados apenas quando a fragmentação em dummies inviabilizar o modelo por micronumerosidade.

Uso avançado: interação entre dummies e variáveis quantitativas

Uma dummy isolada desloca o valor médio de uma categoria. Mas é possível ir além: multiplicando a dummy por uma variável quantitativa, cria-se uma variável de interação, que permite que o efeito da variável quantitativa seja diferente em cada categoria.

Exemplo: se a área construída valoriza o imóvel de forma diferente na Cidade A e na Cidade C, pode-se incluir no modelo a variável DummyA × Área. O coeficiente dessa interação mede quanto o efeito da área muda quando o imóvel está na Cidade A.

É um recurso poderoso, mas que consome graus de liberdade e exige amostras maiores — use com parcimônia.

Erros comuns

Criar uma dummy para cada categoria existente (armadilha da dummy).
Utilizar categorias com poucas observações (micronumerosidade).
Não definir claramente a categoria de referência.
Interpretar os coeficientes sem considerar a categoria base.
Interpretar o coeficiente como valor absoluto em modelos com ln(y), ignorando a transformação.
Usar códigos 1, 2, 3 em uma única variável para categorias sem ordem natural.

Perguntas frequentes

Quantas dummies devo criar para uma variável com 4 categorias?

Três. A regra é sempre N − 1, e a categoria não representada torna-se a referência do modelo.

Qual categoria devo escolher como referência?

Normalmente a categoria com maior número de observações na amostra, pois isso torna as comparações mais estáveis. Outra estratégia útil é escolher a categoria do imóvel avaliando, o que facilita a leitura direta dos coeficientes no laudo.

Posso usar dummy para variáveis como "tem garagem"?

Sim — esse é, na verdade, o caso mais simples: uma característica com 2 categorias (tem / não tem) gera exatamente 1 dummy.

Dummy é o mesmo que código alocado?

Não. A dummy é binária (0 ou 1) e não impõe escala entre categorias. O código alocado atribui uma escala ordenada (1, 2, 3...) e exige justificativa, com reflexos no grau de fundamentação.

Conclusão

As variáveis dummy são uma ferramenta fundamental para incorporar características qualitativas em modelos de regressão aplicados à avaliação imobiliária. Quando utilizadas corretamente — respeitando a regra N − 1, os limites de micronumerosidade da NBR 14653-2 e a interpretação adequada dos coeficientes —, permitem analisar diferenças entre categorias e melhorar a capacidade explicativa dos modelos estatísticos.