Transformações de variáveis na regressão: quando usar ln(x) e 1/x

A regressão linear exige que a relação entre as variáveis seja... linear. Mas o mercado imobiliário raramente se comporta assim: o valor unitário cai com a área, mas cada metro adicional pesa menos que o anterior; a distância ao polo valorizador penaliza muito nos primeiros metros e quase nada depois de certo ponto. As transformações de variáveis existem exatamente para isso — capturar relações curvas dentro de um modelo linear. Neste artigo, explicamos o que cada transformação significa, como escolher e, principalmente, como interpretar os coeficientes depois delas.

Por que transformar variáveis?

A transformação não muda os dados: muda a escala em que o modelo os enxerga. Os objetivos principais são:

Linearizar a relação: uma curva no espaço original pode virar uma reta no espaço transformado;
Melhorar o comportamento dos resíduos: transformações (especialmente na variável dependente) ajudam a aproximar a normalidade e a estabilizar a variância dos resíduos — pressupostos do modelo;
Refletir o comportamento econômico real: efeitos marginais decrescentes, saturação, proporcionalidade percentual.

Importante: o modelo continua sendo uma regressão linear — linear nos parâmetros. O que muda é a forma funcional das variáveis. Por isso o tratamento científico da NBR 14653-2 convive perfeitamente com transformações, desde que documentadas no laudo.

As transformações mais usadas e o que elas significam

ln(x) — logaritmo natural

A mais usada na avaliação de imóveis. Comprime os valores altos e expande os baixos, capturando o efeito marginal decrescente: cada unidade adicional da variável tem impacto menor que a anterior.

Exemplo típico: área. A diferença de valor unitário entre um terreno de 200 m² e um de 400 m² é muito maior que entre um de 1.000 m² e um de 1.200 m², embora a diferença absoluta de área seja a mesma.

1/x — inverso

Modela efeitos de saturação: a variável tem impacto forte nos valores baixos e o efeito praticamente desaparece nos valores altos, tendendo a um patamar.

Exemplo típico: distância a um polo valorizador (orla, centro comercial). Sair de 100 m para 500 m muda tudo; sair de 5 km para 5,4 km não muda quase nada. Atenção: 1/x inverte o sentido da relação — se o valor cai com a distância, o coeficiente de 1/distância será positivo.

E as demais formas funcionais?

Existem outras transformações possíveis — quadrado, raiz quadrada, exponencial —, mas na prática avaliatória a tríade x, ln(x) e 1/x cobre a grande maioria dos comportamentos observados no mercado imobiliário: relação proporcional direta, efeito marginal decrescente e saturação. Formas mais exóticas exigem amostras maiores, complicam a interpretação e raramente acrescentam aderência que justifique o custo.

Transformações na variável dependente: y ou ln(y)?

Transformar a variável dependente muda a natureza do modelo inteiro:

Com y na forma direta, os coeficientes representam efeitos em unidades monetárias (R$ ou R$/m²);
Com ln(y), os coeficientes passam a representar efeitos aproximadamente percentuais — e a variância dos resíduos tende a se estabilizar quando a dispersão do mercado é proporcional ao valor (situação muito comum em imóveis).

Como interpretar os coeficientes após a transformação

Aqui mora a maior fonte de erro. A tabela resume as leituras:

Forma do modelo	Leitura do coeficiente β
y = β·x (linear-linear)	+1 unidade de x → +β unidades monetárias em y
y = β·ln(x) (linear-log)	+1% em x → +β/100 unidades monetárias em y (aprox.)
ln(y) = β·x (log-linear)	+1 unidade de x → variação de (e^β − 1)×100 % em y
ln(y) = β·ln(x) (log-log)	+1% em x → +β % em y (β é a elasticidade)

O caso log-log merece destaque: o coeficiente é diretamente a elasticidade — a sensibilidade percentual do valor a variações percentuais da característica. Uma elasticidade de −0,15 para a área, por exemplo, significa que um imóvel 10% maior tem valor unitário cerca de 1,5% menor, mantidas as demais características.

Nos demais casos, a elasticidade não é constante: ela varia conforme o ponto da curva em que o imóvel avaliando está. Por isso, ao reportar a influência de cada variável no laudo, o correto é calcular o efeito no ponto de avaliação, e não tratar o coeficiente como um número de leitura direta.

Como escolher a transformação certa

Não existe transformação "certa" a priori — existe a que melhor descreve o comportamento daquela variável naquele mercado. O processo recomendado:

1. Comece pela teoria. Pergunte-se como a variável deveria se comportar: efeito marginal decrescente sugere ln(x); saturação sugere 1/x; proporcionalidade percentual sugere o par log-log. A transformação precisa fazer sentido econômico, não apenas estatístico.

2. Analise os gráficos. O diagrama de dispersão da variável contra y (ou contra os resíduos do modelo sem ela) revela a forma da relação. Curvatura visível é o convite à transformação.

3. Compare especificações. Teste as formas candidatas e compare significância dos regressores, comportamento dos resíduos e coerência dos sinais. Cuidado: ao transformar a variável dependente, o R² de modelos com y e com ln(y) não é diretamente comparável, pois a variável explicada não é a mesma.

4. Valide os pressupostos. A melhor especificação é a que entrega resíduos bem comportados (normalidade, homocedasticidade, ausência de pontos influenciantes dominando o ajuste — veja nosso artigo sobre distância de Cook e outliers) com sinais e magnitudes defensáveis perante o mercado.

Cuidados específicos

ln(x) e 1/x não aceitam zero. Variáveis que podem valer zero (vagas de garagem, testada secundária) precisam de outra forma funcional ou de artifícios documentados — e variáveis dicotômicas nunca devem ser transformadas (sobre elas, veja nosso artigo de variáveis dummy);
Transformação não cria informação. Se a amostra não cobre bem a faixa da característica, nenhuma forma funcional compensa — o problema é de dados, não de especificação;
Extrapolação fica mais perigosa em escalas transformadas. Fora dos limites amostrais, curvas como 1/x mudam de comportamento rapidamente, e o erro de extrapolação cresce muito mais que na forma linear;
Evite a "pesca de transformações". Testar dezenas de combinações até maximizar estatísticas de ajuste, sem racional econômico, produz modelos sobreajustados que não se sustentam em revisão técnica.

Erros comuns

Interpretar o coeficiente de um modelo com ln(y) como valor em reais.
Ler β diretamente como percentual no modelo log-linear, ignorando que a variação exata é (e^β − 1)×100 %.
Comparar R² entre modelos com variáveis dependentes diferentes (y vs. ln(y)).
Aplicar ln ou inverso a variável que assume valor zero na amostra.
Escolher a transformação só pelo ajuste, sem verificar a coerência do sinal e do comportamento econômico.
Transformar variáveis dummy.

Perguntas frequentes

A NBR 14653-2 permite transformações de variáveis?

Sim. O tratamento científico admite formas funcionais não lineares nas variáveis, desde que o modelo permaneça linear nos parâmetros e que a especificação seja apresentada e justificada no laudo, com a verificação dos pressupostos.

Qual transformação usar para a variável área?

Não há regra fixa, mas o efeito marginal decrescente da área torna ln(área) o ponto de partida mais comum — frequentemente no par log-log com ln(valor unitário), em que o coeficiente é a elasticidade. A decisão final deve vir da análise gráfica e dos resíduos da sua amostra específica.

Posso usar transformações diferentes para cada variável no mesmo modelo?

Sim — e é o usual. Cada variável tem seu próprio comportamento: o modelo pode combinar ln(área), 1/distância e dummies sem qualquer problema, desde que cada escolha seja defensável.

Transformar melhora o grau de fundamentação?

Indiretamente. A transformação adequada melhora a significância dos regressores e o comportamento dos resíduos, o que ajuda a atender aos limites dos itens condicionantes — veja como eles funcionam no artigo sobre grau de fundamentação e precisão. Mas a transformação em si não pontua: o que pontua é o modelo atender aos critérios da norma.

Conclusão

Transformações de variáveis são a ponte entre a rigidez da regressão linear e a realidade curva do mercado imobiliário. A escolha deve partir do comportamento econômico esperado, ser confirmada pela análise gráfica e validada pelos resíduos — nunca nascer de uma busca cega pelo maior R². E, uma vez transformado o modelo, redobra-se o cuidado na interpretação: o coeficiente só diz o que a forma funcional permite que ele diga.