O problema que a variável proxy resolve
Em um modelo de regressão, cada variável independente deveria representar diretamente uma característica que influencia o valor do imóvel: área, número de quartos, distância ao centro, padrão construtivo. Mas nem toda característica relevante é diretamente mensurável ou está disponível nos dados coletados.
É aí que entra a variável proxy: uma variável que não mede o atributo de interesse diretamente, mas que está suficientemente correlacionada com ele para servir como substituta razoável no modelo. O nome vem do inglês proxy — algo que age em representação de outra coisa.
A NBR 14653-1 não usa o termo "proxy" em seu texto normativo, mas o conceito está implícito na exigência de identificar variáveis que expliquem adequadamente a formação de valor (item 6.4.2) — quando a variável ideal não está disponível, a proxy é o caminho técnico para não deixar a característica de fora do modelo.
Exemplos práticos em avaliação imobiliária
Data do evento como proxy de valorização de mercado
O exemplo mais comum na prática de avaliações é o tratamento da data da transação como variável no modelo. A pergunta de fundo é: o mercado mudou entre a data de cada dado coletado e a data de referência da avaliação?
Aqui existem duas abordagens possíveis:
- Variável quantitativa direta: o número de meses entre a data do dado e a data de referência. O coeficiente estimado representa a tendência de valorização ou desvalorização no período.
- Variável proxy: em vez de usar o tempo diretamente, usa-se um índice de mercado (IGMI, FipeZap, INCC) na data de cada transação como proxy do nível de preços vigente naquele momento. Isso funciona quando o avaliador acredita que a valorização do imóvel segue de perto um indexador conhecido, em vez de uma tendência linear simples no tempo.
A escolha entre as duas formas depende da dinâmica do mercado local — em mercados com movimento de preços irregular, o índice como proxy pode capturar melhor as variações do que uma reta de tempo. Mas a normativa exige que essa escolha esteja claramente definida e justificada no laudo, não apenas aplicada sem explicação.
Renda média da região como proxy de padrão socioeconômico
Quando não há dado individualizado sobre padrão construtivo ou acabamento de cada comparável, é comum usar a renda média do bairro ou região (de fontes como IBGE ou pesquisas de mercado) como proxy do padrão geral dos imóveis daquela localidade. Não é uma medida do imóvel específico, mas captura parte da variação de valor explicada pela localização e pelo padrão típico da região.
Distância a um polo como proxy de acessibilidade
Acessibilidade é um conceito amplo — envolve tempo de deslocamento, qualidade das vias, disponibilidade de transporte público. Medir isso diretamente é complexo. Por isso, a distância linear ou viária a um polo de referência (centro da cidade, shopping, via arterial) costuma ser usada como proxy de acessibilidade. Não captura todos os fatores envolvidos, mas correlaciona-se razoavelmente bem com eles na maioria dos mercados urbanos.
Idade do imóvel como proxy de estado de conservação
O estado de conservação real de um imóvel depende de manutenção, qualidade da construção original e uso — não apenas da idade. Mas quando não há informação detalhada sobre o estado de conservação de cada comparável (o que é comum em dados de portais imobiliários), a idade do imóvel funciona como proxy razoável: imóveis mais antigos tendem, em média, a apresentar maior depreciação física.
Quando a proxy é tecnicamente defensável
Usar uma variável proxy não é uma solução de segunda categoria automaticamente aceitável — é uma decisão técnica que precisa atender alguns critérios:
- Correlação real com o atributo de interesse: a proxy precisa ter relação lógica e, idealmente, estatisticamente demonstrável com a característica que está substituindo
- Ausência de alternativa melhor: se o dado direto está disponível e é confiável, ele deve ser preferido à proxy
- Justificativa explícita no laudo: o avaliador precisa declarar que está usando uma proxy, explicar por que e demonstrar que essa escolha não compromete a robustez do modelo
- Significância estatística: a proxy, como qualquer variável do modelo, precisa ser estatisticamente significativa para se justificar sua permanência
Uma proxy mal escolhida pode introduzir ruído em vez de explicar variação real de valor. O teste prático é simples: se a proxy não é estatisticamente significativa, ela provavelmente não está cumprindo o papel de substituta da característica original — e deve ser reconsiderada ou removida.
O risco de proxy mascarando variável omitida
Um cuidado importante: usar uma proxy não resolve o problema de uma variável relevante estar ausente do modelo de forma satisfatória — apenas mitiga parcialmente. Se a proxy captura apenas uma fração da variação explicada pelo atributo real, o modelo ainda terá viés de variável omitida, só que reduzido.
Por exemplo: usar idade do imóvel como proxy de estado de conservação funciona razoavelmente bem na média, mas um imóvel antigo muito bem reformado vai ser mal representado pelo modelo — porque a proxy não captura a reforma. Se houver vários casos assim na amostra, isso aparece como ruído nos resíduos e pode indicar a necessidade de uma variável dicotômica adicional (por exemplo, "reformado: sim/não") para complementar a proxy.
Proxy não é o mesmo que variável dummy
É comum confundir variável proxy com variável dicotômica (dummy), mas são conceitos diferentes:
- Variável proxy: substitui uma característica contínua ou complexa por uma medida indireta, geralmente também contínua ou ordinal (índice de mercado, distância, idade)
- Variável dummy: codifica uma característica categórica (presença ou ausência de um atributo, pertencimento a um grupo) em valores 0 e 1
As duas estratégias podem, inclusive, ser combinadas no mesmo modelo: usar idade como proxy de conservação e adicionar uma dummy para "reformado" capturando o efeito que a proxy não consegue explicar isoladamente.
O que registrar no laudo
Ao usar variável proxy, o laudo deve conter:
- Qual característica a proxy está representando e por que ela não pôde ser medida diretamente
- A justificativa da correlação esperada entre a proxy e o atributo real
- O resultado da significância estatística da proxy no modelo final
- Reconhecimento das limitações dessa escolha, se relevantes para a interpretação do resultado
Resumo
| Característica de interesse | Proxy comum | Cuidado necessário |
|---|---|---|
| Valorização de mercado no tempo | Índice de mercado (IGMI, FipeZap) ou tempo em meses | Escolher a forma que melhor captura a dinâmica local e justificar |
| Padrão socioeconômico da região | Renda média do bairro | Não substitui dados individualizados quando disponíveis |
| Acessibilidade | Distância a polo de referência | Captura parcialmente — desconsidera qualidade viária e transporte |
| Estado de conservação | Idade do imóvel | Pode exigir variável dummy complementar para reformas |
