Multicolinearidade na regressão: como identificar e resolver no modelo de avaliação
O modelo tem bom ajuste, mas o coeficiente da área veio com sinal trocado. Ou: ao incluir uma variável nova, o coeficiente de outra — que era estável — muda completamente. Ou ainda: o modelo como um todo é altamente significante, mas nenhuma variável passa no teste t individualmente. Os três sintomas têm o mesmo suspeito: multicolinearidade — variáveis independentes que carregam informação redundante entre si. Neste artigo: o que ela é, como diagnosticá-la e o que fazer (e não fazer) para resolver.
O que é multicolinearidade
Multicolinearidade é a existência de forte relação linear entre as variáveis independentes do modelo. Quando duas variáveis caminham juntas na amostra — área e número de quartos, por exemplo —, a regressão tem dificuldade em separar o efeito de cada uma: a informação que uma traz, a outra já trouxe.
Há dois níveis do problema:
- Multicolinearidade perfeita: uma variável é combinação linear exata de outras. O sistema não tem solução e o modelo simplesmente não roda. O caso clássico é a armadilha da dummy — criar N dummies para N categorias, como explicamos no artigo de variáveis dummy;
- Multicolinearidade alta (imperfeita): as variáveis são fortemente correlacionadas, mas não idênticas. O modelo roda — e é aqui que mora o perigo, porque os resultados saem com aparência de normalidade e fundações comprometidas.
Por que ela é um problema
A multicolinearidade não viola os pressupostos da regressão nem enviesa as estimativas — o que ela faz é inflar a incerteza dos coeficientes. As consequências práticas:
- Coeficientes instáveis: pequenas mudanças na amostra (entrada ou saída de um dado) produzem grandes mudanças nos coeficientes;
- Sinais incoerentes: variáveis com efeito sabidamente positivo aparecem com coeficiente negativo, porque o modelo "divide" o efeito conjunto de forma arbitrária entre as variáveis redundantes;
- Significâncias destruídas: o erro padrão dos coeficientes cresce, o teste t enfraquece, e variáveis genuinamente relevantes parecem insignificantes — derrubando o item de significância do grau de fundamentação;
- Interpretação inviável: o coeficiente deveria medir o efeito de uma variável "mantidas as demais constantes" — mas se duas variáveis nunca variam de forma independente na amostra, esse efeito isolado não é estimável com confiança.
Uma nuance importante: a multicolinearidade prejudica principalmente a leitura dos coeficientes individuais. A previsão do modelo como um todo, dentro do intervalo amostral, pode permanecer razoável. Mas como o laudo de avaliação precisa justificar o efeito de cada variável — sinais, magnitudes, coerência com o mercado —, isso é pouco consolo: avaliação exige coeficientes interpretáveis.
Como identificar
1. A matriz de correlações
O diagnóstico de primeira linha é a matriz de correlações entre as variáveis independentes — chamadas de correlações isoladas, par a par. Como regra prática, correlações elevadas entre dois regressores (na casa de 0,80 ou mais, em módulo) são sinal de alerta forte; valores intermediários pedem atenção combinada com os demais sintomas.
A limitação: a matriz só enxerga pares. Uma variável pode ser quase combinação linear de três outras sem ter correlação alta com nenhuma delas individualmente — por isso a matriz é o começo do diagnóstico, não o fim.
2. Os sintomas no próprio modelo
- Sinal de coeficiente contrário ao comportamento esperado do mercado;
- Coeficientes que mudam drasticamente ao incluir ou excluir uma variável;
- Modelo significante no teste F com variáveis fracas no teste t — a combinação clássica;
- Erros padrão desproporcionais à qualidade aparente do ajuste.
3. O teste do par suspeito
Procedimento simples e revelador: rode o modelo com as duas variáveis suspeitas juntas, depois com cada uma separadamente. Se cada uma funciona bem sozinha (sinal correto, boa significância) e ambas degradam juntas, o diagnóstico está feito.
Como resolver
1. Escolha uma das variáveis redundantes
A solução mais comum: entre área e número de quartos altamente correlacionados, mantenha a que tem mais qualidade de medição, mais aderência teórica ao mercado e melhor comportamento no modelo. A informação da outra, em grande parte, já está representada.
2. Combine as variáveis em uma só
Quando ambas carregam informação legítima, uma variável derivada pode sintetizá-las — razões e indicadores compostos (por exemplo, transformar "área do terreno" e "área construída" em "aproveitamento") eliminam a redundância preservando o conteúdo. A variável criada precisa ter interpretação clara no laudo.
3. Amplie e diversifique a amostra
Às vezes a colinearidade não é do mercado — é da amostra. Se todos os dados coletados de imóveis grandes são também os mais novos, idade e área saem correlacionadas por vício de coleta. Buscar dados que quebrem o padrão (imóveis grandes e antigos, pequenos e novos) devolve ao modelo a variação independente de que ele precisa. Mais um motivo para coletar com folga, como defendemos no guia de pesquisa de dados de mercado.
4. Aceite e delimite
Em colinearidades moderadas, com coeficientes estáveis e sinais coerentes, conviver com o problema pode ser a decisão certa — registrando a análise no laudo e evitando leituras finas dos coeficientes envolvidos. O que não se admite é a colinearidade ignorada, descoberta pelo revisor.
O que NÃO fazer
- Não "conserte" o sinal na mão — trocar a variável de sinal ou forçar restrições para o coeficiente "ficar bonito" é maquiagem, não solução;
- Não exclua dados para desfazer a correlação — selecionar a amostra até a colinearidade sumir cria um vício pior que o original;
- Não empilhe variáveis redundantes para subir o R² — cada variável correlacionada adicionada melhora o ajuste aparente e piora tudo o que importa.
O caso clássico da avaliação: área total × área construída × quartos × vagas
Em amostras residenciais, as variáveis de "tamanho" andam todas juntas: imóveis maiores têm mais quartos, mais vagas, mais área de terreno. Incluir todas no modelo é receita de colinearidade. A prática saudável: eleger uma variável principal de porte (em geral a área privativa ou construída, frequentemente transformada — veja transformações de variáveis) e só adicionar outra dimensão de tamanho se ela comprovadamente acrescenta informação independente — por exemplo, vagas em mercados onde garagem é escassa e tem preço próprio.
Erros comuns
- Não examinar a matriz de correlações antes de fechar o modelo.
- Interpretar sinal trocado como "descoberta de mercado" em vez de sintoma de colinearidade.
- Manter duas variáveis redundantes porque "as duas são importantes".
- Excluir variável significante e coerente por correlação apenas moderada — o remédio em dose errada.
- Criar N dummies para N categorias (colinearidade perfeita com o intercepto).
- Não registrar no laudo a análise de colinearidade realizada.
Perguntas frequentes
Existe um limite de correlação "oficial" entre variáveis?
A norma manda atentar para a multicolinearidade e analisar as correlações, mas não fixa um corte único. A regra prática consagrada trata correlações a partir da casa de 0,80 como alerta forte — sempre lida em conjunto com os sintomas do modelo, e não como gatilho automático de exclusão.
Correlação alta entre uma variável independente e a dependente é problema?
Não — é o que se espera de uma boa variável explicativa. Multicolinearidade diz respeito apenas às correlações entre as variáveis independentes.
A colinearidade afeta o valor estimado do imóvel?
Dentro do intervalo amostral, a previsão tende a resistir melhor que os coeficientes. Mas a instabilidade aparece com força em extrapolações e na simulação de cenários ("quanto vale com uma vaga a mais?") — exatamente os usos em que o laudo se apoia nos coeficientes individuais.
Transformar as variáveis resolve multicolinearidade?
Em geral, não. Se área e quartos são quase redundantes, ln(área) e quartos continuarão sendo. Transformação resolve forma funcional; colinearidade se resolve com seleção de variáveis, combinação ou amostra mais diversa.
Conclusão
Multicolinearidade é o modelo tentando dividir um efeito que a amostra só mostrou somado. Ela não grita — se esconde atrás de bons ajustes e se revela nos detalhes: sinais incoerentes, coeficientes nervosos, significâncias que não fecham. O antídoto é rotina: matriz de correlações em todo modelo, desconfiança metódica de sinais contraintuitivos e a disciplina de escolher variáveis que tragam informação nova, não a mesma informação com outro nome.
