Multicolinearidade na regressão: como identificar e resolver no modelo de avaliação

O modelo tem bom ajuste, mas o coeficiente da área veio com sinal trocado. Ou: ao incluir uma variável nova, o coeficiente de outra — que era estável — muda completamente. Ou ainda: o modelo como um todo é altamente significante, mas nenhuma variável passa no teste t individualmente. Os três sintomas têm o mesmo suspeito: multicolinearidade — variáveis independentes que carregam informação redundante entre si. Neste artigo: o que ela é, como diagnosticá-la e o que fazer (e não fazer) para resolver.

O que é multicolinearidade

Multicolinearidade é a existência de forte relação linear entre as variáveis independentes do modelo. Quando duas variáveis caminham juntas na amostra — área e número de quartos, por exemplo —, a regressão tem dificuldade em separar o efeito de cada uma: a informação que uma traz, a outra já trouxe.

Há dois níveis do problema:

Multicolinearidade perfeita: uma variável é combinação linear exata de outras. O sistema não tem solução e o modelo simplesmente não roda. O caso clássico é a armadilha da dummy — criar N dummies para N categorias, como explicamos no artigo de variáveis dummy;
Multicolinearidade alta (imperfeita): as variáveis são fortemente correlacionadas, mas não idênticas. O modelo roda — e é aqui que mora o perigo, porque os resultados saem com aparência de normalidade e fundações comprometidas.

Por que ela é um problema

A multicolinearidade não viola os pressupostos da regressão nem enviesa as estimativas — o que ela faz é inflar a incerteza dos coeficientes. As consequências práticas:

Coeficientes instáveis: pequenas mudanças na amostra (entrada ou saída de um dado) produzem grandes mudanças nos coeficientes;
Sinais incoerentes: variáveis com efeito sabidamente positivo aparecem com coeficiente negativo, porque o modelo "divide" o efeito conjunto de forma arbitrária entre as variáveis redundantes;
Significâncias destruídas: o erro padrão dos coeficientes cresce, o teste t enfraquece, e variáveis genuinamente relevantes parecem insignificantes — derrubando o item de significância do grau de fundamentação;
Interpretação inviável: o coeficiente deveria medir o efeito de uma variável "mantidas as demais constantes" — mas se duas variáveis nunca variam de forma independente na amostra, esse efeito isolado não é estimável com confiança.

Uma nuance importante: a multicolinearidade prejudica principalmente a leitura dos coeficientes individuais. A previsão do modelo como um todo, dentro do intervalo amostral, pode permanecer razoável. Mas como o laudo de avaliação precisa justificar o efeito de cada variável — sinais, magnitudes, coerência com o mercado —, isso é pouco consolo: avaliação exige coeficientes interpretáveis.

Como identificar

1. A matriz de correlações

O diagnóstico de primeira linha é a matriz de correlações entre as variáveis independentes — chamadas de correlações isoladas, par a par. Como regra prática, correlações elevadas entre dois regressores (na casa de 0,80 ou mais, em módulo) são sinal de alerta forte; valores intermediários pedem atenção combinada com os demais sintomas.

A limitação: a matriz só enxerga pares. Uma variável pode ser quase combinação linear de três outras sem ter correlação alta com nenhuma delas individualmente — por isso a matriz é o começo do diagnóstico, não o fim.

2. Os sintomas no próprio modelo

Sinal de coeficiente contrário ao comportamento esperado do mercado;
Coeficientes que mudam drasticamente ao incluir ou excluir uma variável;
Modelo significante no teste F com variáveis fracas no teste t — a combinação clássica;
Erros padrão desproporcionais à qualidade aparente do ajuste.

3. O teste do par suspeito

Procedimento simples e revelador: rode o modelo com as duas variáveis suspeitas juntas, depois com cada uma separadamente. Se cada uma funciona bem sozinha (sinal correto, boa significância) e ambas degradam juntas, o diagnóstico está feito.

Como resolver

1. Escolha uma das variáveis redundantes

A solução mais comum: entre área e número de quartos altamente correlacionados, mantenha a que tem mais qualidade de medição, mais aderência teórica ao mercado e melhor comportamento no modelo. A informação da outra, em grande parte, já está representada.

2. Combine as variáveis em uma só

Quando ambas carregam informação legítima, uma variável derivada pode sintetizá-las — razões e indicadores compostos (por exemplo, transformar "área do terreno" e "área construída" em "aproveitamento") eliminam a redundância preservando o conteúdo. A variável criada precisa ter interpretação clara no laudo.

3. Amplie e diversifique a amostra

Às vezes a colinearidade não é do mercado — é da amostra. Se todos os dados coletados de imóveis grandes são também os mais novos, idade e área saem correlacionadas por vício de coleta. Buscar dados que quebrem o padrão (imóveis grandes e antigos, pequenos e novos) devolve ao modelo a variação independente de que ele precisa. Mais um motivo para coletar com folga, como defendemos no guia de pesquisa de dados de mercado.

4. Aceite e delimite

Em colinearidades moderadas, com coeficientes estáveis e sinais coerentes, conviver com o problema pode ser a decisão certa — registrando a análise no laudo e evitando leituras finas dos coeficientes envolvidos. O que não se admite é a colinearidade ignorada, descoberta pelo revisor.

O que NÃO fazer

Não "conserte" o sinal na mão — trocar a variável de sinal ou forçar restrições para o coeficiente "ficar bonito" é maquiagem, não solução;
Não exclua dados para desfazer a correlação — selecionar a amostra até a colinearidade sumir cria um vício pior que o original;
Não empilhe variáveis redundantes para subir o R² — cada variável correlacionada adicionada melhora o ajuste aparente e piora tudo o que importa.

O caso clássico da avaliação: área total × área construída × quartos × vagas

Em amostras residenciais, as variáveis de "tamanho" andam todas juntas: imóveis maiores têm mais quartos, mais vagas, mais área de terreno. Incluir todas no modelo é receita de colinearidade. A prática saudável: eleger uma variável principal de porte (em geral a área privativa ou construída, frequentemente transformada — veja transformações de variáveis) e só adicionar outra dimensão de tamanho se ela comprovadamente acrescenta informação independente — por exemplo, vagas em mercados onde garagem é escassa e tem preço próprio.

Erros comuns

Não examinar a matriz de correlações antes de fechar o modelo.
Interpretar sinal trocado como "descoberta de mercado" em vez de sintoma de colinearidade.
Manter duas variáveis redundantes porque "as duas são importantes".
Excluir variável significante e coerente por correlação apenas moderada — o remédio em dose errada.
Criar N dummies para N categorias (colinearidade perfeita com o intercepto).
Não registrar no laudo a análise de colinearidade realizada.

Perguntas frequentes

Existe um limite de correlação "oficial" entre variáveis?

A norma manda atentar para a multicolinearidade e analisar as correlações, mas não fixa um corte único. A regra prática consagrada trata correlações a partir da casa de 0,80 como alerta forte — sempre lida em conjunto com os sintomas do modelo, e não como gatilho automático de exclusão.

Correlação alta entre uma variável independente e a dependente é problema?

Não — é o que se espera de uma boa variável explicativa. Multicolinearidade diz respeito apenas às correlações entre as variáveis independentes.

A colinearidade afeta o valor estimado do imóvel?

Dentro do intervalo amostral, a previsão tende a resistir melhor que os coeficientes. Mas a instabilidade aparece com força em extrapolações e na simulação de cenários ("quanto vale com uma vaga a mais?") — exatamente os usos em que o laudo se apoia nos coeficientes individuais.

Transformar as variáveis resolve multicolinearidade?

Em geral, não. Se área e quartos são quase redundantes, ln(área) e quartos continuarão sendo. Transformação resolve forma funcional; colinearidade se resolve com seleção de variáveis, combinação ou amostra mais diversa.

Conclusão

Multicolinearidade é o modelo tentando dividir um efeito que a amostra só mostrou somado. Ela não grita — se esconde atrás de bons ajustes e se revela nos detalhes: sinais incoerentes, coeficientes nervosos, significâncias que não fecham. O antídoto é rotina: matriz de correlações em todo modelo, desconfiança metódica de sinais contraintuitivos e a disciplina de escolher variáveis que tragam informação nova, não a mesma informação com outro nome.