A principal diferença entre a Regressão Múltipla
Paramétrica (geralmente o método de Mínimos Quadrados Ordinários - MQO/OLS)
e a Regressão Robusta Múltipla reside em como elas lidam com
"sujeira" nos dados, especialmente os outliers (valores
atípicos).
Imagine que você está analisando o mercado de veículos
usados para entender como a quilometragem e o ano afetam o preço.
1. Regressão Múltipla Paramétrica (MQO/OLS)
É o padrão ouro quando os dados são "comportados".
Ela tenta minimizar o quadrado da distância entre os pontos e a linha de
tendência.
- O
Ponto Fraco: Ela é extremamente sensível a valores extremos. Como os
erros são elevados ao quadrado, um único carro com preço absurdamente alto
(um item de colecionador, por exemplo) "puxa" a reta para cima,
distorcendo a previsão para todos os outros carros comuns.
- Premissa:
Assume que os resíduos seguem uma distribuição normal e que não há valores
que fujam drasticamente da realidade do grupo.
2. Regressão Múltipla Robusta
Esta técnica é desenhada para ignorar ou reduzir o peso de
observações que não seguem o padrão da maioria dos dados.
- Como
funciona: Em vez de elevar os erros ao quadrado, ela utiliza funções
que "punem" menos os erros grandes (como o estimador M ou a
regressão de postos).
- O
Ponto Forte: Se houver um erro de digitação na planilha ou um evento
isolado (um outlier), a regressão robusta mantém a linha de tendência fiel
à maioria dos dados.
Exemplo Didático: Produtividade em uma Plantação
Imagine que você está medindo a produtividade de 20 talhões
de café baseando-se em:
- Quantidade
de Adubo ($X_1$)
- Índice
Pluviométrico ($X_2$)
O Cenário:
Em 19 talhões, os dados são consistentes. No entanto, no Talhão
20, houve um erro de medição ou uma praga localizada que destruiu a
colheita, resultando em produtividade zero, mesmo com adubo e chuva ideais.
|
Método |
Comportamento no Exemplo |
Resultado Final |
|
Paramétrica (MQO) |
Tenta "agradar" o Talhão 20. A reta de regressão
se inclina para baixo. |
O modelo dirá que o adubo é menos eficiente do que
realmente é. |
|
Robusta |
Identifica que o Talhão 20 é um ponto fora da curva e dá
um peso menor a ele. |
O modelo mantém a estimativa real da eficiência do adubo
para o restante da fazenda. |
Qual escolher?
- Use
Paramétrica (MQO): Se você limpou seus dados, não há outliers e os
pressupostos estatísticos (como a homocedasticidade) foram atendidos. Ela
é estatisticamente mais "poderosa" nesses casos.
- Use
Robusta: Se você suspeita de contaminação nos dados, erros de
sensores, ou se a natureza do que você estuda naturalmente gera valores
extremos que não devem ditar a regra geral.
Dica Prática: Uma boa estratégia é rodar as duas. Se
os coeficientes (os $\beta$) forem muito diferentes, é sinal de que os outliers
estão influenciando demais o seu modelo paramétrico.
Nenhum comentário:
Postar um comentário