[Data Science] 다중공선성이란 무엇일까 ?
https://piscesue0317.tistory.com/36
[Machine Learning] 다중 선형 회귀분석 ( 지도학습 / 예측 )
https://piscesue0317.tistory.com/34 [Machine Learning] 선형 회귀분석 ( 지도학습 / 예측 ) https://piscesue0317.tistory.com/27 [Data Science] 지도학습과 비지도학습이란 ? 데이터 마이닝이란 대량의 데이터를 탐색하고
piscesue0317.tistory.com
다중공선성 (Multicollinearity) 이란
독립변수들 간에 완전한 또는 거의 완전한 선형의 종속관계가
존재하는 것을 의미합니다.
예를 들어 수축기 혈압을 예측할 때,
BMI, 체중 모두 종속변수에 영향을 미칩니다.
하지만 BMI와 체중사이에도 강한 선형의 상관관계가 존재합니다.
회귀계수는 한 단위가 증가할 때 종속변수의 변화량을 의미하는데,
두 독립변수 간의 높은 상관관계가 존재할 경우 이에 대한 해석이 어려우며
예측의 정확성이 떨어지는 등의 결과를 야기시킵니다.
다중공선성이 존재하는지는
어떻게 알 수 있을까요 ?
두 가지 방법이 있습니다.
1. VIF (Variance inflaction factor, 분산팽창요인)
VIFk란 다른 변수의 선형결합으로 Xk를 설명할 수 있는 정도를 의미합니다.
VIF가 10 이상인 경우 다중공선성이 있는 변수라고 판단합니다.
예를 들어 X1을 판단하고자 할 때,
X1을 종속변수, 나머지 변수를 독립변수로 하여 회귀모델을 만듭니다.
그 후 R square을 이용하여 VIF1을 계산합니다.
2. 변수들 간의 Correlation
혹은 위와 같은 상관행렬 및 산점도를 보고
상관관계가 높은지 낮은지 판단합니다.