IE가 어른이 되기까지

[Machine Learning] 다중 선형 회귀분석에서의 변수 선택 (다중공선성 해결방법) 본문

ML/Algorithms

[Machine Learning] 다중 선형 회귀분석에서의 변수 선택 (다중공선성 해결방법)

기모랑의 초코 2023. 1. 9. 21:55

 

 

 

https://piscesue0317.tistory.com/37
 

[Data Science] 다중공선성이란 무엇일까요 ?

https://piscesue0317.tistory.com/36 [Machine Learning] 다중 선형 회귀분석 ( 지도학습 / 예측 ) https://piscesue0317.tistory.com/34 [Machine Learning] 선형 회귀분석 ( 지도학습 / 예측 ) https://piscesue0317.tistory.com/27 [Data Scien

piscesue0317.tistory.com

 

 

위 글을 통해 다중 선형 회귀분석에서 발생할 수 있는

다중공선성에 대해 알아보았습니다.

 

 


 

 

이번엔 다중공선성을 해결할 수 있는 방법에 대해 알아보겠습니다.

 

일단 크게 변수를 줄이거나 추가하는 방법과

줄이지 않는 방법으로 나눌 수 있습니다.

 

 

 

 


 

 

 

 

변수를 줄이거나 추가하는 방법 (변수 선택)

 

 

변수 선택은

변수가 여러 개일 때 최적의 변수 조합을

찾아내는 기법입니다.

 

 

 


 

 

 

1. All Possible Regressions 

 

 

변수의 수가 p개일 때 변수의 총조합은 2의 p제곱으로

변수의 수가 증가함에 따라 변수 조합의 수도

기하급수적으로 증가합니다.

 

이들에 대한 모든 회귀분석을 수행한 후

적절한 기준 (MSE, R square 등) 에 의해 회귀모형을 선택합니다.

 

 

SSEp Cp R square Adj R square
작을수록 좋음 p + 1에 가까운 모형 중
작을수록 좋음
클수록 좋음 클수록 좋음

 

 

 

 

* SSE = p개의 회귀계수를 포함한 회귀모형의 잔차제곱합

(모든 k개의 회귀변수가 모형에 포함되었을 때의 MSE값 사용)

 

 

 

 


 

 

 

 

2. Forward Selection 방법

 

 

 

 

 

R square 증가에 가장 크게 기여하는 변수부터 하나씩 추가해 가며

성능지표를 비교해가는 방법입니다.

 

즉, 더 이상 통계적으로 기여도가 유의하지 않다고

판단될 때의 모형을 선택합니다.

 

 

 

AIC : 주어진 데이터 셋에 대한 통계 모델의 상대적인 품질을 평가하는 것 (낮을수록 좋음)


* - 2ln(L) : 모형의 적합도를 의미
* L : Likelihood function
* k : 모형의 추정된 파라미터의 개수

= 따라서 AIC값이 낮다는 것은 모형의 적합도가 높다는 것을 의미

 

 

 


 

 

 

 

3. Backward Elimination

 

 

 

 

모든 회귀변수가 포함된 모형에서

통계적으로 유의하지 않은 변수를 하나씩 제거해 나가면서

더 이상 제거할 회귀변수가 없다고 판단될 때의 모형을 선택합니다.

 

 

 

 

 

 


 

 

 

4. Stepwise Regression

 

 

회귀변수의 추가와 제거를 병행해 나가되

더 이상 추가할 변수나 제거할 변수가 없을 때까지

계속하는 방법입니다.

 

 

 

 


 

 

 

 

변수를 줄이지 않는 방법

 

 

* Auto Encoder 등의 Feature Extraction 기법 (딥러닝)

* PCA (주성분 분석)

* Ridge

 

 

 

Comments