IE가 어른이 되기까지

[Data Science] 과적합이란 무엇일까 ? 본문

DATA SCIENCE/Algorithms

[Data Science] 과적합이란 무엇일까 ?

기모랑의 초코 2023. 1. 5. 11:54

 

 

 

 

과적합 (overfitting) 이란 무엇일까요 ?

 

주어진 데이터를 머신러닝이 충분한 학습을 하게 되면

본 데이터에 대한 정답은 잘 맞추는 모델을 생성하게 되지만

그 모델이 새로운 데이터에 대해서는 제대로 적용되지 않을 수도 있습니다.

 

말 그대로 주어진 데이터에 대해서만

과하게 적합되었다는 의미입니다.

 

 

 

 

발생 원인

 

 

과적합이 일어나는 이유는 무엇일까요 ?

 

너무 많은 예측변수 (독립변수, 주로 x라고 판단) 들을 

가진 경우에 주로 일어납니다.

 

 

 

 

해결방법

 

 

 

모델이 새로운 데이터에서도 잘 돌아가기 위해,

즉 과적합을 해결하기 위해서 데이터를 두 부분으로 나눕니다.

 

 

 

 

주어진 데이터를 임의의 비율로

모델을 개발하는 데 활용되는 학습 데이터 (Training Data)

생성된 모델을 실행하고 검증하기 위해 새로운 데이터 역할을 하는

검증 데이터 (Validation Data)로 나눕니다.

 

 

 

Comments