Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- time series
- 로지스틱회귀분석
- 손실함수
- 시계열 데이터
- 단순선형회귀분석
- 다중선형회귀분석
- dataframe
- 결정계수
- 데이터전처리
- ML
- Python
- LinearRegression
- RegressionTree
- scikitlearn
- LogisticRegression
- 시계열데이터
- 하이퍼파라미터
- 딥러닝
- machinelearning
- OrdinalEncoder
- 분류
- 의사결정나무
- 데이터분석
- 잔차분석
- GridSearchCV
- 지도학습
- 선형회귀분석
- DataScience
- deeplearning
- 비지도학습
Archives
- Today
- Total
IE가 어른이 되기까지
[Data Science] 과적합이란 무엇일까 ? 본문
과적합 (overfitting) 이란 무엇일까요 ?
주어진 데이터를 머신러닝이 충분한 학습을 하게 되면
본 데이터에 대한 정답은 잘 맞추는 모델을 생성하게 되지만
그 모델이 새로운 데이터에 대해서는 제대로 적용되지 않을 수도 있습니다.
말 그대로 주어진 데이터에 대해서만
과하게 적합되었다는 의미입니다.
발생 원인
과적합이 일어나는 이유는 무엇일까요 ?
너무 많은 예측변수 (독립변수, 주로 x라고 판단) 들을
가진 경우에 주로 일어납니다.
해결방법
모델이 새로운 데이터에서도 잘 돌아가기 위해,
즉 과적합을 해결하기 위해서 데이터를 두 부분으로 나눕니다.
주어진 데이터를 임의의 비율로
모델을 개발하는 데 활용되는 학습 데이터 (Training Data),
생성된 모델을 실행하고 검증하기 위해 새로운 데이터 역할을 하는
검증 데이터 (Validation Data)로 나눕니다.
'DATA SCIENCE > Algorithms' 카테고리의 다른 글
[Data Science] 잔차(Residual)와 오차(Error)란 무엇일까 ? (0) | 2023.01.09 |
---|---|
[Data Science] 다중공선성이란 무엇일까 ? (0) | 2023.01.09 |
[Data Science] OneHotEncoder와 Ordinal Encoding 이란 무엇일까 ? (범주형 변수 전처리) (0) | 2023.01.05 |
[Data Science] 정규화와 표준화란 무엇일까 ? (수치형 변수 전처리) (0) | 2023.01.05 |
[Data Science] 지도학습과 비지도학습이란 ? (0) | 2023.01.04 |
Comments