일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 로지스틱회귀분석
- RegressionTree
- 데이터분석
- 잔차분석
- 분류
- 비지도학습
- GridSearchCV
- 하이퍼파라미터
- Python
- ML
- LinearRegression
- 단순선형회귀분석
- DataScience
- 데이터전처리
- 결정계수
- dataframe
- scikitlearn
- 손실함수
- 시계열데이터
- 딥러닝
- 지도학습
- time series
- LogisticRegression
- deeplearning
- machinelearning
- 의사결정나무
- 다중선형회귀분석
- OrdinalEncoder
- 시계열 데이터
- 선형회귀분석
- Today
- Total
목록DATA SCIENCE/Python (10)
IE가 어른이 되기까지

우리는 Matplotlib이라는 라이브러리를 통해 그래프를 출력할 수 있습니다. %matplotlib inline import matplotlib.pyplot as plt temperatures = [4.4, 5.1, 6.1, 6.2, 6.1, 6.1, 5.7, 5.2, 4.7, 4.1, 3.9, 3.5] graph = pd.Series(temperatures, name="Temperature") graph.plot() plt.show() Series 데이터로 출력한 그래프입니다. .plot( )라는 함수로 그래프로 만들고 .show( )를 실행하면 그래프가 출력됩니다. people.plot(kind = "line", x = "body_mass_index", y = ["height", "weight"])..

데이터 분석을 하다 보면 DataFrame 형태의 데이터를 다루게 되는 경우가 많습니다. 이번에는 DataFrame 활용 시 자주 사용하는 방법에 대해 알아보도록 하겠습니다. import pandas as pd import numpy as np much_data = np.fromfunction(lambda x, y: (x + y * y) % 17 * 11, (10000, 26)) large_df = pd.DataFrame(much_data, columns=list("ABCDEFGHIJKLMNOPQRSTUVWXYZ")) large_df[large_df % 16 == 0] = np.nan large_df.insert(3,"some_text", "Blabla") large_df 이를 위해 먼저 'large_d..

데이터 분석에 있어 전처리 과정은 매우 중요합니다. 알고리즘을 적용하기 전에 데이터는 반드시 전처리 되어야 하는데 그때 대표적으로 전처리 되는 것이 바로 '결측치'입니다. 결측치란 데이터가 없는 것으로 DataFrame을 출력해 보면 'NaN'이라는 값으로 출력됩니다. 그렇다면 어떻게 처리하는 것일까요 ? DataFrame 결측값 개수 확인 그 전에 먼저 결측치가 있는지 없는지 확인하는 방법부터 알아보겠습니다. grades1.info() index가 전체 4개일 때 'sep' 변수는 총 2개의 값만 존재하므로 2개의 결측값이 존재하고, 'oct' 변수는 존재하지 않으며, 'nov'는 1개, 'dec'는 모두 결측값임을 알 수 있습니다. grades1.isna().sum() 혹은 이처럼 전체 변수에 결측값..