Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- OrdinalEncoder
- LinearRegression
- RegressionTree
- 딥러닝
- 분류
- GridSearchCV
- 단순선형회귀분석
- 다중선형회귀분석
- 지도학습
- deeplearning
- 결정계수
- LogisticRegression
- DataScience
- 잔차분석
- 데이터전처리
- ML
- 하이퍼파라미터
- 비지도학습
- 데이터분석
- 손실함수
- 시계열데이터
- 시계열 데이터
- time series
- 의사결정나무
- dataframe
- scikitlearn
- 선형회귀분석
- machinelearning
- 로지스틱회귀분석
- Python
Archives
- Today
- Total
IE가 어른이 되기까지
[Python] 판다스 (Pandas) 의 DataFrame 다루기 본문
데이터 분석을 하다 보면 DataFrame 형태의
데이터를 다루게 되는 경우가 많습니다.
이번에는 DataFrame 활용 시 자주 사용하는
방법에 대해 알아보도록 하겠습니다.
import pandas as pd
import numpy as np
much_data = np.fromfunction(lambda x, y: (x + y * y) % 17 * 11, (10000, 26))
large_df = pd.DataFrame(much_data, columns=list("ABCDEFGHIJKLMNOPQRSTUVWXYZ"))
large_df[large_df % 16 == 0] = np.nan
large_df.insert(3,"some_text", "Blabla")
large_df
이를 위해 먼저 'large_df'라는 DataFrame을 생성하였습니다.
DataFrame 반환
large_df.head()
.head( )를 수행하면 처음 5개 행을 반환합니다.
large_df.tail()
.tail( )을 수행하면 마지막 5개 행을 반환합니다.
DataFrame 요약
large_df.info()
.info( )를 통해 각 열의 내용을 요약하여 출력할 수 있습니다.
'Non-Null Count'를 통해 결측치가 없는 값의 개수를 알 수 있고,
'Dtype'을 통해 Data type이 무엇인지 알 수 있습니다.
주로 데이터 전처리에 대한 인사이트를 얻기 위해 사용합니다.
large_df.describe()
.describe( )를 통해 각 열에 대한 주요 집계 연산 수행 결과를 볼 수 있습니다.
- count: null(NaN)이 아닌 값의 개수
- mean: null이 아닌 값의 평균
- std: null이 아닌 값의 [표준 편차]
- min: null이 아닌 값의 최솟값
- 25%, 50%, 75%: null이 아닌 값의 25번째, 50번째, 75번째 [백분위수]
- max: null이 아닌 값의 최댓값
DataFrame 저장 및 로딩
my_df_loaded = pd.read_csv("my_df.csv", index_col = 0)
데이터 분석을 하다보면 'csv' 라는 엑셀의 형태의 데이터를 활용하곤 합니다.
이를 Pandas에서 사용하려면 'pd.read_csv( )'라는 함수를 사용하여
DataFrame 형태로 불러옵니다.
index_col = 0 은 첫번째 열을 index로 사용하겠다는 의미입니다.
my_df.to_csv("my_df.csv")
반대로 'to_csv( )'라는 함수를 통해
우리가 만든 DataFrame을 csv 형태의 파일로 변환시킬 수 있습니다.
괄호 안은 csv 파일의 이름을 지정해주는 것입니다.
해당 코드를 실행하면 자동으로 csv 파일이 생성됩니다.
'DATA SCIENCE > Python' 카테고리의 다른 글
[Python] Matplotlib으로 그래프 그리기 (0) | 2023.01.04 |
---|---|
[Python] 판다스 (Pandas) 의 DataFrame 결측치 처리하기 (0) | 2023.01.04 |
[Python] 판다스 (Pandas) 의 DataFrame 조인 및 연결하기 (0) | 2023.01.04 |
[Python] 판다스 (Pandas) 의 DataFrame 그룹핑하기 (0) | 2023.01.04 |
[Python] 판다스 (Pandas) 의 DataFrame 연산하기 (0) | 2023.01.04 |
Comments