IE가 어른이 되기까지

[Python] 판다스 (Pandas) 의 DataFrame 다루기 본문

DATA SCIENCE/Python

[Python] 판다스 (Pandas) 의 DataFrame 다루기

기모랑의 초코 2023. 1. 4. 17:28

 

 

데이터 분석을 하다 보면 DataFrame 형태의

데이터를 다루게 되는 경우가 많습니다.

 

이번에는 DataFrame 활용 시 자주 사용하는

방법에 대해 알아보도록 하겠습니다.

 

 

 

import pandas as pd
import numpy as np

much_data = np.fromfunction(lambda x, y: (x + y * y) % 17 * 11, (10000, 26))
large_df = pd.DataFrame(much_data, columns=list("ABCDEFGHIJKLMNOPQRSTUVWXYZ"))
large_df[large_df % 16 == 0] = np.nan
large_df.insert(3,"some_text", "Blabla")
large_df

 

이를 위해 먼저 'large_df'라는 DataFrame을 생성하였습니다.

 

 

 

 

 

DataFrame 반환
large_df.head()

 

.head( )를 수행하면 처음 5개 행을 반환합니다.

 

 

large_df.tail()

 

.tail( )을 수행하면 마지막 5개 행을 반환합니다.

 

 

 

 

 

 

 

DataFrame 요약

 

large_df.info()

 

 

.info( )를 통해 각 열의 내용을 요약하여 출력할 수 있습니다.

 

'Non-Null Count'를 통해 결측치가 없는 값의 개수를 알 수 있고,

'Dtype'을 통해 Data type이 무엇인지 알 수 있습니다.

 

주로 데이터 전처리에 대한 인사이트를 얻기 위해 사용합니다.

 

 

 

large_df.describe()

 

.describe( )를 통해 각 열에 대한 주요 집계 연산 수행 결과를 볼 수 있습니다.

 

  • count: null(NaN)이 아닌 값의 개수
  • mean: null이 아닌 값의 평균
  • std: null이 아닌 값의 [표준 편차]
  • min: null이 아닌 값의 최솟값
  • 25%, 50%, 75%: null이 아닌 값의 25번째, 50번째, 75번째 [백분위수]
  • max: null이 아닌 값의 최댓값

 

 

 

 

 

DataFrame 저장 및 로딩

 

my_df_loaded = pd.read_csv("my_df.csv", index_col = 0)

 

데이터 분석을 하다보면 'csv' 라는 엑셀의 형태의 데이터를 활용하곤 합니다.

 

이를 Pandas에서 사용하려면 'pd.read_csv( )'라는 함수를 사용하여

DataFrame 형태로 불러옵니다.

 

index_col = 0 은 첫번째 열을 index로 사용하겠다는 의미입니다.

 

 

my_df.to_csv("my_df.csv")

 

반대로 'to_csv( )'라는 함수를 통해

우리가 만든 DataFrame을 csv 형태의 파일로 변환시킬 수 있습니다.

 

괄호 안은 csv 파일의 이름을 지정해주는 것입니다.

해당 코드를 실행하면 자동으로 csv 파일이 생성됩니다.

 

 

 

Comments