[Python] 판다스 (Pandas) 의 DataFrame 다루기

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

IE가 어른이 되기까지

[Python] 판다스 (Pandas) 의 DataFrame 다루기 본문

DATA SCIENCE/Python

[Python] 판다스 (Pandas) 의 DataFrame 다루기

기모랑의 초코 2023. 1. 4. 17:28

데이터 분석을 하다 보면 DataFrame 형태의

데이터를 다루게 되는 경우가 많습니다.

이번에는 DataFrame 활용 시 자주 사용하는

방법에 대해 알아보도록 하겠습니다.

import pandas as pd
import numpy as np

much_data = np.fromfunction(lambda x, y: (x + y * y) % 17 * 11, (10000, 26))
large_df = pd.DataFrame(much_data, columns=list("ABCDEFGHIJKLMNOPQRSTUVWXYZ"))
large_df[large_df % 16 == 0] = np.nan
large_df.insert(3,"some_text", "Blabla")
large_df

이를 위해 먼저 'large_df'라는 DataFrame을 생성하였습니다.

DataFrame 반환

large_df.head()

.head( )를 수행하면 처음 5개 행을 반환합니다.

large_df.tail()

.tail( )을 수행하면 마지막 5개 행을 반환합니다.

DataFrame 요약

large_df.info()

.info( )를 통해 각 열의 내용을 요약하여 출력할 수 있습니다.

'Non-Null Count'를 통해 결측치가 없는 값의 개수를 알 수 있고,

'Dtype'을 통해 Data type이 무엇인지 알 수 있습니다.

주로 데이터 전처리에 대한 인사이트를 얻기 위해 사용합니다.

large_df.describe()

.describe( )를 통해 각 열에 대한 주요 집계 연산 수행 결과를 볼 수 있습니다.

count: null(NaN)이 아닌 값의 개수
mean: null이 아닌 값의 평균
std: null이 아닌 값의 [표준 편차]
min: null이 아닌 값의 최솟값
25%, 50%, 75%: null이 아닌 값의 25번째, 50번째, 75번째 [백분위수]
max: null이 아닌 값의 최댓값

DataFrame 저장 및 로딩

my_df_loaded = pd.read_csv("my_df.csv", index_col = 0)

데이터 분석을 하다보면 'csv' 라는 엑셀의 형태의 데이터를 활용하곤 합니다.

이를 Pandas에서 사용하려면 'pd.read_csv( )'라는 함수를 사용하여

DataFrame 형태로 불러옵니다.

index_col = 0 은 첫번째 열을 index로 사용하겠다는 의미입니다.

my_df.to_csv("my_df.csv")

반대로 'to_csv( )'라는 함수를 통해

우리가 만든 DataFrame을 csv 형태의 파일로 변환시킬 수 있습니다.

괄호 안은 csv 파일의 이름을 지정해주는 것입니다.

해당 코드를 실행하면 자동으로 csv 파일이 생성됩니다.

저작자표시 (새창열림)

'DATA SCIENCE > Python' 카테고리의 다른 글

[Python] Matplotlib으로 그래프 그리기 (0)	2023.01.04
[Python] 판다스 (Pandas) 의 DataFrame 결측치 처리하기 (0)	2023.01.04
[Python] 판다스 (Pandas) 의 DataFrame 조인 및 연결하기 (0)	2023.01.04
[Python] 판다스 (Pandas) 의 DataFrame 그룹핑하기 (0)	2023.01.04
[Python] 판다스 (Pandas) 의 DataFrame 연산하기 (0)	2023.01.04

'DATA SCIENCE/Python' Related Articles

Comments

IE가 어른이 되기까지

[Python] 판다스 (Pandas) 의 DataFrame 다루기 본문

[Python] 판다스 (Pandas) 의 DataFrame 다루기

'DATA SCIENCE > Python' 카테고리의 다른 글

티스토리툴바