판다스(Pandas) 기초 + 타이타닉 데이터

Code/머신러닝 in Python

앞에서 넘파이를 통해 배열을 생성하고 인덱싱, 정렬 등에 대해 공부하였다.

다음으로 데이터를 파이썬에서 처리하기 위해 사용하는 판다스에 대해 알아볼 것이다.

판다스(Pandas)는 파이썬의 리스트, 컬렉션, 넘파이 등의 내부 데이터뿐만 아니라 csv 등의 파일을 쉽게 DataFrame으로 변경해 데이터의 가공/분석을 편리하게 수행할 수 있게 만들어준다.

기본 판다스의 핵심 객체는 DataFrame으로, 여러 개의 행과 열로 이루어진 2차원 데이터를 담는 데이터 구조체이다.

데이터 프레임을 이해하기 전 Index, Series에 대해 이해해보도록 하겠습니다.

- Index : RDBMS의 PK 처럼 개별 데이터를 고유하게 식별하는 Key

Series와 DataFrame은 모두 index를 key값으로 가지고 있음

- Series : 칼럼이 하나인 데이터 구조체 (DataFrame : 칼럼이 여러개인 데이터 구조체 -> Series를 여러개 가짐)

1. 판다스(Pandas) 사용 : 모듈 추가하기

import pandas as pd

2. 예제를 위해 Kaggle 의 Titanic 데이터를 다운 받겠습니다.

위의 사이트에 들어가서 로그인 / 회원가입 후 해당 대회을 신청 후 경연 참가 규정 준수를 해야 다운이 가능합니다.

다운 받은 데이터를 확인해보면 데이터들이 , 로 연결된 것으로 확인 할 수 있다.

, 로 데이터 분류한 것을 csv이라고 한다.

3. 데이터 불러오기

titanic_df = pd.read_csv('해당 타이타닉 파일 위치\titanic_train.csv')
titanic_df.head(3)

- pd.read_csv() 를 통해 데이터를 읽어 올 수 있다. 자동으로 ,를 분류하여 DafaFrame 형태로 들어옴

- .head() : 해당 인자의 숫자만큼 데이터를 보여줌

4. 데이터 확인

titanic_df.info()

- .info() : 데이터 프레임의 칼럼 타입, null의 개수, 데이터 분포 등 데이터에 대해 정보를 조회할 수 있다

titanic_df.describe()

- .describe() : 숫자형 칼럼에 대한 개략적인 데이터 분포도를 알 수 있다

(count, mean, std, min, 25%, 50%, 75%, max) 값에 대한 정보를 보여준다.

5. value_counts()

value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

- .value_counts() : 지정된 칼럼의 데이터값을 건수로 반환하며, 데이터의 분포도를 확인하는데 매우 유용한 함수이다.

* 'Pclass'에 대한 Series를 뽑아서 value_counts()를 호출하면 해당 칼럼값의 유형과 건수 확인 할 수 있다.

초롱스쿨