[Python] Pandase(판다스)

Pandas

쉽고 직관적인 관계형 또는 분류된 데이터로 작업할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지
데이터 분석을 위한 핵심라이브러리로써 고유한 자료구조인 Series와 DataFrame을 활용하여 빅데이터 분석에 엄청난 수준의 퍼포먼스를 발휘함
Series(index 있음)와 DataFrame은 numpy(선형대수)(index 없음)의 1차원 2차원 array와 유사함
간단한 차이점은 array에 index가 있는 형태

데이터 검색 시 사용하는 라이브러리 → import os

→ . 하나만 있는 경우 현재 어떤 파일이 있는지 확인하는 것

# pandas의 read_csv -> 데이터 불러오기
df = pd.read_csv(friend_src, encoding='utf-8')

# head() 데이터를 읽어보기
df.head()

# index=False 꼭 하기(필요없는 데이터는 안가져오게 하려고)
df.to_csv(new_friend_src,index=False,encoding='utf-8')

→ os.listdir()로 파일이 생성되었나 확인하기

# 중복 데이터 삭제
# 중복된 row를 확인하는 법
abalone_df.duplicated()

abalone_df.duplicated().sum()

# 중복 예제 생성을 위해서 가상으로 중복데이터 생성

new_abalone = abalone_df.iloc[[0]]
new_abalone_df = pd.concat([abalone_df, new_abalone], axis=0)
new_abalone_df

# 두 개의 DataFrame 합치기
# 가상 abalone 1개 row 데이터 생성 및 결합
one_abalone_df = abalone_df.iloc[[0]]
pd.concat([abalone_df, one_abalone_df], axis=0)

# 전체 행의 성별에 대해
one_abalone_df = abalone_df.iloc[:, [0]]
pd.concat([abalone_df, one_abalone_df], axis=1)

new_abalone_df.duplicated(keep='last')

# 중복 데이터(row 삭제)
new_abalone_df = new_abalone_df.drop_duplicates()