[Python] Matplotlib과 Seaborn라이브러리를 활용한 데이터 시각화
·
Programming Language/Python
Bar 차트 - 막대 차트Pie 차트 - 원형 차트Line 차트 - 선 차트Scatter 차트 - 점 차트Heat Map 차트 - 열 차트Histogram 차트 - 빈포 분도 차트Box 차트 - 박스 차트 시각화 라이브러리matplotlib파이썬으로 기본적인 차트들을 쉽게 그릴 수 있도록 도와주는 시각화 라이브러리seabornmatplotlib 기반으로 만들어진 통계 데이터 시각화 라이브러리import numpy as np import pandas as pdimport matplotlib.pyplot as plt import seaborn as sns import warnings # 시각화 관련 버전 등의 경고(없애기위함) # 시각화 하기 전 준비 (안해도 되는 과정) plt.rcParams['fig..
[Python] apply 함수
·
Programming Language/Python
apply 함수 활용DataFrame 타입의 객체에서 호출가능한 apply 함수에 대해 살펴보자본인이 원하는 행과 열에 연산 혹은 function을 적용할 수 있음열 기준으로 집계하고 싶은 경우 axis = 0행 기준으로 집계하고 싶은 경우 axis = 1열 기준 집계# apply 함수# 열 기준 집계abalone_df[['diameter']].apply(np.average, axis=0)행 기준 집계# 행 기준 집계abalone_df[['diameter']].apply(np.average, axis=1)사용자 함수를 통한 집계# 사용자 함수를 통한 집계 ★★★★★import mathdef avg_ceil(x, y, z): return math.ceil((x+y+z)/3) # ceil 올림abalo..
[Python] DataFrame 그룹
·
Programming Language/Python
데이터프레임 그룹 생성pandas의 groupby() 연산자를 사용하여 집단, 그룹별로 데이터를 집계 및 요약 할 수 있음dataframe을 지정한 그룹으로 나누고, 각 그룹별로 집계함수를 적용하고, 그룹별 집계 결과를 하나로 합치는 과정을 거침abalone_src = base_src + '/abalone.data'데이터 읽어오기header : none인 경우 헤더를 가져오지 않겠다는 의미sep : 어떤 구분자를 통해 데이터를 구분할 것인지names : 컬럼명abalone_df = pd.read_csv(abalone_src, header=None, sep=',',names=['sex','length','diameter','height', 'whole_weight','shu..
[Python] DataFrame
·
Programming Language/Python
# DataFrame 실습df = pd.DataFrame({'a':[2,3], 'b':[5, 10]})dfdf = pd.DataFrame([[2, 5], [3, 10], [10, 20]], columns=['a', 'b'])df데이터프레임 행, 열 삭제df.drop([지울 행이나 열], axis=축(0 or 1))열 지울 땐 axis = 1행 지울 땐 axis = 0df.drop(['B', 'C'], axis=1)inplace = True변수 할당 없이 변수에 적용하겠다는 뜻df.drop(['B', 'C'], axis=1, inplace=True)== 같은 뜻df = df.drop(['B', 'C'], axis=1) 계산 기능mean() : 평균 값 구하기데이터프레임 수정# 1행의 C열의 값을 육으로 변..
[Python] iloc와 loc
·
Programming Language/Python
df.iloc[숫자]→ 시리즈로 행 가져오기df.iloc[[숫자]]→ 데이터프레임으로 행 가져오기df[컬럼명]→ 컬럼에 해당하는 값 모두 가져오기df.loc[문자열]→ 문자열, 즉 데이터프레임에 있는 형태 그대로 가져옴iloc와 loc 의 차이점(상황에 맞게 선택)iloc는 인덱스와 컬럼을 리스트 배열로 선택하는 것loc는 인덱스와 컬럼을 문자로 선택하는 것인덱스를 [0, 1, 2, 3, 4, 5]에서 [1, 2, 3, 4, 5, 6]으로 변경 후 2열의 있는 값 가져오기iloc는 리스트 기준이기 때문에 변경 전 Nate를 가져오고 loc는 변경 후 2열에 있는 Jenny를 가져옴
[Python] Pandase(판다스)
·
Programming Language/Python
Pandas쉽고 직관적인 관계형 또는 분류된 데이터로 작업할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지데이터 분석을 위한 핵심라이브러리로써 고유한 자료구조인 Series와 DataFrame을 활용하여 빅데이터 분석에 엄청난 수준의 퍼포먼스를 발휘함Series(index 있음)와 DataFrame은 numpy(선형대수)(index 없음)의 1차원 2차원 array와 유사함간단한 차이점은 array에 index가 있는 형태Pandas로 할 수 있는 기능빠른 Indexing, Slicing, Sorting 하는 기능두 데이터 간의 Join(행, 열 방향) 기능데이터의 피봇팅 및 그룹핑데이터의 통계 및 시각화 기능외부 데이터를 입력 받아 Pandas 자료구조로 저..