# 결측치를 특정 값으로 채우기
zero_abalone_df = nan_abalone_df.fillna(0)
zero_abalone_df
평균 값으로 채운 예제
# 결측치를 결측치가 속한 컬럼의 평균값으로 대체하기
nan_abalone_df.mean()
nan_abalone_df.fillna(nan_abalone_df.mean())
기술 통계 확인
# 기술통계 확인 => 연속형 변수만 확인 가능 => numerical 변수만 확인 가능
abalone_df.describe()
집계
# 전복(abalone) 성별에 따라 groupby함수를 통해 집계하기
# DataFrame[집계 변수].groupby(DataFrame[집계 대상])
grouped = abalone_df['whole_weight'].groupby(abalone_df['sex'])
# 합계
grouped.sum()
grouped.mean()
# 개수
grouped.size()
성별에 따른 전체 변수에 대한 집계
# 그룹변수가 하나가 아닌, 전체 연속형 변수에 대한 집계
abalone_df.groupby(abalone_df['sex']).mean()
# 다음과 같이 간단하게 표현
abalone_df.groupby('sex').mean()
새로운 조건에 맞는 변수 추가
# 새로운 조건에 맞는 변수 추가
abalone_df['length_bool'] = np.where(abalone_df['length']>abalone_df['length'].median(),
'length_long', # True일 경우
'length_short') # False일 경우
그룹 변수 2개 이상 선택하여 총계 처리
# 그룹변수를 2개 이상 선택해서 총계 처리?
abalone_df.groupby(['sex', 'length_bool']).mean()
간결 표현
# 간결하게 표현 가능
abalone_df.groupby(['sex', 'length_bool'])['whole_weight'].mean()