[빅분기] 작업형 1
2022. 6. 23. 17:55ㆍPython
중앙값 대체
# 80%미만 결측치 컬럼, city별 중앙값으로 대체
s=df[df['city']=='서울']['f1'].median()
k=df[df['city']=='경기']['f1'].median()
b=df[df['city']=='부산']['f1'].median()
d=df[df['city']=='대구']['f1'].median()
# f1결측치 city별 중앙값으로 대체
df['f1'] = df['f1'].fillna(df['city'].map({'서울':s,'경기':k,'부산':b,'대구':d}))
왜도와 첨도
- DataFrame.skew() 왜도
- DataFrame.kurt() 첨도
# 'SalePrice'컬럼 로그변환
import numpy as np
df['SalePrice'] = np.log1p(df['SalePrice'])
iloc loc
groupby
replace
# 값 변경하기
df['f4'] = df['f4'].replace('ESFJ', 'ISFJ')
누적합 cumsum()
cumsum()
fillna(method = 'bfill')
# f1데이터에서 10번째 큰 값으로 결측치를 채움
top10 = df['f1'].sort_values(ascending=False).iloc[9]
# 중복제거
df = df.drop_duplicates(subset=['age'])
IQR (quantile)
IQR = Q3-Q1
(Q3+1.5*IQR) (Q1-1.5*IQR)
'Python' 카테고리의 다른 글
크롤링 (0) | 2022.07.08 |
---|---|
[빅분기] 머신러닝 (0) | 2022.06.13 |
[빅분기] 결측값을 집단 평균값으로 대체 (0) | 2022.06.08 |
[Numpy] where 함수 (0) | 2022.06.08 |
빅분기 실기 Chapter2 (0) | 2022.06.07 |