[빅분기] 작업형 1

2022. 6. 23. 17:55Python

중앙값 대체 

# 80%미만 결측치 컬럼, city별 중앙값으로 대체

s=df[df['city']=='서울']['f1'].median()
k=df[df['city']=='경기']['f1'].median()
b=df[df['city']=='부산']['f1'].median()
d=df[df['city']=='대구']['f1'].median()

 

# f1결측치 city별 중앙값으로 대체
df['f1'] = df['f1'].fillna(df['city'].map({'서울':s,'경기':k,'부산':b,'대구':d}))

 

왜도와 첨도

  • DataFrame.skew() 왜도
  • DataFrame.kurt() 첨도

# 'SalePrice'컬럼 로그변환
import numpy as np

df['SalePrice'] = np.log1p(df['SalePrice'])

 

iloc loc 

groupby 

 

replace 

# 값 변경하기
df['f4'] = df['f4'].replace('ESFJ', 'ISFJ')

 

누적합 cumsum()

cumsum()

fillna(method = 'bfill')

 

# f1데이터에서 10번째 큰 값으로 결측치를 채움
top10 = df['f1'].sort_values(ascending=False).iloc[9]

# 중복제거

df = df.drop_duplicates(subset=['age'])

 

IQR (quantile)

IQR = Q3-Q1 

(Q3+1.5*IQR)      (Q1-1.5*IQR) 

'Python' 카테고리의 다른 글

크롤링  (0) 2022.07.08
[빅분기] 머신러닝  (0) 2022.06.13
[빅분기] 결측값을 집단 평균값으로 대체  (0) 2022.06.08
[Numpy] where 함수  (0) 2022.06.08
빅분기 실기 Chapter2  (0) 2022.06.07