빅분기 실기 Chapter2

2022. 6. 7. 16:34Python

replace 함수 

data['industry'] = data['industry'].replace([1,2,3,4],['Service','IT','Finance','Others'])

plot 

data['industry'].value_counts().plot(kind='pie') # kind= 'pie','bar','line'
count NA 값을 제외한값의 수를 반환
describe 시리즈 혹은 데이터프레임의 각 열에 대한 기술 통계
min, max 최소, 최대값
argmin, argmax 최소, 최대값을 갖고 이쓴 색인 위치 반환
idxmin, idxmax 최소, 최대값을 갖고 있는 색인의 값 반환
quantile 0부터 1까지의 분위수 계산
sum
mean 평균
median 중위값
mad 평균값에서 절대 평균편차
var 표본 분산
std 표본 표준편차
skew 표본 비대칭도
kurt 표본 첨도
cumsum 누적 합
cummin, cummax 누적 최소값, 누적 최대값
cumprod 누적 곱
diff 1차 산술차(시계열 데이터 사용시 유용)
pct_change 퍼센트 변화율 계산
corr 데이터프레임의 모든 변수 간 상관관계를 계산하여 반환
cov 데이터프레임의 모든 변수 간 공분산을 계산하여 반환

결측치

isnull() : 결측이면 True, 결측이 아니면 False

notnull() : 결측이면 False, 결측이 아니면 True

df.isnull().sum() : 변수 별로 결측값 개수 확인

df['salary'].isnull().sum() : 특정 변수의 결측값 개수 확인

'Python' 카테고리의 다른 글

[빅분기] 결측값을 집단 평균값으로 대체  (0) 2022.06.08
[Numpy] where 함수  (0) 2022.06.08
빅분기 실기 Chapter1  (0) 2022.06.07
Crawling  (0) 2022.03.24
Pandas 함수  (0) 2022.03.23