데이터 정렬
2022. 3. 18. 00:56ㆍPython
리스트 및 튜플 정렬
sort
sort()
# reverse : 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수
- 리스트 및 튜플 자체를 정렬 ( return 값이 없음)
- Pandas에서 inplace = True로 설정한 것 과 같음
L = [1, 4, 3, 5, 2, 5]
L.sort(reverse = True) # 출력이 None이고 L자체가 수정됨
L
sorted
sorted()
# reverse : 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수
# key : 정렬 기준 함수 (주로 lambda 함수 사용)
- 정렬된 리스트 및 튜플을 반환
L = ['We', 'Use', 'Python', 'For', 'Data Preprocessing']
sorted(L, key = lambda x:len(x), reverse = True) # 길이를 기준으로 내림차순 정렬
Series 정렬
sort_values()
# ascending : 오름차순으로 정렬할 것인지 여부
# key : 정렬 기준 함수 (주로 lambda 함수 사용)
# na_position : 결측이 있는 경우 어디에 배치할 것인지 결정 {first, last}
S.sort_values(ascending = False, na_position = 'first') #내림차순, 결측배치를 위에
Series 요약 함수
value_counts()
# acsending : 오름차순으로 정렬할 것인지 여부
# normalize : 빈도 대신 비율을 출력할 것인지 여부
- Series의 구성 요소의 빈도를 순서대로 출력
unique()
# 출력 결과의 데이터 타입 : ndarray
- Series에 포함된 유니크한 값을 출력
- 범주형 변수와 연속형 변수를 판단하는데 사용 가능
- 결측값 표시됨
DataFrame 정렬
sort_values()
# by : 정렬 기준 컬럼 (목록)
# ascending : 오름차순으로 정렬할 것인지 여부
# key : 정렬 기준 함수 (주로 lambda 함수 사용)
# na_position : 결측이 있는 경우 어디에 배치할 것인지 결정 {first, last}
DataFrame 중복 제거
drop_duplicates()
# subset : 중복 기준을 판단하는 컬럼 (목록)
# keep : 중복이 있는 행의 어느 부분을 남길 것인지 결정 {'first', 'last', 'false'}
- 중복이 있는 행을 제거
df.drop_duplicates(subset = ['A'], keep = 'last') # A 기준 중복 제거 (마지막 행 남김: 인덱스 주목)
'Python' 카테고리의 다른 글
Function (0) | 2022.03.18 |
---|---|
인덱싱 (0) | 2022.03.18 |
pivot_table, groupby (0) | 2022.03.18 |
기초 통계 함수 (0) | 2022.03.18 |
데이터 결합 - merge, concat (0) | 2022.03.17 |