데이터 정렬

데이터 정렬

2022. 3. 18. 00:56ㆍPython

리스트 및 튜플 정렬

sort

sort()
# reverse : 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수

리스트 및 튜플 자체를 정렬 ( return 값이 없음)
Pandas에서 inplace = True로 설정한 것 과 같음

L = [1, 4, 3, 5, 2, 5]
L.sort(reverse = True) # 출력이 None이고 L자체가 수정됨
L

sorted

sorted()
# reverse : 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수
# key : 정렬 기준 함수 (주로 lambda 함수 사용)

정렬된 리스트 및 튜플을 반환

L = ['We', 'Use', 'Python', 'For', 'Data Preprocessing']
sorted(L, key = lambda x:len(x), reverse = True) # 길이를 기준으로 내림차순 정렬

Series 정렬

sort_values()
# ascending : 오름차순으로 정렬할 것인지 여부
# key : 정렬 기준 함수 (주로 lambda 함수 사용)
# na_position : 결측이 있는 경우 어디에 배치할 것인지 결정 {first, last}

S.sort_values(ascending = False, na_position = 'first') #내림차순, 결측배치를 위에

Series 요약 함수

value_counts()
# acsending : 오름차순으로 정렬할 것인지 여부
# normalize : 빈도 대신 비율을 출력할 것인지 여부

Series의 구성 요소의 빈도를 순서대로 출력

unique() 
# 출력 결과의 데이터 타입 : ndarray

Series에 포함된 유니크한 값을 출력
범주형 변수와 연속형 변수를 판단하는데 사용 가능
결측값 표시됨

DataFrame 정렬

sort_values()
# by : 정렬 기준 컬럼 (목록)
# ascending : 오름차순으로 정렬할 것인지 여부
# key : 정렬 기준 함수 (주로 lambda 함수 사용)
# na_position : 결측이 있는 경우 어디에 배치할 것인지 결정 {first, last}

DataFrame 중복 제거

drop_duplicates()
# subset : 중복 기준을 판단하는 컬럼 (목록)
# keep : 중복이 있는 행의 어느 부분을 남길 것인지 결정 {'first', 'last', 'false'}

중복이 있는 행을 제거

df.drop_duplicates(subset = ['A'], keep = 'last') # A 기준 중복 제거 (마지막 행 남김: 인덱스 주목)

'Python' 카테고리의 다른 글

Function (0)	2022.03.18
인덱싱 (0)	2022.03.18
pivot_table, groupby (0)	2022.03.18
기초 통계 함수 (0)	2022.03.18
데이터 결합 - merge, concat (0)	2022.03.17

For Data Analysis

For Data Analysis

태그

최근글

댓글

공지사항

아카이브

리스트 및 튜플 정렬

sort

sorted

Series 정렬

Series 요약 함수

DataFrame 정렬

DataFrame 중복 제거

'Python' 카테고리의 다른 글

관련글

티스토리툴바