데이터 정렬

2022. 3. 18. 00:56Python

리스트 및 튜플 정렬

sort

sort()
# reverse : 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수
  • 리스트 및 튜플 자체를 정렬 ( return 값이 없음)
  • Pandas에서 inplace = True로 설정한 것 과 같음
L = [1, 4, 3, 5, 2, 5]
L.sort(reverse = True) # 출력이 None이고 L자체가 수정됨
L

sorted

sorted()
# reverse : 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수
# key : 정렬 기준 함수 (주로 lambda 함수 사용)
  • 정렬된 리스트 및 튜플을 반환
L = ['We', 'Use', 'Python', 'For', 'Data Preprocessing']
sorted(L, key = lambda x:len(x), reverse = True) # 길이를 기준으로 내림차순 정렬

 

Series 정렬

sort_values()
# ascending : 오름차순으로 정렬할 것인지 여부
# key : 정렬 기준 함수 (주로 lambda 함수 사용)
# na_position : 결측이 있는 경우 어디에 배치할 것인지 결정 {first, last}
S.sort_values(ascending = False, na_position = 'first') #내림차순, 결측배치를 위에

Series 요약 함수

value_counts()
# acsending : 오름차순으로 정렬할 것인지 여부
# normalize : 빈도 대신 비율을 출력할 것인지 여부
  •  Series의 구성 요소의 빈도를 순서대로 출력
unique() 
# 출력 결과의 데이터 타입 : ndarray
  • Series에 포함된 유니크한 값을 출력
  • 범주형 변수와 연속형 변수를 판단하는데 사용 가능
  • 결측값 표시됨

 

DataFrame 정렬

sort_values()
# by : 정렬 기준 컬럼 (목록)
# ascending : 오름차순으로 정렬할 것인지 여부
# key : 정렬 기준 함수 (주로 lambda 함수 사용)
# na_position : 결측이 있는 경우 어디에 배치할 것인지 결정 {first, last}

 

DataFrame 중복 제거

drop_duplicates()
# subset : 중복 기준을 판단하는 컬럼 (목록)
# keep : 중복이 있는 행의 어느 부분을 남길 것인지 결정 {'first', 'last', 'false'}
  • 중복이 있는 행을 제거
df.drop_duplicates(subset = ['A'], keep = 'last') # A 기준 중복 제거 (마지막 행 남김: 인덱스 주목)

'Python' 카테고리의 다른 글

Function  (0) 2022.03.18
인덱싱  (0) 2022.03.18
pivot_table, groupby  (0) 2022.03.18
기초 통계 함수  (0) 2022.03.18
데이터 결합 - merge, concat  (0) 2022.03.17