전체 글(55)
-
인덱싱
indexing loc 인덱서 : 명시적인 인덱스 참조 (loc를 이용한 슬라이싱에서는 맨 뒤 값 포함O ) iloc 인덱서 : 암묵적인 인덱스 참조 (iloc를 이용한 슬라이싱에서는 맨 뒤 값 포함X ) 비교연산 Series와 DataFrame 데이터 타입은 모두 ndarray이므로 비교연산 및 브로드캐스팅 적용 가능 부울 리스트 연산 ndarray 타입의 부울 리스트에 대해 AND연산(&)과 OR연산(|)이 가능 마스킹 검색 df.loc[부울 리스트] True인 요소의 위치에 대응되는 행만 가져옴 Series.str 문자열로 구성된 Series에 대해서는 str accessor를 사용할 수 있으며, 이를 사용하면 string 관련 내장함수 사용 가능 Series.str.strip() : 앞 뒤 공백제..
2022.03.18 -
데이터 정렬
리스트 및 튜플 정렬 sort sort() # reverse : 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수 리스트 및 튜플 자체를 정렬 ( return 값이 없음) Pandas에서 inplace = True로 설정한 것 과 같음 L = [1, 4, 3, 5, 2, 5] L.sort(reverse = True) # 출력이 None이고 L자체가 수정됨 L sorted sorted() # reverse : 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수 # key : 정렬 기준 함수 (주로 lambda 함수 사용) 정렬된 리스트 및 튜플을 반환 L = ['We', 'Use', 'Python', 'For', 'Data Preprocessing'] sorted(L, key = lambda x:len(..
2022.03.18 -
pivot_table, groupby
pivot_table pandas.pivot_table() # data : 데이터 프레임 # index : 행에 들어갈 조건 # columns : 열에 들어갈 조건 # values : 집계 대상 컬럼 목록 # aggfunc : 집계 함수 데이터를 조건에 따른 변수들의 통계량을 요약한 테이블 행 단위의 데이터 프레임을 피벗 테이블로 변환하는 함수 groupby 조건부 통계량을 계산하기 위한 방법으로 크게 분할 ,적용, 결합의 세 단계로 구성됨 DataFrame.groupby DataFrame을 분할 기준 컬럼을 기준으로 나누는 함수 df.groupby(분할기준 컬럼)[적용 기준 컬럼].집계합수 # by : 분할 기준 컬럼 (목록) # as.index : 분할 기준 컬럼들을 인덱스로 사용할 것인지 여부 (d..
2022.03.18 -
기초 통계 함수
기초 통계 함수는 DataFrame와 Series에 정의되어 있음 sum() : 합계 mean() : 평균 std() : 표준편차 var() : 분산 quantile() : 사분위수 계산 min() : 최소값 max() : 최대값 Axis 키워드 axis 설정을 통해 행별, 열별 기초 통계를 구할 수 있음 축의 방향을 결정하는 역할 axis=0 : 행 , 1: 열 함수의 결과 구조의 형태에 따라 역할이 다름 describe 함수 describe() 열별로 대표적인 기초 통계를 반환 (count, mean, std, min, 25%, 50%, 75%, max)
2022.03.18 -
데이터 결합 - merge, concat
pandas.merge : key 변수를 기준으로 두 개의 데이터 프레임을 병합(join)하는 함수 left : 통합 대상 데이터 프레임1 right : 통합 대상 데이터 프레임2 on : 통합 기준 key 변수 및 변수 리스트 (미입력시 이름이 같은 변수를 key로 식별) left_on : 데이터 프레임1의 key 변수 및 변수 리스트 righr_on : 데이터 프레임2의 key 변수 및 변수 리스트 left_index : 데이터 프레임1의 인덱스를 key로 사용할 지 여부 right_index : 데이터 프레임2의 인덱스를 key로 사용할 지 여부 left_on, right_on을 사용한 데이터 통합 # 컬럼명을 바꿔도 똑같이 작동함 merged_df = pd.merge(df1, df2, left_o..
2022.03.17 -
Excel을 이용한 데이터 분석 - 통계 분석
상관 분석 정의 : 두 변수 간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법 상관 관계 : 한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양 사이의 통계적 관계 -> 두 변수가 선형 관계에 있는지 비선형 관계에 있는지 파악 상관 계수 : 두 변수 사이의 상관성을 나타내며 일반적으로 피어슨 상관계수를 사용 (일반적으로 ±0.7 이상이면 강한 상관관계) 상관계수가 ±1에 가까울 수록 두 변수 간의 관계가 강하다는 뜻이지만, 두 변수 간의 인과관계(어느 변수가 원인이고 결과인지)는 알 수 없음. 분산 분석 정의 : 두 개 이상 다수의 집단을 비교해 평균의 차이가 있는지를 검정 방법 : 집단의 개수에 따라 집단이 2개일 때 T-test / 집단이 3개 이상일 때 A..
2022.03.17