Python(22)
-
Pandas
Pandas란? pandas는 "python data analysis"의 약자 테이블형태로 데이터를 다룰 수 있게 해주는 패키지 (python용 엑셀) !pip install pandas # pandas install import pandas as pd ## option setting # 불러들이는 데이터에 맞춰 모든 컬럼을 확인 가능하도록 옵션값 설정 pd.options.display.max_columns = 200 pd.options.display.max_info_columns =200 DataFrame 테이블형태의 데이터 구조 다양한 형태의 데이터를 받아 사용할 수 있으며 다양한 통계, 시각화 함수를 제공 !pip install xlrd !pip install openpyxl !pip install..
2022.03.18 -
Numpy
What is Numpy? numpy는 "numerical python"의 약자 Numerical Computing : 컴퓨터가 실수값을 효과적으로 계산할 수 있도록 하는 연구 분야 Vector Arithmetic : 벡터 연산 > 데이터가 벡터로 표현되기 때문 numpy는 다양한 머신러닝 라이브러리들에 의존성을 가지고 있고, 일반 파이썬 리스트에 비해 강력한 성능을 자랑gka 성능 : numpy array >> python list (or tuple) python list와 비슷한 개념을 numpy에서는 numpy array라고 부름 : 파이썬 리스트처럼 여러 데이터를 한번에 다룰 수 있으나, 모든 데이터가 동일한 data type을 가져야함 Numpy Basics 주피터 노트북에서 Numpy 설치 !..
2022.03.18 -
Function
Function이란? 하나의 기능을 나타냄 특정 기능을 구현한 코드 묶음 함수를 사용하는 가장 중요한 이유는 재사용상 때문 def 함수이름(param1, param2, ... ): return 전역변수, 글로벌변수 함수 밖에서 정의가 되었어도 함수 내부에서 자유롭게 호출해서 사용이 가능 age = 28 age # 함수정의 def person_nm(name,mail) : print(f'제 이름은 {name},{age},{mail}입니다.') # 함수실행 코드 def person_nm('Eddy','mail23@gmail.com') 지역변수, 로컬변수 함수 내부에서 정의 된 age 변수는 함수 내부에서만 정의되는 변수로서 함수 밖에서는 호출할 수 없음 그렇기에 다른 함수에서 같은 이름의 변수를 사용해도 관계..
2022.03.18 -
인덱싱
indexing loc 인덱서 : 명시적인 인덱스 참조 (loc를 이용한 슬라이싱에서는 맨 뒤 값 포함O ) iloc 인덱서 : 암묵적인 인덱스 참조 (iloc를 이용한 슬라이싱에서는 맨 뒤 값 포함X ) 비교연산 Series와 DataFrame 데이터 타입은 모두 ndarray이므로 비교연산 및 브로드캐스팅 적용 가능 부울 리스트 연산 ndarray 타입의 부울 리스트에 대해 AND연산(&)과 OR연산(|)이 가능 마스킹 검색 df.loc[부울 리스트] True인 요소의 위치에 대응되는 행만 가져옴 Series.str 문자열로 구성된 Series에 대해서는 str accessor를 사용할 수 있으며, 이를 사용하면 string 관련 내장함수 사용 가능 Series.str.strip() : 앞 뒤 공백제..
2022.03.18 -
데이터 정렬
리스트 및 튜플 정렬 sort sort() # reverse : 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수 리스트 및 튜플 자체를 정렬 ( return 값이 없음) Pandas에서 inplace = True로 설정한 것 과 같음 L = [1, 4, 3, 5, 2, 5] L.sort(reverse = True) # 출력이 None이고 L자체가 수정됨 L sorted sorted() # reverse : 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수 # key : 정렬 기준 함수 (주로 lambda 함수 사용) 정렬된 리스트 및 튜플을 반환 L = ['We', 'Use', 'Python', 'For', 'Data Preprocessing'] sorted(L, key = lambda x:len(..
2022.03.18 -
pivot_table, groupby
pivot_table pandas.pivot_table() # data : 데이터 프레임 # index : 행에 들어갈 조건 # columns : 열에 들어갈 조건 # values : 집계 대상 컬럼 목록 # aggfunc : 집계 함수 데이터를 조건에 따른 변수들의 통계량을 요약한 테이블 행 단위의 데이터 프레임을 피벗 테이블로 변환하는 함수 groupby 조건부 통계량을 계산하기 위한 방법으로 크게 분할 ,적용, 결합의 세 단계로 구성됨 DataFrame.groupby DataFrame을 분할 기준 컬럼을 기준으로 나누는 함수 df.groupby(분할기준 컬럼)[적용 기준 컬럼].집계합수 # by : 분할 기준 컬럼 (목록) # as.index : 분할 기준 컬럼들을 인덱스로 사용할 것인지 여부 (d..
2022.03.18