빅분기(4)
-
[빅분기] 작업형2 - RandomForest
데이터 할당 : train, test, y Null 여부 확인 -> train 데이터 num , cat 분류 cat 데이터 원핫인코딩 실시 -> X_cat = pd.get_dummies(X_cat) test 데이터 num , cat 분류 cat 데이터 원핫인코딩 실시 X_cat을 기준으로 정렬 : align X_cat, test_cat = X_cat.align(test_cat, join='inner',axis=1) MinMaxScaler 랜덤포레스트 모델 적용 ( 분류 OR 회귀) from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit(X_final, y) pred_test = model.pre..
2022.06.22 -
[빅분기] 더미 변수 생성
X1 = data[['gender','region']] X1['gender'] = X1['gender'].replace([1,2],['male','female']) X1['region'] = X1['region'].replace([1,2,3,4,5],['Sudo','Chungcheung','Honam','Youngnam','Others']) X1_dum = pd.get_dummies(X1) Fvote = pd.concat([X1_dum, XY], axis=1 )
2022.06.15 -
[빅분기] 머신러닝
1. 데이터 검토 pandas 라이브러리 임포트 import pandas as pd 파일 불러오기 data = pd.read_csv('breast-cancer-wisconsin.csv') 데이터 확인 : y값의 범주형 여부 확인 ,이상치 여부 확인 data.info() data.head() print(data.shape) data.describe data.hist(bins=50, figsize=(20,15)) 2. x, y 나누기 X = data[data.columns[0:5]] y = data[['house_value']] print(X.shape) print(y.shape) 3. train-test 데이터 셋 나누기 라이브러리 임포트 from sklearn.model_selection import t..
2022.06.13 -
빅분기 실기 Chapter1
- 파이썬의 자료형 : 숫자형, 문자형, 리스트, 튜플, 집합, 사전, 논리(불리언) - if문 형식 if (조건문) : 명령어1 elif (조건문) : 명령어2 else : 명령어3 - 반복문 1. for 문 2. whilea 문 : 특정 조건까지 계속 반복 for 변수 in 리스트/튜플/문자열 : 수행할 문장1 수행할 문장2 while : 수행할 문장1 수행할 문장2 - numpy import numpy as np 사용법 (함수) 설명 np.abs(arr) 절대값 리턴 np.sqrt(arr) 제곱근(루트) 계산 np.square(arr) 제곱 계산 np.exp(arr) 지수 계산 np.Log(arr) 로그 계산 np.add(arr1,arr2) arr1 + arr2 : 두 배열을 더함 np.subtra..
2022.06.07