[빅분기] 작업형2 - RandomForest

2022. 6. 22. 19:16카테고리 없음

데이터 할당 : train, test, y

Null 여부 확인 -> 

 

train 데이터 num , cat 분류

cat 데이터 원핫인코딩 실시 -> X_cat = pd.get_dummies(X_cat)

 

test 데이터 num , cat 분류

cat 데이터 원핫인코딩 실시

 

X_cat을 기준으로 정렬 : align

X_cat, test_cat = X_cat.align(test_cat, join='inner',axis=1)

 

MinMaxScaler 

 

랜덤포레스트 모델 적용 ( 분류 OR 회귀) 

from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor()
model.fit(X_final, y)

pred_test = model.predict(test_final)
pred_test_prob = pd.DataFrame(pred_test,columns=['predict_prob'])
final_predict = pd.concat([test['ID'], pred_test_prob],axis=1) 

final_predict.to_csv('2-3.csv',index=False)