Python(22)
-
크롤링
url = ' url 주소 ' driver.get(url) from selenium.webdriver.common.by import By driver.find_element(By.CLASS_NAME, "content") CLASS_NAME CSS_SELECTOR ID LINK_TEXT NAME PARTIAL_LINK_TEXT TAG_NAME XPATH
2022.07.08 -
[빅분기] 작업형 1
중앙값 대체 # 80%미만 결측치 컬럼, city별 중앙값으로 대체 s=df[df['city']=='서울']['f1'].median() k=df[df['city']=='경기']['f1'].median() b=df[df['city']=='부산']['f1'].median() d=df[df['city']=='대구']['f1'].median() # f1결측치 city별 중앙값으로 대체 df['f1'] = df['f1'].fillna(df['city'].map({'서울':s,'경기':k,'부산':b,'대구':d})) 왜도와 첨도 DataFrame.skew() 왜도 DataFrame.kurt() 첨도 # 'SalePrice'컬럼 로그변환 import numpy as np df['SalePrice'] = np.log..
2022.06.23 -
[빅분기] 머신러닝
1. 데이터 검토 pandas 라이브러리 임포트 import pandas as pd 파일 불러오기 data = pd.read_csv('breast-cancer-wisconsin.csv') 데이터 확인 : y값의 범주형 여부 확인 ,이상치 여부 확인 data.info() data.head() print(data.shape) data.describe data.hist(bins=50, figsize=(20,15)) 2. x, y 나누기 X = data[data.columns[0:5]] y = data[['house_value']] print(X.shape) print(y.shape) 3. train-test 데이터 셋 나누기 라이브러리 임포트 from sklearn.model_selection import t..
2022.06.13 -
[빅분기] 결측값을 집단 평균값으로 대체
#집단별 평균확인 data.groupby('industry').mean() #lambda함수 구성 #평균으로 대체하는 함수 생성 fill_mean_func = lambda g : g.fillna(g.mean()) #lambda함수를 apply를 이용해 적용 data_group_mean = data.groupby('industry').apply(fill_mean_func) data_group_mean
2022.06.08 -
[Numpy] where 함수
data2 = data.copy() data2['sales_new'] = np.where(pd.notnull(data2['sales'])==True, data2['sales'], data2['salary'] ) data2 np.where(조건) : 기본적으로 조건에 맞는 인덱스를 리턴 해주는 함수, 슬라이싱에 이용 가능 np.where(조건, a, b) : 조건이 True이면 a의 식을 반영, False이면 b식을 반영
2022.06.08 -
빅분기 실기 Chapter2
replace 함수 data['industry'] = data['industry'].replace([1,2,3,4],['Service','IT','Finance','Others']) plot data['industry'].value_counts().plot(kind='pie') # kind= 'pie','bar','line' count NA 값을 제외한값의 수를 반환 describe 시리즈 혹은 데이터프레임의 각 열에 대한 기술 통계 min, max 최소, 최대값 argmin, argmax 최소, 최대값을 갖고 이쓴 색인 위치 반환 idxmin, idxmax 최소, 최대값을 갖고 있는 색인의 값 반환 quantile 0부터 1까지의 분위수 계산 sum 합 mean 평균 median 중위값 mad 평균값에..
2022.06.07