전체 글(55)
-
Crawling
크롤링 진행 순서 1. url정의 2. requsts로 url에 정보요청 3. 정보를 html 변환 (보기 쉽게) 4. html 내에서 뉴스헤더 선별 BeautifulSoup 사용 requests는 요청을 받기는 하지만 text로만 받음 API는 통신을 위해 정형화 된 데이터 형태의 text 우리가 원하는 데이터로 가공하기 위해 편의상 html로 변환 text를 html로 변환하는 모듈이 beautifulSoup import requests # 크롤링에 사용하는 패키지 # 컴퓨터간 통신을 위한 여러가지 기능들을 파이썬으로 제어할 수 있도록 하는 패키지 from bs4 import BeautifulSoup # html 변환에 사용함 url = ' 크롤링 하고 싶은 페이지 url ' rep = request..
2022.03.24 -
Pandas 함수
df.value_counts() df.value_counts() # 값의 갯수를 카운트 df['AM or PM'].value_counts() df.shape df.shape len() len(df[df['Language']=='en']) groupby() df.groupby('Language')['Purchase Price'].sum().sort_values(ascending=False) pivot_table() pd.pivot_table(df, index='CC Provider' , columns='AM or PM' , values='Purchase Price' , aggfunc=np.mean , ) contains() df[df['Address'].str.contains('Apt')].groupby(..
2022.03.23 -
Visualization - Matplotlib
파이썬의 대표적인 시각화 패키지 패키지의 이름에서 느껴지듯 MATLAB의 수리데이터 시각화를 파이썬으로 옮겨온 컨셉 기본적인 형태의 다양한 시각화 함수를 제공 !pip install matplotlib import matplotlib.pyplot as plt %matplotlib inline 윈도우 한글 폰트 사용 # family 파라메터에 사용가능한 폰트이름 전달(가장 간단한 방법) plt.rc('font', family='NanumGothic') # 사용가능한 폰트 목록 확인 import matplotlib.font_manager as fm fm.get_fontconfig_fonts() Line plot 시간 혹은 순서에 따라 데이터가 어떻게 변화하는지를 보기위해 주로 사용 plot( x축데이터, y..
2022.03.23 -
Class
클래스란? 같은 목적 혹은 대상을 위해 만들어진 함수들의 묶음 class [클래스명] : #클래스의 선언 def __init__ (self, [파라메터]): self.[변수명] = [파라메터] self.x = x def [함수명] ([self, 파라메터]): [실행코드] 클래스의 선언은 함수와 달리 소괄호 없이 선언한다 클래스명은 단어의 첫 알파벳을 대문자로 ex) MyClass, SumTotal 클래스 선언이후 처음 작성되는 __init__ 함수는 클래스가 정의되면서 입력되는 파라메터를 저장하고 재사용하기 위한 초기화 함수 클래스 내 함수의 파라메터 앞에는 항상 self를 추가해주어야 하며 __init__ 함수에서 설정한 변수 사용시에도 self를 추가해준다 self. 변수는 클래스 내부에서 사용되며 ..
2022.03.21 -
SQL - 심화 2
-- 4 2020년 7월에 구매 유저의 월 평균 구매액은 어떻게 되나요? > 고객당 월 평균 구매액 -- AAPPU = Average Revenue Per Paying User SELECT avg(revenue) FROM ( SELECT customer_id ,sum(price) AS revenue FROM tbl_purchase WHERE visited_at >= '2020-07-01' AND visited_at < '2020-08-01' group by 1 ) sub; -- 5. 7월에 가장 많이 구매한 TOP3 고객과 TOP10~15 고객을 뽑아주세요. -- top 3 SELECT customer_id ,sum(price) AS revenue FROM tbl_purchase WHERE visited..
2022.03.20 -
SQL - 심화1
테이블 EDA SELECT * FROM tbl_purchase ; SELECT * FROM fastcampus.tbl_visit; Q1 : 2020년의 7월의 Revenue를 구해주세요. SELECT SUM(price) AS revenue FROM tbl_purchase WHERE purchased_at >= '2020-07-01' AND purchased_at = '2020-07-01' AND visited_at < '2020-08-01'; Q3 : 2020년의 7월 Active 유저의 구매율(P..
2022.03.20