Visualization - Matplotlib
2022. 3. 23. 17:29ㆍPython
- 파이썬의 대표적인 시각화 패키지
- 패키지의 이름에서 느껴지듯 MATLAB의 수리데이터 시각화를 파이썬으로 옮겨온 컨셉
- 기본적인 형태의 다양한 시각화 함수를 제공
!pip install matplotlib
import matplotlib.pyplot as plt
%matplotlib inline
윈도우 한글 폰트 사용
# family 파라메터에 사용가능한 폰트이름 전달(가장 간단한 방법)
plt.rc('font', family='NanumGothic')
# 사용가능한 폰트 목록 확인
import matplotlib.font_manager as fm
fm.get_fontconfig_fonts()
Line plot
- 시간 혹은 순서에 따라 데이터가 어떻게 변화하는지를 보기위해 주로 사용
plot( x축데이터, y축데이터, '스타일 옵션' , label= )
- 색, 마커, 선 스타일 종류 순으로 지정 만약 이중 일부가 생략되면 디폴트 값이 적용
- 그래프 옵션
figsize=(가로 세로 사이즈 튜플 전달) : 그래프가 그려지는 캔버스 설정
title : 그래프 제목
xlabel, ylabel : 축 설명
legend : 범례이름
# plt.legend(loc='best') 범례 위치도 지정 가능
xlim, ylim : 축 범위
xticks, yticks : 축 구간 내 필요한 구간만 추리기
tight_layout() # 여백줄이기
show() # 그래프 그리기
# 2 x 2 figure 매트릭스에 그래프 그리기
plt.subplot(2,2,1) # 1
plot()
plt.subplot(2,2,2) # 2
plot()
plt.subplot(2,2,3) # 3
plot()
plt.subplot(2,2,4) # 4
plot()
bar plot
- 범주형 데이터 데이터의 갯수, 빈도를 나타내는데 사용
bar(x축, y축)
plt.bar(df['sub_grade'].value_counts().sort_index().index, df['sub_grade'].value_counts().sort_index().values)
히스토그램
- 데이터의 분포를 확인하고자 할 때 많이 사용하는 시각화 방법
- 전체 데이터 구간 중 특정 구간에 속한 데이터의 빈도수를 계산하여 구간에 매칭
- 데이터 구간별 밀도를 확인 가능
hist()
plt.hist(df['loan_amnt'], bins=30)
# bins = 구간의 갯수
scatter plot
- 2개 혹은 2개 이상의 변수간의 관계를 확인하고자 할 때 많이 사용하는 시각화 방법
- X축과 Y축에 각각의 변수 데이터를 위치시키고 포인트들이 자리한 평면상의 분포를 통해 상관관계 파악 가능
scatter(x축, y축)
plt.scatter(df['loan_amnt'], df['annual_inc'])