공부에는 끝이 없지

[데이터분석/통계기초] 데이터 체계화 및 시각화 - 도수분포, 상대도수, 누적도수

H Julia 2023. 3. 12. 21:41
반응형
반응형

 바야흐로(?) 빅데이터의 시대, 오늘부터는 데이터를 분석하고 유의미한 인사이트를 얻어내기 위해 반드시 필요한 action, 통계분석 방법론을 차근차근 다뤄볼 예정이다. 
 그동안 필요한 범위 내에서 엑셀기반의 데이터 분석들을 드물게 해 왔지만, 도출한 데이터/결과값을 효과적으로 시각화하기 위해서 어떻게 접근해야 할지 막막했던 그 모든 순간들을 기억하며, 학창 시절 기피했던 '통계'와 조금씩 친해져보려고 한다. 이 글을 읽는 분들이 거의 처음 통계를 접하거나 아주 오랜만에 통계를 찾아보는 분들이라면, 저와 같이 차근차근 공부하는 마음으로 통계시리즈를 읽어 주시길 바라며 😊

 

1. 도수분포 (Frequency distributions) 

데이터의 분포를 확인하자, 도수분포표와 히스토그램

 도수 분포표(Frequency Table)란 데이터의 분포를 몇 개의 구간으로 분류하고, 각 구간에 속하는 데이터가 몇 개인지 분포를 정리한 표를 말한다. 구간을 나누어 분포를 확인하면 데이터의 전체적인 모양을 간편히 확인해 인사이트를 얻을 수 있기 때문에 유용하게 쓰인다.
 
  예) 학생들의 중간고사 성적을 1~10점부터 90~100점까지 구간별로 나누고, 각 구간별 인원수를 세보면 중간고사 난이도를 쉽게 파악할 수 있을 것이다.  (하위 성적에 많은 수의 학생이 있다면 시험 난이도가 높았거나 학생들의 학습수준이 낮을 것으로, 상위 성적에 많은 수의 학생이 있다면 시험이 평이했거나 학생들의 학습수준이 높다고 유추할 수 있다.)
 
도수분포표 작성을 위해 구간을 나눌 때는 다음 방법으로 접근한다.

① 전체 데이터 중 최댓값과, 최소값을 찾는다.
② 몇개 구간으로 나눌지 결정한다.
③ 구간폭을 정한다 (최댓값-최소값/정한 구간수 * 정수/짝수/5의 배수를 사용하는 것이 편리!) 

→ 구간수를 편리하게 산정하기 위한 Sturge's formula : c(구간 개수) = 1+3.3 log n(전체 데이터 개수)
 
히스토그램은 도수분포표의 내용이 한눈에 들어오도록 시각화한 차트로, x축은 구간을 y축은 빈도를 나타낸다. 

 

[도수분포표 예]

성적 구간
(계급)
학생 수
(도수)
10~20점1
20~30점1
30~40점2
40~50점4
50~60점7
60~70점8
70~80점9
80~90점9
90~100점4
합계45

[히스토그램 예]

히스토그램 예시
도수분포 시각화

 
 
 

2. 상대도수와 상대도수의 분포 (Relative frequency and percentage distributions)

각 분포의 구간별 비율을 나타내는 상대도수와 상대도수 분포표/도수분포다각형

 상대 도수란 전체 도수에 대한 각 계급(구간) 내 도수의 비율을 말한다. 각 구간별 비교를 쉽게 하기 위해 상소수(백분율)로 나타내며, 모든 구간 상대도수의 합은 항상 1이다. 상대도수를 그래프로 나타날 때는 가로축에는 계급(구간), 세로축에는 상대도수를 넣어 히스토그램이나 도수분포 다각형으로 나타낸다.  

어떤 계급(구간)의 상대도수 = 그 계급의 도수 / 전체도수

 

[상대도수 분포표 예]

성적 구간
(계급)
상대도수
10~20점0.02  (2%)
20~30점0.02  (2%)
30~40점0.04  (4%)
40~50점0.09  (9%)
50~60점  0.16  (16%)
60~70점  0.18  (18%)
70~80점  0.20  (20%)
80~90점   0.20  (20%)
90~100점0.09  (9%)
합계1.00
  (100%)

[상대도수를 나타낸 도수분포다각형 예]

상대도수분포다각형
상대도수분포 시각화

 

히스토그램으로 보는 데이터 분포의 종류 

 

히스토그램을 살펴보면 수집한 데이터가 어떤 성격을 띄는지, 데이터의 의미를 금방(?) 알 수 있다. 
- symmetric: 정규분포 (중앙에 데이터 분포가 모여 평균값을 띄는 형태)
- bimodal: 성격이 다른 두 집단이 모여 만든 분포 (정규분포 x 2) 
- left-skewed / right-skewed: 평균값이 한쪽으로 치우친 데이터 (공부 잘하는 학생들이 많으면 시험 성적은 left skewed 확률이 높겠죠?)
- uniform: 가장 고루 고루 분포한 데이터  

히스토그램의 종류

3. 누적 상대도수의 분포

분포의 형태를 볼 수 있는 누적 상대도수는 누적 도수의 합을 데이터의 총수로 나눈 것을 말한다. 데이터 수가 많은 집단의 분포 형태를 검토할 때 사용한다.
*아래 구간에 누적 상대도수가 높으면 분포가 아래쪽에 몰린 것, 위 구간이 높으면 분포가 위에 몰린 것
*누적상대도수가 0.5일 때를 중앙값, 0.25를 제1사분위, 0.75를 제3사분위라 한다. (이 부분은 나중에 box plot을 보며 다시 다룰 예정!)

 

누적상대도수 = 누적 도수의 합 / 전체도수

 

[누적상대도수 분포표 예]

성적 구간
(계급)
누적상대도수
10~20점0.02
20~30점0.04
30~40점0.09
40~50점0.18
50~60점0.33
60~70점0.51
70~80점0.71
80~90점0.91
90~100점1.00
합계1.00


[누적상대도수 분포 그래프 예]

누적상대도수

 

반응형