이번에는 구해볼것은 사분위수입니다~~ 사분위수를 처음 봤을때는 헷갈리는게 너무 많지만 의미를 잘 이해하고 제가 정한 메뉴얼대로 구하는 연습을 하다보니까 어느샌가 조금 친근하게 느껴지더라구요
ㅋ.ㅋ
데이터의 개수가 적은 경우에는 적은 계산으로 구할 수 있지만 개수가 많아지면 손계산으로는 좀... 그렇기 때문에 R을 이용해서 구해보겠습니다!
사분위수란 데이터를 4등분 해주는 수들을 말합니다.
Q1, Q2, Q3, Q4로 나타내고 Q2는 좌우로 데이터가 50%씩 존재하는 중위수와 같은 의미를 가집니다.
제1 사분위수(Q1) |
제2 사분위수(Q2) |
제3 사분위수(Q3) |
제4 사분위수(Q4) |
Q1아래 25% 데이터가 존재 |
Q2아래 50% 데이터가 존재 |
Q3아래 75% 데이터가 존재 |
Q4아래 100% 데이터가 존재 |
----------------------------------------------------------------------------------------------------------------
그러면 이제 사분위수의 의미를 알았으니 한번 구해보겠습니다.
사분위수를 구하는 방법입니다.
step1) 데이터들을 오름차순 정렬시킨다.
step2) 중앙값을 찾는다.
step3) 중앙값을 기준으로 좌, 우의 데이터의 중앙값들을 찾는다.
이제 예를 들어보겠습니다.
60, 15, 10, 3, -4, 3, -30
이런 홀수개 데이터가 있을때 사분위수를 구해봅시다.
1) 오름차순 정렬
-30, -4, 3, 3, 10, 15, 60
2) 제2 사분위수 = 중앙값
3을 기준으로 좌우로 데이터가 3개씩 존재하므로 중앙값은 3이 됩니다.
∴ Q2 = 3
3) 좌,우 데이터의 중앙값
|| -30, -4, 3 || 10, 15, 60 ||
좌측 데이터의 중앙값은 -4 우측 데이터의 중앙값은 15 가 됩니다.
∴ Q1 = -4, Q3 = 15
----------------------------------------------------------------------------------------------------------------
만약 데이터의 개수가 짝수인 경우에는 어떤 값을 제2 사분위수로 봐야할까요?
-30, -4, 3, 10, 15, 60
이러한 경우에는 중앙값을 구했던 것과 같이 가운데 두 수의 평균을 제2 사분위수로 합니다.
Q2 = (3 + 10) / 2 = 6.5
중위수를 공부했기 때문에 Q2를 구하는 과정을 바로 이해가 됩니다. 그렇다면 Q1과 Q3는 어떻게 구할까요?
조금 헷갈릴 수 있지만 의미를 잘 이해하고 위의 step을 잘 따라가다보면 쉽게 구할 수 있습니다.
Q1은 중앙값을 기준으로 좌측데이터의 중앙값입니다.
Q2가 6.5 이므로 6.5 왼쪽의 데이터들을 보면
-30, -4, 3
입니다. 여기서의 중앙값이므로 Q1 = -4 임을 알 수 있습니다.
#당연히 또 왼쪽 데이터가 짝수인 경우 가운데값들의 평균을 내주면 되겠쥬? :)
마찬가지 방법으로 Q3 = 15 임을 알 수 있습니다.
=====
데이터가 홀수개인 경우 Q1과 Q3을 구할때 Q2를 포함해서 구하는 방법도 있으나 딱히 정해진게 아니라서 위에서 말한 step을 거쳐서 구하시면 됩니당.
=====
----------------------------------------------------------------------------------------------------------------
이제 사분위수의 의미와 구하는 방법을 알았으니 R을 이용하여 구해보겠습니다.
R에는 다행히(?) 사분위수를 한번에 구해주는 quantile() 함수가 존재합니다.
Q1 <- quantile(data, 0.25)
이런식으로 사용합니다.
R에서는 Q1, Q3을 구할때 Q2를 포함한 값의 중앙값으로 계산을 하였네요..
손계산하고 출력값이 다르다고해서 너무 당황하지 않으셔도 됩니당 ㅋ.ㅋ
구하는 방법이 다른거지 틀린게 아니니까요 (●'◡'●)a
이번에 사분위수를 제대로 이해했다면 다음글에 쓸 분위수도 똑같은 개념이기 때문에 쉽게 이해할 수 있을거에요~
나중에 더 뒤쪽 공부를 하다가 까먹으면 다시 앞쪽으로 와서 보고 가면 되겠지만 이해하지 못하고 넘어간다면 다시 공부해야하는 불상사가 생길수도 있으니까... 한번할때 외우지말고 이해하는게 좋은것같아요!!
'R' 카테고리의 다른 글
R / Rstudio 사분범위(IQR)를 구해보자 (0) | 2020.03.14 |
---|---|
R / Rstudio 사분위수 / 분위수를 구해보자(분위수 편) (0) | 2020.03.12 |
R / Rstudio Standard deviation 표준편차 구해보자 (0) | 2020.03.03 |
R / Rstudio Variance 분산을 구해보자 (0) | 2020.03.03 |
R / Rsudio 평균값 중앙값 최빈값을 구해보자(최빈값편) (1) | 2020.02.28 |