사분위수를 구해봤으니 이번엔 분위수를 구해보겠습니다.
n-분위수는 자료들을 n등분을 한 것을 말합니다. 말 그대로 4-분위수는 4등분한 값을 말합니다.
그러므로 작은 범위인 사분위수를 먼저 이해한다면 분위수를 더 쉽게 이해할 수 있습니다.
사분위수 : 2020/03/06 - [R] - R / Rstudio 사분위수 / 분위수를 구해보자(사분위수 편)
R / Rstudio 사분위수 / 분위수를 구해보자(사분위수 편)
이번에는 구해볼것은 사분위수입니다~~ 사분위수를 처음 봤을때는 헷갈리는게 너무 많지만 의미를 잘 이해하고 제가 정한 메뉴얼대로 구하는 연습을 하다보니까 어느샌가 조금 친근하게 느껴지더라구요 ㅋ.ㅋ 데이..
dooooh.tistory.com
-------------------------------------------------------------------
n-분위수란 오름차순 정렬되어 있는 자료를 n 등분한 자료를 말합니다.
2분위수는 주어진 자료를 2 등분합니다. 또한 2분위수는 중앙값(median)이라고도 부릅니다.
4분위수는 주어진 자료를 4개의 그룹으로 분리시킵니다. 또한 사분위수(quartiles)라고도 부릅니다.
10분위수도 마찬가지로 자료를 10등분 하며 deciles라고 부릅니다.
또한 백분위수(percentiles)라는 것이 존재하는데 이는 자료를 100등분 하는 것을 말합니다.
-------------------------------------------------------------------
이제 분위수의 개념을 알았으니 R을 이용하여 구해보도록 하겠습니다.
R에서 분위수를 구하는 함수는 quantile(x, y) 함수입니다.
x는 자료, y는 0~1 사이의 값 이 들어갑니다.
quantile(data, 0.5)는 중앙값을 구해주고
quantile(data, 0.25)는 제1 사분위수를 구해줍니다.
마찬가지로 quantile(data, 0.99)는 100등분을 하는 99번째 값을 구해줍니다.
-------------------------------------------------------------------
시작으로 R을 이용하여 10분위수(deciles)를 구하는 방법을 알아보겠습니다.
10분위수도 마찬가지로 quantile 함수만 알고 있다면 누구나 쉽게 구할 수 있습니다.
위의 자료의 20%의 자료가 존재하는 부분이 6 이고 30%의 자료가 존재하는 곳이 10.7 임을 알 수 있습니다.
하지만 quantile 함수는 분위수의 개념과 약간 다르다고 느낄수도 있습니다. 분위수는 자료를 n등분 하는거지만 quantile 함수는 자료를 2:8 3:7로 나눈 값을 보여준 것입니다.
10분위수를 한번에 다 구하는 방법도 있습니다.
quantile(x, y)에서 y 값에 c(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9) 값을 넣어주는 것입니다.
4분위수라 하면 y값에 c(0.25, 0.5, 0.75) 값을 넣어주면 사분위수들이 다 나오게 됩니다.
위와같이 함수에 이러한 값을 넣어줌으로써 모든 10분위수들을 다 구할 수 있습니다.
-------------------------------------------------------------------
위 자료를 다시한번 예를들어 27백분위수를 구해보겠습니다.
여기서 27백분위수는 10.13 이 나왔습니다.
그렇다면 10 은 27백분위수보다 높을까요 낮을까요?
정답은 "낮다"입니다.
이해를 돕기위해 26백분위수도 구해보겠습니다.
26백분위수는 9.76 이 나왔습니다. 이 말은 10이라는 값은 26백분위수와 27백분위수 사이에 존재한다는 것입니다.
또한 분위수는 우선적으로 오름차순 정렬을 해준 뒤 등분하는 것이기 때문에 10 은 10.13 보다 아래에 있다고 볼 수 있습니다.
-------------------------------------------------------------------
기본적인 분위수에 대해 알아봤습니다. 마지막으로 요약정리를 해보겠습니다.
1) 분위수는 등분을 하는 것이기 때문에 Q1, Q2, Q3 세 개로 쪼개면 4-분위수 인것처럼
n개를 기준으로 쪼개게 되면 n+1분위수가 되는 것입니다.
2) 2분위수는 median
4분위수는 quartiles
10분위수는 deciles
100분위수는 percentiles라고 부릅니다.
3) 사분위수는 자료를 4개의 그룹으로 백분위수는 자료를 100개의 그룹으로 나누는 것입니다.
-------------------------------------------------------------------
'R' 카테고리의 다른 글
R / Conda / Anaconda / Jupyter notebook / Rstudio를 이용하지 않고 R을 쉽게 사용하는 방법! (0) | 2020.03.28 |
---|---|
R / Rstudio 사분범위(IQR)를 구해보자 (0) | 2020.03.14 |
R / Rstudio 사분위수 / 분위수를 구해보자(사분위수 편) (2) | 2020.03.06 |
R / Rstudio Standard deviation 표준편차 구해보자 (0) | 2020.03.03 |
R / Rstudio Variance 분산을 구해보자 (0) | 2020.03.03 |