세 가지 다 한 글에 쓰면 너무 길어질 것 같아서 하나씩 쓰게 됐습니다 ㅋ.ㅋ
이번에는 중앙값 코딩을 해보겠습니다.
|중앙값|
중앙값(median) 또는 중위수는 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다. -wiki백과-
위의 그래프의 빨간선은 저번 글에서 다뤘던 평균값을 나타낸 것입니다.
R을 이용하면 위와 같은 그래프를 손쉽게 그려낼 수 있습니다~~
그렇다면 중앙값은 평균값보다 오른쪽과 왼쪽중 어디에 있을까요??
정답은....
왼쪽입니다~
사실 평균과 중앙값이 처음에는 많이 헷갈릴 수 있지만 중앙값을 구하는 방법을 정확히 이해하고 나면 절대 헷갈리지 않을 거예요.
데이터의 중앙값을 찾는 두 가지 방법입니다. : )
1. 데이터를 오름차순 정렬한다.
2. 중앙에 있는 값을 찾는다.
처음에 주어진 자료를 가지고 중앙값을 찾아보겠습니다.
1, 30, 2, 2, 1, 3, 4, 5, 3, 3, 4
step1) 오름차순 정렬
1, 1, 2, 2, 3, [3], 3, 4, 4, 5, 30
step 2) 중앙에 있는 값
주어진 자료의 개수가 11개로 홀수이기 때문에 정확히 중앙에 값이 한 개 존재합니다.
그러므로 이 자료의 중앙값은 3 이 됩니다.
한편 평균값을 구해보면 5.272 정도가 나옵니다. 그러므로 중앙값 3 은 평균보다 [왼쪽]
에 위치하게 됩니다.
하지만 자료의 개수가 짝수개인 경우에는 어떻게 해야 할까요?
예를 들어 주어진 자료가 처음과 달리 1을 3개 더 추가시켜 14개가 주어졌을 경우에 중앙값을 구해보겠습니다.
1, 30, 2, 2, 1, 3, 4, 5, 3, 3, 4, 1, 1, 1
step1) 오름차순 정렬
1, 1, 1, 1, 1, 2, [2, 3], 3, 3, 4, 4, 5, 30
step 2) 중앙에 있는 값
자료의 개수가 짝수개이기 때문에 중앙값은 2와 3 두 개가 나옵니다. 2는 왼쪽에서 7번째 데이터 3은 오른쪽에서 7번째 데이터입니다.
중앙값이 2와 3 이라고 할 수도 있지만 보통의 경우 두 값의 평균을 중앙값으로 봅니다.
그러므로 위의 자료의 중앙값은 2.5 가 되고 평균값은 4.357 이 됩니다.
이 경우에도 평균값보다 중앙값이 왼쪽에 있죠?
이러한 이유는 유독 큰 숫자인 30이 영향을 끼친 것입니다.
모든 숫자의 크기에 영향을 받는 평균과는 달리 중앙값은 숫자의 순서에만 영향을 받기 때문에 유달리 큰 값과 작은 값의 영향을 받지 않을 수 있습니다.
이제 중앙값이 뭔지 알았으니 코딩해서 중앙값이 2.5가 맞나 찾아보겠습니다.
R에서는 median() 이라는 함수가 중앙값을 찾는 2가지 과정을 대신해줍니다.
위 코드를 보면 오름차순을 하고 median() 함수에 넣어주었지만 data_14를 넣어도 똑같이 계산됩니다.
똑같이 나오는데 왜 했냐구요?
그냥요... 그냥 함수 쓰면 되는데 중앙값은 왜 공부했습니까!
내용을 알아야 활용할 수 있는 거 아니겠습니까? 하하하하 ㅋ.ㅋ
길~게 공부하고 코딩은 몇 줄로 끝나버리니 왜 하나 싶겠지만 이해하고 하는 것과 외워서 하는 건 다르니까요 ㅎ.ㅎ~~
'R' 카테고리의 다른 글
R / Rstudio Variance 분산을 구해보자 (0) | 2020.03.03 |
---|---|
R / Rsudio 평균값 중앙값 최빈값을 구해보자(최빈값편) (1) | 2020.02.28 |
R / Rsudio 평균값 중앙값 최빈값을 구해보자~(평균값편) (0) | 2020.02.26 |
초심자를 위한 자세한 RStudio 실행 및 사용법 (0) | 2019.12.23 |
R / RStudio 다운로드 처음부터 자세하게 (0) | 2019.12.22 |