R / Rsudio 평균값 중앙값 최빈값을 구해보자(중앙값편)

R 2020. 2. 26. 19:32

세 가지 다 한 글에 쓰면 너무 길어질 것 같아서 하나씩 쓰게 됐습니다 ㅋ.ㅋ

이번에는 중앙값 코딩을 해보겠습니다.

|중앙값|

중앙값(median) 또는 중위수는 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다. -wiki백과-

data는 1, 1, 2, 2, 3, 3, 3, 4, 4, 5, 30 입니다람쥐

위의 그래프의 빨간선은 저번 글에서 다뤘던 평균값을 나타낸 것입니다.

R을 이용하면 위와 같은 그래프를 손쉽게 그려낼 수 있습니다~~

그렇다면 중앙값은 평균값보다 오른쪽과 왼쪽중 어디에 있을까요??

정답은....

왼쪽입니다~

사실 평균과 중앙값이 처음에는 많이 헷갈릴 수 있지만 중앙값을 구하는 방법을 정확히 이해하고 나면 절대 헷갈리지 않을 거예요.

데이터의 중앙값을 찾는 두 가지 방법입니다. : )

1. 데이터를 오름차순 정렬한다.

2. 중앙에 있는 값을 찾는다.

처음에 주어진 자료를 가지고 중앙값을 찾아보겠습니다.

1, 30, 2, 2, 1, 3, 4, 5, 3, 3, 4

step1) 오름차순 정렬

1, 1, 2, 2, 3, [3], 3, 4, 4, 5, 30

step 2) 중앙에 있는 값

주어진 자료의 개수가 11개로 홀수이기 때문에 정확히 중앙에 값이 한 개 존재합니다.

그러므로 이 자료의 중앙값은 3 이 됩니다.

한편 평균값을 구해보면 5.272 정도가 나옵니다. 그러므로 중앙값 3 은 평균보다 [왼쪽]

에 위치하게 됩니다.

하지만 자료의 개수가 짝수개인 경우에는 어떻게 해야 할까요?

예를 들어 주어진 자료가 처음과 달리 1을 3개 더 추가시켜 14개가 주어졌을 경우에 중앙값을 구해보겠습니다.

1, 30, 2, 2, 1, 3, 4, 5, 3, 3, 4, 1, 1, 1

step1) 오름차순 정렬

1, 1, 1, 1, 1, 2, [2, 3], 3, 3, 4, 4, 5, 30

step 2) 중앙에 있는 값

자료의 개수가 짝수개이기 때문에 중앙값은 2와 3 두 개가 나옵니다. 2는 왼쪽에서 7번째 데이터 3은 오른쪽에서 7번째 데이터입니다.

중앙값이 2와 3 이라고 할 수도 있지만 보통의 경우 두 값의 평균을 중앙값으로 봅니다.

그러므로 위의 자료의 중앙값은 2.5 가 되고 평균값은 4.357 이 됩니다.

이 경우에도 평균값보다 중앙값이 왼쪽에 있죠?

이러한 이유는 유독 큰 숫자인 30이 영향을 끼친 것입니다.

모든 숫자의 크기에 영향을 받는 평균과는 달리 중앙값은 숫자의 순서에만 영향을 받기 때문에 유달리 큰 값과 작은 값의 영향을 받지 않을 수 있습니다.

이제 중앙값이 뭔지 알았으니 코딩해서 중앙값이 2.5가 맞나 찾아보겠습니다.

R에서는 median() 이라는 함수가 중앙값을 찾는 2가지 과정을 대신해줍니다.

위 코드를 보면 오름차순을 하고 median() 함수에 넣어주었지만 data_14를 넣어도 똑같이 계산됩니다.

똑같이 나오는데 왜 했냐구요?

그냥요... 그냥 함수 쓰면 되는데 중앙값은 왜 공부했습니까!

내용을 알아야 활용할 수 있는 거 아니겠습니까? 하하하하 ㅋ.ㅋ

길~게 공부하고 코딩은 몇 줄로 끝나버리니 왜 하나 싶겠지만 이해하고 하는 것과 외워서 하는 건 다르니까요 ㅎ.ㅎ~~

'R' 카테고리의 다른 글

R / Rstudio Variance 분산을 구해보자 (0)	2020.03.03
R / Rsudio 평균값 중앙값 최빈값을 구해보자(최빈값편) (1)	2020.02.28
R / Rsudio 평균값 중앙값 최빈값을 구해보자~(평균값편) (0)	2020.02.26
초심자를 위한 자세한 RStudio 실행 및 사용법 (0)	2019.12.23
R / RStudio 다운로드 처음부터 자세하게 (0)	2019.12.22

Posted by dooooh

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

코딩하는 수학과생