코딩하는 수학과생 :: R / Rsudio 평균값 중앙값 최빈값을 구해보자(중앙값편)


반응형

세 가지 다 한 글에 쓰면 너무 길어질 것 같아서 하나씩 쓰게 됐습니다 ㅋ.ㅋ

이번에는 중앙값 코딩을 해보겠습니다.

 

|중앙값|

중앙값(median) 또는 중위수는 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다. -wiki백과-

data는 1, 1, 2, 2, 3, 3, 3, 4, 4, 5, 30 입니다람쥐

 

위의 그래프의 빨간선은 저번 글에서 다뤘던 평균값을 나타낸 것입니다.

 

R을 이용하면 위와 같은 그래프를 손쉽게 그려낼 수 있습니다~~

 

그렇다면 중앙값평균값보다 오른쪽과 왼쪽중 어디에 있을까요??

 

정답은....

 

 

 

왼쪽입니다~

사실 평균중앙값이 처음에는 많이 헷갈릴 수 있지만 중앙값을 구하는 방법을 정확히 이해하고 나면 절대 헷갈리지 않을 거예요.

 

데이터의 중앙값을 찾는 두 가지 방법입니다. : )

1. 데이터를 오름차순 정렬한다.

2. 중앙에 있는 값을 찾는다.

 

처음에 주어진 자료를 가지고 중앙값을 찾아보겠습니다.

 

1, 30, 2, 2, 1, 3, 4, 5, 3, 3, 4

 

step1) 오름차순 정렬

 

1, 1, 2, 2, 3, [3], 3, 4, 4, 5, 30

 

step 2) 중앙에 있는 값

주어진 자료의 개수가 11개로 홀수이기 때문에 정확히 중앙에 값이 한 개 존재합니다.

그러므로 이 자료의 중앙값은  3 이 됩니다.

 

한편 평균값을 구해보면  5.272  정도가 나옵니다. 그러므로 중앙값 3 은 평균보다 [왼쪽]

에 위치하게 됩니다.

 

하지만 자료의 개수가 짝수개인 경우에는 어떻게 해야 할까요?

 

예를 들어 주어진 자료가 처음과 달리 1을 3개 더 추가시켜 14개가 주어졌을 경우에 중앙값을 구해보겠습니다.

 

1, 30, 2, 2, 1, 3, 4, 5, 3, 3, 4, 1, 1, 1

 

step1) 오름차순 정렬

 

1, 1, 1, 1, 1, 2, [2, 3], 3, 3, 4, 4, 5, 30

 

step 2) 중앙에 있는 값

자료의 개수가 짝수개이기 때문에 중앙값은 2와 3  두 개가 나옵니다. 2는 왼쪽에서 7번째 데이터 3은 오른쪽에서 7번째 데이터입니다.

중앙값이  2와 3  이라고 할 수도 있지만 보통의 경우 두 값의 평균을 중앙값으로 봅니다.

그러므로 위의 자료의 중앙값은  2.5 가 되고 평균값은  4.357 이 됩니다.

 

이 경우에도 평균값보다 중앙값이 왼쪽에 있죠?

 

이러한 이유는 유독 큰 숫자인 30이 영향을 끼친 것입니다.

 

모든 숫자의 크기에 영향을 받는 평균과는 달리 중앙값은 숫자의 순서에만 영향을 받기 때문에 유달리 큰 값과 작은 값의 영향을 받지 않을 수 있습니다.

 

이제 중앙값이 뭔지 알았으니 코딩해서 중앙값이 2.5가 맞나 찾아보겠습니다.

 

R에서는 median() 이라는 함수가 중앙값을 찾는 2가지 과정을 대신해줍니다.

위 코드를 보면 오름차순을 하고 median() 함수에 넣어주었지만 data_14를 넣어도 똑같이 계산됩니다.

 

똑같이 나오는데 왜 했냐구요?

 

그냥요... 그냥 함수 쓰면 되는데 중앙값은 왜 공부했습니까!

내용을 알아야 활용할 수 있는 거 아니겠습니까? 하하하하 ㅋ.ㅋ

 

길~게 공부하고 코딩은 몇 줄로 끝나버리니 왜 하나 싶겠지만 이해하고 하는 것과 외워서 하는 건 다르니까요 ㅎ.ㅎ~~

반응형
Posted by dooooh
,