코딩하는 수학과생 :: 'RStudio' 태그의 글 목록

반응형

'RStudio'에 해당되는 글 2건

  1. R / Rstudio 사분범위(IQR)를 구해보자
  2. R / Rsudio 평균값 중앙값 최빈값을 구해보자(최빈값편) 1
반응형

반응형

다음 데이터의 분포를 살펴보겠습니다~

 

 

이 자료의 범위(range)는 몇일까?

[범위 = 최댓값 - 최솟값] 이므로 범위 = 30 - 0 =  30 이 된다.

대부분의 데이터가  10 과  21 사이에 모여있는 것이 보인다.

이 자료를 가지고 통계적 분석을 할 경우에  과  30 의 자료 때문에 문제가 생길 수 있다.

 

사분범위는 이러한 특이값(이상값)이 발생한 문제를 해결해줄 수 있다.
사분범위(IQR, InterQuartile Range)는 제3사분위수와 제1사분위수 사이의 범위이다.

식으로 나타내면  IQR = Q3 - Q1이다.

 

IQR은 range와는 다르게 통계적으로 매우 유용하다.

쉽게 예를 들어 두 가지 자료가 있다고  하자

자료 1) (1, 2, 6, 10, 18, 30)    # range = 29    / IQR = 13

자료 2) (1, 2, 6, 10, 18, 3000) # range = 2900 / IQR = 13

 

자료 1,2의 range를 비교해보면  29 와  2900 로 엄청난 차이가 난다.

하지만 사분범위는 모두  13 으로 같다.

특이값들을 제외함으로써 자료의 중심의 성격을 더 잘 이해할 수 있게 되는 것입니다.

 

 

사분위수에 대해 제대로 이해하고 있지 않다면 이전 글에 설명해 놓은걸 보고 오시면 됩니다^.^

사분위수 : R / Rstudio 사분위수 / 분위수를 구해보자(사분위수 편)

 

R / Rstudio 사분위수 / 분위수를 구해보자(사분위수 편)

이번에는 구해볼것은 사분위수입니다~~ 사분위수를 처음 봤을때는 헷갈리는게 너무 많지만 의미를 잘 이해하고 제가 정한 메뉴얼대로 구하는 연습을 하다보니까 어느샌가 조금 친근하게 느껴지더라구요 ㅋ.ㅋ 데이..

dooooh.tistory.com

 

IQR = Q3 - Q1 = 23 - 8 = 15

 

----------------------------------------------------------------------------

 

손 계산으로 사분범위를 구하는 방법을 보겠습니다.

 

step1) 사분범위를 구하기 위하여 Q1Q3값을 구한다.

#Q1 값은 데이터의 25%가 있는 지점이다.

#Q3 값은 Q1의 반대쪽 25%인 데이터의 75%가 있는 지점이다.

 

step 2) Q1과 Q3 사이의 범위를 구한다.

#사분범위는 Q1과 Q3 사이의 범위

 

손 계산을 한다면 이러한 과정을 거쳐 사분 범위를 구할 수 있습니다.

 

----------------------------------------------------------------------------

 

이번에는 R을 이용하여 사분범위(IQR)을 구해보겠습니다.

 

R에는 사분범위를 구할 수 있는 IQR() 함수가 존재합니다.

IQR() 함수에 자료를 넣어주면 사분범위값이 나옵니다.

 

 

위에 들었던 예시로 구해봤습니다. 사분범위는 모두  13 으로 같은 값이 나옵니다.

 

자료를 보다 보면 항상 동떨어진 값들이 존재합니다. 이런 값들을 무시하게 되면 정말 이상한 결과가 나와버릴 수도 있어서 이 특이치라 불리는 값들을 찾아서 제거해주는 과정은 꼭 필요합니다.

 

사분범위를 손으로 구해서 상자 그림 그리면서 하다 보면 계산 실수도 엄청하게 되는데 코딩으로 하면 함수 하나만 쓰면 바로 구해지니 코딩을 하는 것에 대해 너무 어렵게 생각하지 않아도 될 것 같습니다. ^ㅇ^

 

저도 코딩하면 어려운 것 이라고만 생각하고 있었는데 너무 함수들이 잘 만들어져 있어서 부담 없이 공부할 것 같아요 ㅋ.ㅋ

반응형
Posted by dooooh
,
반응형

이번엔 최빈값에 대해 알아보겠습니다.

 

이름에서 알 수 있듯이 제일 많이 등장한 값을 말합니다. 자료의 성질에 따라 한 개가 아닐 수도 있고 존재하지 않을 수도 있습니다.

 

R로 최빈값을 찾기위해 2가지 과정으로 진행하겠습니다.

 

1. 주어진 자료의 최빈값 찾기

2. R의 함수를 이용하여 최빈값 찾기

 

step1) 최빈값을 찾아보자~

 

자료의 수가 적은 경우에는 직접 찾아볼 수 있지만... 그것이 여의치 않은 경우에는 2가지 과정만 거쳐주면 됩니다.

1) 각 자료마다 빈도수를 계산한다

2) 빈도수를 비교한다

 

크기가 큰 데이터를 마주치게되면 막막해지는 경우가 많습니다. 이럴 때는 좀 더 작은 범위로 세분화시켜서 비교해보면 좀 더 쉽게 원하는 정보를 얻을 수 있습니다.

 

적당한 숫자들로 예를 들어보겠습니다.

 

18, 10, 13, 12, 20, 24, 13, 24, 18, 13

 

최빈값이 딱 보이지 않는다면 위의 방법을 이용하면 됩니다.

 

18

10

13

12

20

24

2

1

3

1

1

2

 

표를 보면 최빈값이  13  인 것을 바로 알 수 있습니다.

 

step2) R 함수를 이용하여 최빈값을 찾아보자구요

 

최빈값을 찾아주는 Mode() 라는 함수는 R패키지의 DescTools에 있습니다.

 

Mode() 함수를 이용하여 위의 예에서 최빈값을 찾아보도록 하겠습니다.

 

R을 이용하여 구해본 결과 위와 같은 결과가 나왔습니다.

 

최빈값이 한 개가 아닌 경우도 살펴보겠습니다.

최빈값이  1, 2  2개이기 때문에 3번째 값으로 NA가 나오게 됩니다.

 

이처럼 R을 이용하면 데이터가 커도 손쉽게 최빈값을 구할 수 있습니다~

반응형
Posted by dooooh
,