1. 상자그림 R을 이용하여 상자그림을 그리는 방법을 알아봅시다. 아래와
같은 그림이 상자그림인데요. 점선부분이 수염처럼 생겼기 때문에 상자수염그림이라고도 부릅니다. 상자그림은 다섯가지 정보를 담고 있는 그림입니다. - 최댓값 - 3사분위수 (데이터의 75%가 이 값 이하 또는 데이터의 25%가
이 값 초과) - 2사분위수 (순서상 50%에 위치하는 값, 중간값) - 1사분위수 (데이터의 25%가 이 값 이하) - 최솟값 사분위수를 계산하는 방법은 여러가지가 있는데요. R에서는 9가지 방법을 제공하고 있습니다. 나중에 자세히 다루도록 합시다. 벡터를 하나 정의하고 상자그림을 그려봅시다.
가로선이 위에서부터 다섯개가 그려져 있습니다. 맨 위 가로선이 최댓값이구요. 아래로 내려오면서 3사분위수, 2사분위수(굵은선), 1사분위수, 최솟값이 있습니다. 이번에는 위 벡터에 10을 추가해봅시다.
최댓값이 있어야할 자리에 속이 빈 점이 하나 찍혀있고 수염도 사라졌습니다. 이 값을 outlier 라고 합니다. 극단치, 혹은 이상점(이상한 점)이라고 부릅니다. 최댓값이라고 하기에는 나머지 자료들과 너무 동떨어져 있기 때문에, 잘못 찍힌 점으로 분류하는 것입니다. 극단치로 분류되는 기준이 있는데요. 기준은 IQR이라는 단위를 이용하여 정의됩니다. 먼저 IQR이 무엇인지 알아봅시다.
관련글
|