모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오

2016학년도수능에적용되었던 2007 개정교육과정에서

2017학년도수능에적용될 2009 개정교육과정으로넘어가면서

가장변화가적은과목을꼽으라면확률과통계를있습니다.


변화된내용을나열하면

(1) 합의법칙, 곱의법칙추가

(2) 집합의분할, 자연수의분할추가

(3) 연속확률변수의평균, 분산, 표준편차삭제

(4) S², S 추가

정도뿐이니까요.


(문과의경우에는변화에

원순열, 중복순열, 같은것이있는순열, 모비율추정이

더해집니다.)




작은변화에서눈에띄는것이있죠?

바로표본분산을의미하는표본표준편차를의미하는 S

추가되었다는점입니다.


2007 개정교육과정에서는

표본분산, 표본표준편차라는용어만다뤘을,

각각의기호에대한언급이없었거든요.


2009 개정교육과정에 S추가된이유는아마도

통계적추정을효과적으로가르치고, 문제출제에 활용하기 위한

것이라생각됩니다.




그럼표본분산에대해자세히알아보겠습니다.




모집단으로부터임의추출된크기 n표본이있다고합시다.

표본에는다음과같은변량이포함되어있습니다.  



(이산확률변수단원에설명되어있듯이확률변수는알파벳대문자로,

확률변수가갖는값은알파벳소문자로표현합니다. 따라서

표본에포함된변량들을대문자로표현한것은

이들이 모두확률변수라는뜻입니다.


확률변수냐?


모집단이 1부터 100까지의자연수로이루어졌다고가정하면

가질있는값은 1부터 100까지의자연수,

가질있는값은 1부터 100까지의자연수,

이런식으로각각의변량들이

모집단에속한모든값을가질있기때문입니다.)


이때, 표본평균 

표본분산 

각각다음과같이 계산됩니다.






표본평균은일반적인평균과마찬가지로

표본에포함된모든변량의합을표본크기 n으로나눕니다.


그런데표본분산이다르죠?

일반적인분산과같이 (편차합을표본크기 n나누지않고,

표본크기에서 1, n-1나눕니다.




이유가뭘까요?




교과서를찾아보면


(1) 표본분산과모분산의차이를줄이기 위해 - 교학사, 동아, 미래엔, 지학사, 천재(류희찬)

(2) 표본분산의기댓값을모분산과일치시키기위해 - 금성, 천재(이준열)


라고간단하게언급하고있습니다.


이것만보고이해하면통계 천재ㅡㅡ;

(교과서만 보고 이해하셨음 통계학과 진학을 추천드리고 싶네요.

요즘 분위기는 잘 모르겠지만, 제가 회사 다닐 적엔 품질관리 기법으로

6-시그마가 대유행이었는데 덕분에 통계학 박사들 몸값이 많이 뛰었죠.

제가 있던 회사도 억대 연봉 주고 모셔올 정도였습니다.)

그래서자세하게설명드리겠습니다.




(1) 표본분산과모분산의 차이를줄이기위해?


모평균을추정하려면

모집단으로부터크기 n표본을임의추출하고,

표본평균 

구한다음모표준편차 
이용해서

다음식으로신뢰구간을구하게됩니다.




그런데일반적인통계문제에서는

모평균 

 뿐만아니라모표준편차 
없습니다.

(간혹모표준편차가주어지는문제가있지만, 공부를위한예제일뿐이죠.)


그래서표본크기가 30 이상일때는

모집단의분포와표본의 분포가비슷하다고간주하고

모표준편차 

 자리에표본표준편차 
대입하게됩니다.


때문에신뢰구간이들어맞으려면

(, 신뢰구간에 모평균이실제로포함되려면)

표본표준편차가모표준편차에가까운값을가져야하죠.




하지만그게쉽나요.

표본표준편차는대체로모표준편차보다작거든요.


설명을위해아래의예를보겠습니다.

(엑셀 통계관련기능진짜오랜만에 ^^)



위는정규분포 N(50, 15²)따르는모집단에서

크기 30표본을임의추출하기를다섯반복한결과입니다.

(각각의 변량은신경쓰지말고, 아래에있는평균과분산에주목해주세요.)




먼저분산(÷30)일반적인분산과같이

(편차합을표본크기 30으로나눈값입니다.


왼쪽부터 차례로 186.74, 235.42, 195.69, 215.81, 146.76이며,

모분산 15²=225차이가어느정도있는편입니다.




다음으로분산(÷29)

(편차 합을 (표본 크기)-1, 29 나눈 값입니다.


그럼분산이어떻게 변할까요?

분모가줄었으니분산은당연히커집니다.


왼쪽부터 차례로 193.18, 243.54, 202.43, 223.25, 151.82인데

번째표본을제외하면분산(÷30)경우보다모분산 225

가까워졌음을있네요.




이런이유로표본분산을구할때는

(편차합을 (표본크기)아니라 (표본크기)-1나누는것이

합리적이라있습니다.




그런데이런의문도 듭니다.

‘(표본크기)-2나누면모분산에가까워지지않을까?’


그러나

n-1나누는것은괜찮지만, n-2나누는것은안됩니다.

n-1나누는것은자유도라는 개념과연결되거든요.




자유도를간단하게설명하면다음과같습니다.


평균이 50 a₁, a₂, a₃ 있다고 합시다.

만일 a₁=40, a₂=65라면 a₃ 값은 45 되어야 합니다.

평균이정해져 있으니까요.


a₁, a₂, a₃ 가운데 a₁, a₂ 값은 자유롭게 정할 있지만,

a₃ 값은 a₁, a₂ 값에 따라 정해집니다.


그래서 a₃자유도가없는라고하며,

자유도는변수 개수에서자유도가없는수의개수를 2됩니다.




앞의표본도마찬가지입니다.

29변량의값은자유롭게정할있지만, 30번째변량은

평균이 50가까워야한다는조건때문에 자유도가없는수가됩니다.


따라서자유도는 29되고, 표본분산을구할 

(편차합을자유도로나누게되는겁니다.




(2) 표본분산의기댓값을모분산과일치시키기 위해?


(1)경험적인이유라면 (2)수학적인이유입니다.

계산으로명확하게 입증되거든요.


표본분산을 { (편차 } ÷ (n-1) 정의하면

다음과같이표현할있습니다.



이때, 표본분산의기댓값은다음과같이모분산과일치하게됩니다.

(유도과정은~복잡하기때문에생략)



모집단으로부터크기가같은표본을반복해서임의추출하고,

각각의표본에서표본분산을계산하고,

다시표본분산들의평균을구하면 

모분산 

이랑일치한단얘기죠.


뭔가맞아떨어지죠?




반면에

표본분산을 { (편차 } ÷ n으로정의하면

표본분산의 기댓값은다음과같이

모분산 

 
만큼의차이가생기게됩니다.



n-1 나누는지 감이 조금 오죠? ^^




혹시나해서드리는얘긴데

내용이이해가되지않아도아무걱정할필요없구요,

그냥표본분산구할때는 (편차합을 n-1나눈다라는 것만

새겨두시면됩니다 ^^

Toplist

최신 우편물

태그