모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오

2016학년도수능에적용되었던 2007 개정교육과정에서

2017학년도수능에적용될 2009 개정교육과정으로넘어가면서

가장변화가적은과목을꼽으라면확률과통계를있습니다.


변화된내용을나열하면

(1) 합의법칙, 곱의법칙추가

(2) 집합의분할, 자연수의분할추가

(3) 연속확률변수의평균, 분산, 표준편차삭제

(4) S², S 추가

정도뿐이니까요.


(문과의경우에는변화에

원순열, 중복순열, 같은것이있는순열, 모비율추정이

더해집니다.)




작은변화에서눈에띄는것이있죠?

바로표본분산을의미하는표본표준편차를의미하는 S

추가되었다는점입니다.


2007 개정교육과정에서는

표본분산, 표본표준편차라는용어만다뤘을,

각각의기호에대한언급이없었거든요.


2009 개정교육과정에 S추가된이유는아마도

통계적추정을효과적으로가르치고, 문제출제에 활용하기 위한

것이라생각됩니다.




그럼표본분산에대해자세히알아보겠습니다.




모집단으로부터임의추출된크기 n표본이있다고합시다.

표본에는다음과같은변량이포함되어있습니다.  


모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오


(이산확률변수단원에설명되어있듯이확률변수는알파벳대문자로,

확률변수가갖는값은알파벳소문자로표현합니다. 따라서

표본에포함된변량들을대문자로표현한것은

이들이 모두확률변수라는뜻입니다.


확률변수냐?


모집단이 1부터 100까지의자연수로이루어졌다고가정하면

모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오
가질있는값은 1부터 100까지의자연수,

모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오
가질있는값은 1부터 100까지의자연수,

이런식으로각각의변량들이

모집단에속한모든값을가질있기때문입니다.)


이때, 표본평균 

모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오
표본분산 
모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오

각각다음과같이 계산됩니다.


모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오


모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오




표본평균은일반적인평균과마찬가지로

표본에포함된모든변량의합을표본크기 n으로나눕니다.


그런데표본분산이다르죠?

일반적인분산과같이 (편차합을표본크기 n나누지않고,

표본크기에서 1, n-1나눕니다.




이유가뭘까요?




교과서를찾아보면


(1) 표본분산과모분산의차이를줄이기 위해 - 교학사, 동아, 미래엔, 지학사, 천재(류희찬)

(2) 표본분산의기댓값을모분산과일치시키기위해 - 금성, 천재(이준열)


라고간단하게언급하고있습니다.


이것만보고이해하면통계 천재ㅡㅡ;

(교과서만 보고 이해하셨음 통계학과 진학을 추천드리고 싶네요.

요즘 분위기는 잘 모르겠지만, 제가 회사 다닐 적엔 품질관리 기법으로

6-시그마가 대유행이었는데 덕분에 통계학 박사들 몸값이 많이 뛰었죠.

제가 있던 회사도 억대 연봉 주고 모셔올 정도였습니다.)

그래서자세하게설명드리겠습니다.




(1) 표본분산과모분산의 차이를줄이기위해?


모평균을추정하려면

모집단으로부터크기 n표본을임의추출하고,

표본평균 

모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오
구한다음모표준편차 
모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오
이용해서

다음식으로신뢰구간을구하게됩니다.


모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오



그런데일반적인통계문제에서는

모평균 

모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오
 뿐만아니라모표준편차 
모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오
없습니다.

(간혹모표준편차가주어지는문제가있지만, 공부를위한예제일뿐이죠.)


그래서표본크기가 30 이상일때는

모집단의분포와표본의 분포가비슷하다고간주하고

모표준편차 

모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오
 자리에표본표준편차 
모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오
대입하게됩니다.


때문에신뢰구간이들어맞으려면

(, 신뢰구간에 모평균이실제로포함되려면)

표본표준편차가모표준편차에가까운값을가져야하죠.




하지만그게쉽나요.

표본표준편차는대체로모표준편차보다작거든요.


설명을위해아래의예를보겠습니다.

(엑셀 통계관련기능진짜오랜만에 ^^)


모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오


위는정규분포 N(50, 15²)따르는모집단에서

크기 30표본을임의추출하기를다섯반복한결과입니다.

(각각의 변량은신경쓰지말고, 아래에있는평균과분산에주목해주세요.)




먼저분산(÷30)일반적인분산과같이

(편차합을표본크기 30으로나눈값입니다.


왼쪽부터 차례로 186.74, 235.42, 195.69, 215.81, 146.76이며,

모분산 15²=225차이가어느정도있는편입니다.




다음으로분산(÷29)

(편차 합을 (표본 크기)-1, 29 나눈 값입니다.


그럼분산이어떻게 변할까요?

분모가줄었으니분산은당연히커집니다.


왼쪽부터 차례로 193.18, 243.54, 202.43, 223.25, 151.82인데

번째표본을제외하면분산(÷30)경우보다모분산 225

가까워졌음을있네요.




이런이유로표본분산을구할때는

(편차합을 (표본크기)아니라 (표본크기)-1나누는것이

합리적이라있습니다.




그런데이런의문도 듭니다.

‘(표본크기)-2나누면모분산에가까워지지않을까?’


그러나

n-1나누는것은괜찮지만, n-2나누는것은안됩니다.

n-1나누는것은자유도라는 개념과연결되거든요.




자유도를간단하게설명하면다음과같습니다.


평균이 50 a₁, a₂, a₃ 있다고 합시다.

만일 a₁=40, a₂=65라면 a₃ 값은 45 되어야 합니다.

평균이정해져 있으니까요.


a₁, a₂, a₃ 가운데 a₁, a₂ 값은 자유롭게 정할 있지만,

a₃ 값은 a₁, a₂ 값에 따라 정해집니다.


그래서 a₃자유도가없는라고하며,

자유도는변수 개수에서자유도가없는수의개수를 2됩니다.




앞의표본도마찬가지입니다.

29변량의값은자유롭게정할있지만, 30번째변량은

평균이 50가까워야한다는조건때문에 자유도가없는수가됩니다.


따라서자유도는 29되고, 표본분산을구할 

(편차합을자유도로나누게되는겁니다.




(2) 표본분산의기댓값을모분산과일치시키기 위해?


(1)경험적인이유라면 (2)수학적인이유입니다.

계산으로명확하게 입증되거든요.


표본분산을 { (편차 } ÷ (n-1) 정의하면

다음과같이표현할있습니다.


모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오


이때, 표본분산의기댓값은다음과같이모분산과일치하게됩니다.

(유도과정은~복잡하기때문에생략)


모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오


모집단으로부터크기가같은표본을반복해서임의추출하고,

각각의표본에서표본분산을계산하고,

다시표본분산들의평균을구하면 

모분산 

모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오
이랑일치한단얘기죠.


뭔가맞아떨어지죠?




반면에

표본분산을 { (편차 } ÷ n으로정의하면

모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오

표본분산의 기댓값은다음과같이

모분산 

모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오
 
모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오
만큼의차이가생기게됩니다.


모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오


n-1 나누는지 감이 조금 오죠? ^^




혹시나해서드리는얘긴데

내용이이해가되지않아도아무걱정할필요없구요,

그냥표본분산구할때는 (편차합을 n-1나눈다라는 것만

새겨두시면됩니다 ^^