모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오

2016학년도수능에적용되었던 2007 개정교육과정에서

2017학년도수능에적용될 2009 개정교육과정으로넘어가면서

가장변화가적은과목을꼽으라면확률과통계를들수있습니다.

변화된내용을나열하면

(1) 합의법칙, 곱의법칙추가

(2) 집합의분할, 자연수의분할추가

(3) 연속확률변수의평균, 분산, 표준편차삭제

(4) S², S 추가

이정도뿐이니까요.

(문과의경우에는위변화에

원순열, 중복순열, 같은것이있는순열, 모비율추정이

더해집니다.)

이작은변화에서눈에띄는것이있죠?

바로표본분산을의미하는 S²과표본표준편차를의미하는 S가

추가되었다는점입니다.

2007 개정교육과정에서는

표본분산, 표본표준편차라는용어만다뤘을뿐,

각각의기호에대한언급이없었거든요.

2009 개정교육과정에 S²과 S가추가된이유는아마도

통계적추정을효과적으로가르치고, 문제출제에 활용하기 위한

것이라생각됩니다.

그럼표본분산에대해자세히알아보겠습니다.

모집단으로부터임의추출된크기 n인표본이있다고합시다.

이표본에는다음과같은변량이포함되어있습니다.

(이산확률변수단원에설명되어있듯이확률변수는알파벳대문자로,

확률변수가갖는값은알파벳소문자로표현합니다. 따라서

표본에포함된변량들을대문자로표현한것은

이들이 모두확률변수라는뜻입니다.

왜확률변수냐?

모집단이 1부터 100까지의자연수로이루어졌다고가정하면

이가질수있는값은 1부터 100까지의자연수,

가가질수있는값은 1부터 100까지의자연수,

…

이런식으로각각의변량들이

모집단에속한모든값을가질수있기때문입니다.)

이때, 표본평균

와표본분산

은

각각다음과같이 계산됩니다.

표본평균은일반적인평균과마찬가지로

표본에포함된모든변량의합을표본크기 n으로나눕니다.

그런데표본분산이좀다르죠?

일반적인분산과같이 (편차)²의합을표본크기 n을나누지않고,

표본크기에서 1을뺀값, 즉 n-1로나눕니다.

이유가뭘까요?

교과서를찾아보면

(1) 표본분산과모분산의차이를줄이기 위해 - 교학사, 동아, 미래엔, 지학사, 천재(류희찬)

(2) 표본분산의기댓값을모분산과일치시키기위해 - 금성, 천재(이준열)

라고간단하게언급하고있습니다.

이것만보고이해하면 ‘통계 천재’죠ㅡㅡ;

(교과서만 보고 이해하셨음 통계학과 진학을 추천드리고 싶네요.

요즘 분위기는 잘 모르겠지만, 제가 회사 다닐 적엔 품질관리 기법으로

6-시그마가 대유행이었는데 덕분에 통계학 박사들 몸값이 많이 뛰었죠.

제가 있던 회사도 억대 연봉 주고 모셔올 정도였습니다.)

그래서좀더자세하게설명드리겠습니다.

(1) 표본분산과모분산의 차이를줄이기위해?

모평균을추정하려면

모집단으로부터크기 n인표본을임의추출하고,

표본평균

를구한다음, 모표준편차

를 이용해서

다음식으로신뢰구간을구하게됩니다.

그런데일반적인통계문제에서는

모평균

뿐만아니라모표준편차

도알수없습니다.

(간혹모표준편차가주어지는문제가있지만, 공부를위한예제일뿐이죠.)

그래서표본크기가 30 이상일때는

모집단의분포와표본의 분포가비슷하다고간주하고

모표준편차

자리에표본표준편차

를대입하게됩니다.

이때문에신뢰구간이잘들어맞으려면

(즉, 신뢰구간에 모평균이실제로포함되려면)

표본표준편차가모표준편차에가까운값을가져야하죠.

하지만그게쉽나요.

표본표준편차는대체로모표준편차보다작거든요.

설명을위해아래의예를보겠습니다.

(엑셀 통계관련기능진짜오랜만에씀 ^^)

위는정규분포 N(50, 15²)을따르는모집단에서

크기 30인표본을임의추출하기를다섯번반복한결과입니다.

(각각의 변량은신경쓰지말고, 맨아래에있는평균과분산에주목해주세요.)

먼저분산(÷30)은일반적인분산과같이

(편차)²의합을표본크기 30으로나눈값입니다.

왼쪽부터 차례로 186.74, 235.42, 195.69, 215.81, 146.76이며,

모분산 15²=225와차이가어느정도있는편입니다.

다음으로분산(÷29)는

(편차)²의 합을 (표본 크기)-1, 즉 29로 나눈 값입니다.

그럼분산이어떻게 변할까요?

분모가줄었으니분산은당연히커집니다.

왼쪽부터 차례로 193.18, 243.54, 202.43, 223.25, 151.82인데

두번째표본을제외하면분산(÷30)의경우보다모분산 225에

더가까워졌음을알수있네요.

이런이유로표본분산을구할때는

(편차)²의합을 (표본크기)가아니라 (표본크기)-1로나누는것이

합리적이라할수있습니다.

그런데… 이런의문도 듭니다.

‘(표본크기)-2로나누면모분산에더가까워지지않을까?’

그러나

n-1로나누는것은괜찮지만, n-2로나누는것은안됩니다.

n-1로나누는것은 ‘자유도’라는 개념과연결되거든요.

자유도를간단하게설명하면다음과같습니다.

평균이 50인 세 수 a₁, a₂, a₃이 있다고 합시다.

만일 a₁=40, a₂=65라면 a₃의 값은 45가 되어야 합니다.

평균이정해져 있으니까요.

a₁, a₂, a₃ 가운데 a₁, a₂의 값은 자유롭게 정할 수 있지만,

a₃의 값은 a₁, a₂의 값에 따라 정해집니다.

그래서 a₃을 ‘자유도가없는수’라고하며,

자유도는변수 개수에서자유도가없는수의개수를뺀 2가됩니다.

앞의표본도마찬가지입니다.

29개변량의값은자유롭게정할수있지만, 30번째변량은

평균이 50에가까워야한다는조건때문에 자유도가없는수가됩니다.

따라서자유도는 29가되고, 표본분산을구할때

(편차)²의합을자유도로나누게되는겁니다.

(2) 표본분산의기댓값을모분산과일치시키기 위해?

(1)이경험적인이유라면 (2)는수학적인이유입니다.

계산으로명확하게 입증되거든요.

표본분산을 { (편차)²의 합 } ÷ (n-1)로 정의하면

다음과같이표현할수있습니다.

이때, 표본분산의기댓값은다음과같이모분산과일치하게됩니다.

(유도과정은너~무복잡하기때문에생략)

모집단으로부터크기가같은표본을반복해서임의추출하고,

각각의표본에서표본분산을계산하고,

다시표본분산들의평균을구하면

모분산

이랑일치한단얘기죠.

뭔가딱맞아떨어지죠?

반면에

표본분산을 { (편차)²의합 } ÷ n으로정의하면

표본분산의 기댓값은다음과같이

모분산

과

만큼의차이가생기게됩니다.

왜 n-1로 나누는지 감이 조금 오죠? ^^

혹시나해서드리는얘긴데…

위내용이이해가되지않아도아무걱정할필요없구요,

그냥 ‘표본분산구할때는 (편차)²의합을 n-1로나눈다’라는 것만

새겨두시면됩니다 ^^

모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오 왜

모분산과 표본분산의 산출식에서 왜 분모가 차이가 나는지를 설명하시오

관련 게시물

김비서 가 왜 그럴까 2 화 드라마

왜 세계의 절반은 굶주리는가 인상깊은 구절

클립 소재 브러시 왜 않

사람은 왜 일을 해야 하는가

노인네가 왜 일을 하냐구 묻더든 보기 좋으라고 일을 한다고 말하게

나는 왜 이 일 을 하는가 독후감

뮤지컬 모짜르트 왜 날 사랑하지

남자가 여자친구 있는지 왜 물어봐요

중고 서적 지식인은 왜 자유주의를 싫어하는가

윤지성 팬덤 김재환 왜 저럼

광고하는

최근 소식

왜 안돼요 대표 님

애드 센스 승인 확인 방법

우체국 마스크 해외 배송 방법

시원찮은 그녀를 육성하는 방법 2기 6화

구운몽 어느 소녀의 사랑이야기 download

몇 일 지난 신용카드 취소하는 법

프린세스 커넥트 계정 구매 방법

기아 네비 업데이트 방법

어느 한 모텔의 안전수칙 움짤

기사 시험 필기 면제과목 있는 경우 마킹 방법

광고하는

포퓰러

광고하는

에 대한

합법적인

돕다

사회의