2016학년도수능에적용되었던 2007 개정교육과정에서 2017학년도수능에적용될 2009 개정교육과정으로넘어가면서 가장변화가적은과목을꼽으라면확률과통계를들수있습니다. 변화된내용을나열하면 (1) 합의법칙, 곱의법칙추가 (2) 집합의분할, 자연수의분할추가 (3) 연속확률변수의평균, 분산, 표준편차삭제 (4) S², S 추가 이정도뿐이니까요. (문과의경우에는위변화에 원순열, 중복순열, 같은것이있는순열, 모비율추정이 더해집니다.) 이작은변화에서눈에띄는것이있죠? 바로표본분산을의미하는 S²과표본표준편차를의미하는 S가 추가되었다는점입니다. 2007 개정교육과정에서는 표본분산, 표본표준편차라는용어만다뤘을뿐, 각각의기호에대한언급이없었거든요. 2009 개정교육과정에 S²과 S가추가된이유는아마도 통계적추정을효과적으로가르치고, 문제출제에 활용하기 위한 것이라생각됩니다. 그럼표본분산에대해자세히알아보겠습니다. 모집단으로부터임의추출된크기 n인표본이있다고합시다. 이표본에는다음과같은변량이포함되어있습니다. (이산확률변수단원에설명되어있듯이확률변수는알파벳대문자로, 확률변수가갖는값은알파벳소문자로표현합니다. 따라서 표본에포함된변량들을대문자로표현한것은 이들이 모두확률변수라는뜻입니다. 왜확률변수냐? 모집단이 1부터 100까지의자연수로이루어졌다고가정하면
… 이런식으로각각의변량들이 모집단에속한모든값을가질수있기때문입니다.) 이때,
표본평균 각각다음과같이 계산됩니다. 표본평균은일반적인평균과마찬가지로 표본에포함된모든변량의합을표본크기 n으로나눕니다. 그런데표본분산이좀다르죠? 일반적인분산과같이 (편차)²의합을표본크기 n을나누지않고, 표본크기에서 1을뺀값, 즉 n-1로나눕니다. 이유가뭘까요? 교과서를찾아보면 (1) 표본분산과모분산의차이를줄이기 위해 - 교학사, 동아, 미래엔, 지학사, 천재(류희찬) (2) 표본분산의기댓값을모분산과일치시키기위해 - 금성, 천재(이준열) 라고간단하게언급하고있습니다. 이것만보고이해하면 ‘통계 천재’죠ㅡㅡ; (교과서만 보고 이해하셨음 통계학과 진학을 추천드리고 싶네요. 요즘 분위기는 잘 모르겠지만, 제가 회사 다닐 적엔 품질관리 기법으로 6-시그마가 대유행이었는데 덕분에 통계학 박사들 몸값이 많이 뛰었죠. 제가 있던 회사도 억대 연봉 주고 모셔올 정도였습니다.) 그래서좀더자세하게설명드리겠습니다. (1) 표본분산과모분산의 차이를줄이기위해? 모평균을추정하려면 모집단으로부터크기 n인표본을임의추출하고, 표본평균 다음식으로신뢰구간을구하게됩니다. 그런데일반적인통계문제에서는 모평균 (간혹모표준편차가주어지는문제가있지만, 공부를위한예제일뿐이죠.) 그래서표본크기가 30 이상일때는 모집단의분포와표본의 분포가비슷하다고간주하고 모표준편차 이때문에신뢰구간이잘들어맞으려면 (즉, 신뢰구간에 모평균이실제로포함되려면) 표본표준편차가모표준편차에가까운값을가져야하죠. 하지만그게쉽나요. 표본표준편차는대체로모표준편차보다작거든요. 설명을위해아래의예를보겠습니다. (엑셀 통계관련기능진짜오랜만에씀 ^^) 위는정규분포 N(50, 15²)을따르는모집단에서 크기 30인표본을임의추출하기를다섯번반복한결과입니다. (각각의 변량은신경쓰지말고, 맨아래에있는평균과분산에주목해주세요.) 먼저분산(÷30)은일반적인분산과같이 (편차)²의합을표본크기 30으로나눈값입니다. 왼쪽부터 차례로 186.74, 235.42, 195.69, 215.81, 146.76이며, 모분산 15²=225와차이가어느정도있는편입니다. 다음으로분산(÷29)는 (편차)²의 합을 (표본 크기)-1, 즉 29로 나눈 값입니다. 그럼분산이어떻게 변할까요? 분모가줄었으니분산은당연히커집니다. 왼쪽부터 차례로 193.18, 243.54, 202.43, 223.25, 151.82인데 두번째표본을제외하면분산(÷30)의경우보다모분산 225에 더가까워졌음을알수있네요. 이런이유로표본분산을구할때는 (편차)²의합을 (표본크기)가아니라 (표본크기)-1로나누는것이 합리적이라할수있습니다. 그런데… 이런의문도 듭니다. ‘(표본크기)-2로나누면모분산에더가까워지지않을까?’ 그러나 n-1로나누는것은괜찮지만, n-2로나누는것은안됩니다. n-1로나누는것은 ‘자유도’라는 개념과연결되거든요. 자유도를간단하게설명하면다음과같습니다. 평균이 50인 세 수 a₁, a₂, a₃이 있다고 합시다. 만일 a₁=40, a₂=65라면 a₃의 값은 45가 되어야 합니다. 평균이정해져 있으니까요. a₁, a₂, a₃ 가운데 a₁, a₂의 값은 자유롭게 정할 수 있지만, a₃의 값은 a₁, a₂의 값에 따라 정해집니다. 그래서 a₃을 ‘자유도가없는수’라고하며, 자유도는변수 개수에서자유도가없는수의개수를뺀 2가됩니다. 앞의표본도마찬가지입니다. 29개변량의값은자유롭게정할수있지만, 30번째변량은 평균이 50에가까워야한다는조건때문에 자유도가없는수가됩니다. 따라서자유도는 29가되고, 표본분산을구할때 (편차)²의합을자유도로나누게되는겁니다. (2) 표본분산의기댓값을모분산과일치시키기 위해? (1)이경험적인이유라면 (2)는수학적인이유입니다. 계산으로명확하게 입증되거든요. 표본분산을 { (편차)²의 합 } ÷ (n-1)로 정의하면 다음과같이표현할수있습니다. 이때, 표본분산의기댓값은다음과같이모분산과일치하게됩니다. (유도과정은너~무복잡하기때문에생략) 모집단으로부터크기가같은표본을반복해서임의추출하고, 각각의표본에서표본분산을계산하고, 다시표본분산들의평균을구하면 모분산 뭔가딱맞아떨어지죠? 반면에 표본분산을 { (편차)²의합 } ÷ n으로정의하면 표본분산의 기댓값은다음과같이 모분산 왜 n-1로 나누는지 감이 조금 오죠? ^^ 혹시나해서드리는얘긴데… 위내용이이해가되지않아도아무걱정할필요없구요, 그냥 ‘표본분산구할때는 (편차)²의합을 n-1로나눈다’라는 것만 새겨두시면됩니다 ^^ |