Presentation on theme: "기초통계학 제 7장 연관성 분석 1. 상관분석 2. 교차분석"— Presentation transcript: 1 기초통계학 제 7장 연관성 분석 1. 상관분석 2.
교차분석
2 연관성 분석 연관성분석은 2개의 변수가 독립적인가 아니면 이들 간에 어떤 연관성이 있는가를 분석하는 방법이다.
3 상관분석(Correlation Analysis)
4
산점도란 점들로 표시된 통계 그래프의 일종이다 예를 들어, 키와 몸무게의 관계에 대한 조사 5 6 상관분석(Correlation Analysis)
7 상관분석(Correlation Analysis) 8 상관분석(Correlation
Analysis)
9 공분산을 이용한 상관관계 두 변수 간의 공통된 분포를 나타내는 분상을 공분산이라 하며, 이러한 공분산은 관측치들이 평균으로부터 산포되어 있는 정도를 나타내는 값으로 두 변수 간의 선형적 연관성을 나타내는 대표적인 지표가 된다. 공분산이란 기본적으로 하나의 변수가 변함에 따라 다른 변수가 어떤 방향으로 얼마나 변화하는가를 보여주는 도구이다. 그런데 표본크기가 증가할수록∑(Xi – X바)(Yi – Y바)의 값도 커지므로 이 값을 표본의 크기 N으로 나누어서 표본의
크기에 영향을 받지 않는 두 변수의 동반변화폭을 알려주는 도구가 바로 공분산이다. 공분산(=COV xy)= ∑(Xi의 편차)(Yi의 편차)(표본크기 -1) = ∑(Xi – X바)(Yi – Y바) / (N-1) 10 공분산을 이용한 상관관계 일반적으로 분산은 하나의 변수에 대하여 측정한 관측치가 변수의 평균으로부터 떨어져 있는 정도를 나타내는 편차를 제곱한 값의 평균이다.
이와 대조적으로 공분산은 하나가 아닌 2개의 변수값을 동시에 갖는 관측치의 각 변수에 대한 평균과의 편차를 구한 다음 이들을 서로 곱한 편차곱의 평균이다. 공분산이 양수로서 매우 클 경우 두 변수는 양(+)의 선형관계가 있고, 반대로 음수로서 매우 작을 경우 두 변수는 음(-)의 선형관계가 있다. 피어슨 상관계수는 두 변수의 표준화된 편차곱의 평균으로 구한 상관계수를 뜻한다. 측정단위에 따라 변하지 않는 두 변수 간의 선형관계를 파악할 수 있는 표준화된 공분산을 도출 할 수 있는데, 이를 상관계수라고 한다. 공분산이 클수록 표준화된 공분산인 상관 계수도 커지고, 반대로 공분산이 작을수록 상관계수도 작아진다.
11 공분산을 이용한 상관관계 상관계수는 -1에서 +1 사이의 값을 가지며, 부호에 관계없이 상관계수의 절대값 크기가 변수들 간의 연관성 정도를 판단하는 기준이 된다. 상관계수의 절대값이 클수록 상관관계가 강하다고 해석된다. 일반적으로 사회과학분야에서 설문으로 수집된 자료의 경우에는 상관계수값이 0.3이상이 되어야만 변수들 간에 상관관계가 존재한다고 평가한다. 등간 혹은 비율척도로 측정된 현상들간의 상관관계분석에는 피어슨이 개발한 피어슨
상관계수가 사용되고 있는데, 일반적으로 상관계수라고 할 때는 피어슨 상관계수를 지칭한다. 즉, 표본의 크기가 30 이상인 경우에는 등간척도 이상으로 측정된 두 변수가 정규분포를 따르게 되므로 피어슨 상관계수를 구해서 두 변수간의 상관관계를 판단할 수 있게 된다. 12 공분산을 이용한 상관관계 분산과 공분산은 자료의 통계분석에 있어서 매우 중요한 도구이다. 이러한 이유는 크게 두 가지로 요약할 수 있다. 첫째, 분산과
공분산은 현상(변수)의 변화폭 혹은 현상(변수)들간의 관계를 요약해 준다. 사회과학연구의 대부분은 사실 현상들간의 공통변화여부 및 변화의 폭을 분석하는 것이다. 둘째, 분산과 공분산은 많은 통계분석기법의 척추와 같은 역할을 수행하고 있다. 이를테면 분산분석이란 기본적으로 분산의 원인을 분석하는 기법이고, 요인분석이란 변수간의 공분산을 분석하는 것이다. 13 서열척도에 의한 상관관계 서열척도로 측정된 변수 간의
상관관계는 스피어만의 서열상관계수나 켄달의 타우(Kendall’s Tau)기법으로 산출하는 서열상관계수를 이용하여 분석할 수 있다. 서열척도로 측정된 결과인 순위를 표시하는 수는 가감승제의 의미가 없는수이다. 스피어만의 서열상관계수는 관심대상이 되는 개별 구성원이나 개체들을 두개의 서로 다른 특성이나 관점에 대해 평가하여 순위를 매긴 순위변수들간의 선형관계를 나타내는 계수이며, 서열척도로 측정된 두 개의 변수들간의 상관관계를 구하는 방법이다. 스피어만 서열상관계수를 계산하기 위해 두 변수의 서열의 차를 구하는 것은 서열의 차이 자체를 이용하려는 목적에서 진행되는 것이 아니다. 서열척도는 가감승제가 의미가 없기 때문에 이러한 차이정보 자체는 실질적인 의미가 없다. 다만 이러한 차이정보를 가공해서 서열상관계수를 구하는 것이다.
14 서열척도에 의한 상관관계 스피어만 서열상관계수는 서열척도로 측정된 두 개의 변수들간에 존재하는 상관관계를 분석하는 기능을 수행하지만, 서열척도로 측정된 3개 이상의 변수들간의 상관관계를 파악하는 데에는 부적합하게 된다. 켄달의 일치계수는 서열변수로 측정된 3개 이상의 변수들, 즉n개의 변수들간의 존재하는 상관관계를 파악하는데 사용된다. 그런데 켄달의 일치계수를 계산하는 경우에는 스피어만 서열상관계수의 계산원리와 같이 변수간 서열의 차이를 이용하는 것이 아니라, 변수간의 서열의 합을 이용한다. 켄달의 일치계수는 부(-)의 값을 갖지
않는다. 물론 켄달은 두 개의 서열변수간의 상관관계를 계산해 내는 방법도 개발했는데 이를 켄달의 서열상관계수 혹은 켄달 타우라고 한다.
15 교차분석 범주형 자료 (명목 혹은 순서척도)인 두 개 혹은 그 이상의 변수에 대한 변수들의 관련성을 알아보기 위해, 결합분포를 나타내는 분할표를 작성함으로써 변수 상호 간의 독립성과 관련성 존재 여부를 분석하는 것을 교차분석이라고 한다. 또한 교차분석에 사용되는 변수는 변수값이 10미만이고 순서척도이어야 합니다. 비율척도인 경우는'코딩변경'을 해서 사용해야 한다. 예를들면 연령인 경우 20세 미만을 1, 30세 미만을 2등의 순서척도로 바꾸어야 한다.
16 교차분석 예컨대 성별(1. 남자, 2.여자), 학력(1. 10대 ,2. 20대 ,3. 30대, 4. 40대)
17 요점 정리 연관성분석 은 2개의 변수가 독립적인가 아니면 이들 간에 어떤 연관성이 있는가를 분석하는 방법이다. 연관성분석은 척도의 변수에 따라서 상관분석과 교차분석으로 구분한다. 상관분석을 통해서 등간이나 비율철도로 측정된 변수의 연관성 정도를 파악한다. 공분산이란 동시에 2개의 변수값들을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느 정도 산포되어 있는가를 나타내는 지표이다. 상관계수의 종류는 등간척도 이상으로 측정된 두 변수들간의 상관관계를 측정하는 데 사용되는 피어슨
상관계수와 서열척도로 측정된 두 변수들간의 상관관계를 측정하는데 사용되는 스피어만 상관 계수로 나누어진다. 교차 분석은 명목척도나 서열척도로 측정된 범주형 변수간의 상호 연관성을 알아보기 위한 분석방법이다. |