> > 회귀분석(regression) :: 도비의 저장소
반응형

1. 회귀분석(regression)?

하나의 종속변수에 영향을 주는 변수와 변수 중 가장 큰 영향을 미치는 변수가 무엇인지 또는 종속변수를 설명해 줄 수 있는 가장 적합한 모형이 무엇인지를 밝히는 통계적 방법으로 상관계수에 기초한다.

 

회귀분석은 종속변수가 양적 변수이고 독립변수는 양적 혹은 질적 변수일 때 사용이 가능하다. 만약 독립변수가 하나면 단순 회귀분석(simple regression analysis)이라고 하고 독립변수가 다수일 경우에는 중다 회귀분석(multiple regression analysis)이라고 한다. 회귀분석을 사용하기 위하여 충족시켜야 할 조건과 가정은 다음과 같다.

 

2. 회귀분석 기본 가정

  • 첫째, 종속변수는 양적 변수이어야 한다.
  • 둘째, 종속변수는 정규분포 가정을 충족하여야 한다.

중다 회귀분석은 알지 못하는 사회현상을 설명하는 데 널리 사용되는데 예를 들어, 어머니의 유아에 대한 양육태도에 영향을 주는 변수를 밝혀내기 위해서 사용할 수 있다.

 

선행연구를 통하여 연구자는 학력, 직업종류, 자녀수, 수입, 부부 애정 등을 독립변수로 설정하고 각 변수들이 유아에 대한 양육태도에 얼마만큼 영향을 주는지를 밝힐 수 있다. 다섯 개의 변수가 유아 양육태도에 영향을 주는 정도는 결정계수인 R값에 의하여 설명되고 각 독립변수가 종속변수에 영향을 주는 정도는 회귀계수인 B 또는 표준화 회귀계수인에 의하여 설명된다.

 

결정계수는 유아 양육태도의 총 변화량 중 독립변수가 설명한 총변화량의 비율을 말하므로 결정계수 값이 높을수록 독립변수들의 설명력이 높다. 회귀계수는 각 변수가 종속변수에 주는 영향을 말하며 이는 회귀 등식의 기울기에 해당한다. 

 

한편, 일반적으로 회귀계수인 B가 높을수록 각 변수의 영향력은 크다고 볼 수 있으나 각 변수들의 측정척도가 다르므로 쉽게 단언할 수 없다. 독립변수들의 상대적 기여도를 비교하기 위해서는 동일한 척도로 변환한 표준화 회귀계수를 참조한다.

3. 로지스틱 회귀분석(logistic regression)

로지스틱 회귀분석은 회귀분석과 개념적으로 동일하다. 다만, 종속변수가 양적 변수가 아니라 이분 변수라는 점만이 다르다. 종속변수가 양적 변수일 때 종속변수에 영향을 주는 변수를 찾아내는 방법이 회귀분석이며, 로지스틱 회귀분석은 종속변수가 집단을 두 집단으로 나누는 이분 변수일 때 사용하는 통계적 방법이다.

 

이분 변수는 두 범주로 구분되는 변수로 정답/오답, 합격/불합격, 물건 구입 집단/구입하지 않는 집단 등의 경우를 생각할 수 있다. 예를 들어, 자격시험에 합격한 집단과 불합격한 집단에 영향을 주는 독립변수가 무엇인지 그리고 집단 분류를 어떤 변수들이 얼마만큼 설명하고 있는지를 로지스틱 회귀분석으로 설명할 수 있다. 그러므로 로지스틱 회귀분석은 두 집단 판별분석과 유사하다. 자료가 판별분석을 사용하기 위한 기본 가정에 위배될 경우 로지스틱 회귀분석을 사용한다. 

 

1. 로지스틱 회귀분석 사용하는 경우

  • 첫째, 종속변수가 이분 변수다. 즉, 종속변수가 정규분포가 아니라 이항 분포다.
  • 둘째, 종속변수가 정규분포 가정을 충족하지 못한다.
  • 셋째, 두 모집단 간의 등분산 가정을 충족하지 못한다.

로지스틱 회귀분석을 선호하는 이유는 종속변수의 정규분포 가정과 등분산성 가정 충족 여부에 제한을 받지 않으며 회귀분석과 매우 유사하기 때문이다.

 

2. 로지스틱 회귀분석 예

A대학교의 입학사정을 위한 주요 전형요소인 내신 성적, 수능 성적, 논술고사 점수 중 학생들의 합격 여부에 유의한 영향을 미치는 독립변수는 무엇이며 그중에서 가장 많은 영향을 미치는 독립변수는 무엇인지 A대학교 지원자 중 1,000명의 자료를 기초로 분석하고자 한다.

합격여부에 대한 개별 독립변수들의 통계적 유의성 및 상대적 기여도를 분석한 결과는 다음과 같다.

  회귀계수 표준오차 R Wald 자유도 유의확률 Exp(B)
내신 .23 .05 .13 24.11 1 .000 1.26
수능 .09 .01 .29 118.52 1 .000 1.09
논술 .19 .02 .24 79.65 1 .000 1.20
상수 -141.64 18.88   56.30 1 .000 .00

 

내신성적(Wald=24.11, p=. 000)과 수능시험 점수(Wald=118.52, p=. 000), 논술고사 점수(Wald=79.65, p= .000) 모두 유의 수준. 05에서 대입 합격 여부에 유의하게 영향을 미치고 있고, 독립변수들의 상대적 영향력을 나타내는 R값을 살펴보면 세 가지 독립변수 중 수능점수가 가장 많은 영향을 미치는 것으로 나타났다. 회귀식은 다음과 같다.

 

Logit(합격) = -141.64 + .23(내신성적) + .09(수능점수) + .19(논술점수)

 

로지스틱 회귀분석에서 회귀계수(B)는 다른 독립변수 값을 일정하게 하였을 때에 독립변수가 1 단위 증가하면 대학 합격 확률이 합격하지 않을 확률보다 Exp(B)만큼 증가함을 의미한다. 즉, 다른 독립변수들의 점수가 같을 때 독립변수에서 1점 높은 점수를 받은 학생이 대학에 합격할 확률이 합격하지 않을 확률보다 내신은 1.23배, 수능은 1.09배, 논술은 1.19배 정도 높아진다고 예측할 수 있다.

 

 

출처:  성태제, 시기자(2007). 연구방법론, pp332~338. 서울: 학지사.


상관분석(correlation analysis)

 

상관분석(correlation analysis)

※ 관계 분석을 위한 통계방법: 상관분석 상관계수는 Fisher(1929)의 분산분석 방법이 소개되기 전까지 사회현상을 설명하기 위한 통계적 방법으로 많이 사용되었다. 적률 상관계수(Karl Pearson, 1896)

dobbyisfreeya.tistory.com

채점자 내 신뢰도 vs. 채점자 간 신뢰도

 

채점자 내 신뢰도 vs. 채점자 간 신뢰도

※ 채점자 내/채점자 간 신뢰도 1. 채점자 내 신뢰도(intra-rater reliability) 채점자 내 신뢰도는 한 채점자가 모든 측정대상에 대하여 계속적으로 일관성 있게 측정하였는지를 나타낸다. 채점자 내

dobbyisfreeya.tistory.com

 

반응형

+ Recent posts