채점자 내 신뢰도 vs. 채점자 간 신뢰도

2022. 7. 31. 16:34

※ 채점자 내/채점자 간 신뢰도

1. 채점자 내 신뢰도(intra-rater reliability)

채점자 내 신뢰도는 한 채점자가 모든 측정대상에 대하여 계속적으로 일관성 있게 측정하였는지를 나타낸다. 채점자 내 신뢰도인 개인의 일관성이 전제가 되지 않는다면, 채점자 개인의 채점기준이 변화된다는 것을 의미한다. 그러므로 채점자 내 신뢰도는 채점자 간 신뢰도 추정의 기본 전제 조건이 된다.

2. 채점자 간 신뢰도(inter-rater reliability)

1) 정의

'작품이 훌륭하다', '다이빙을 멋지게 했다' 혹은 '글을 잘 썼다' 등의 표현은 행위나 수행(performance)에 대한 주관적 판단으로 보는 사람의 눈에 비추어 판단한 결과로써 사람마다 다를 수 있어 논쟁의 소지가 있다. 어떤 사물과 사건에 대한 평가가 이와 같이 언어적으로 표현될 때 판단기준이 달라 타인과의 의사소통이 원활하지 못한 경우는 물론, 모호성과 막연성 때문에 판단에 따른 실수를 유발할 가능성이 있다. 따라서 경험 과학에서는 타인과의 의사소통을 원활히 하고 언어적 표현에 따른 모호성과 주관성을 배제하기 위하여 보다 객관적인 정보를 제공하려 한다.

한편, 인지적 또는 정의적 행동 특성을 측정하는 단답형의 검사도구는 타당도와 신뢰도 문제로 검사의 질을 분석한다. 그러나 서술형 문항 또는 예체능계의 심동적 영역의 수행 결과에 대한 채점 혹은 평가결과는 객관도에 의하여 분석된다.

그렇다면 객관도란 무엇인가?

객관도(objectivity)란 평정자의 주관적인 편견을 얼마나 배제하였느냐의 문제로 두 가지로 구분할 수 있다.

한 채점자가 다른 채점자와 얼마나 유사하게 평가하였느냐의 문제 → 채점자 간 신뢰도(inter-tater rediability) 혹은 평정자 간 신뢰도
한 채점자가 많은 측정대상에 대하여 계속적으로 일관성 있게 측정하였느냐의 문제 → 채점자 내 신뢰도(intra-rater reliability) 혹은 평정자 내 신뢰도

평가의 결과를 등급으로 부여한다면 평정자 간 신뢰도 그리고 평정자 내 신뢰도란 용어를 사용하고, 평가결과가 점수로 부여된다면 채점자 간 신뢰도(inter-scorer reliability), 그리고 채점자 내 신뢰도(intra-scorer reliability)란 용어를 사용한다. 채점자 간 신뢰도와 채점자 내 신뢰도는 인지적 능력을 측정하는 논술형 고사에서 문항에 점수가 부여되므로 흔히 사용된다. 만약에 관찰에 의한 결과라면 관찰자 간 신뢰도(inter-observer reliability), 그리고 관찰자 내 신뢰도(intra-observer reliability)란 용어를 사용한다.

2) 기본 가정

채점자 내 신뢰도가 채점자 간 신뢰도 추정의 기본 전제조건이 되며, 이외에도 채점자 간 신뢰도 혹은 관찰자 간 신뢰도를 추정하기 위한 기본 가정은 다음과 같다.

첫째, 피험자는 동일한 행위나 같은 문항에 응답하여야 한다.
둘째, 평정자는 상호 독립적이어야 한다.
셋째, 평정자는 동일 대상을 평정하여야 한다.

채점의 공정성을 확보하기 위하여 앞의 세 가정이 충족되어야 한다. 그러나 채점자의 동일 대상을 평정하기가 쉽지 않기 때문에 A 채점자는 전반부의 피험자를, B 채점자는 후반부의 피험자들의 수행 결과를 평정하여 얻은 자료로 평정자 간 신뢰도를 추정하는 방법을 사용하기도 한다. 이러한 관찰도 관찰자 간 신뢰도를 추정하기 위하여 앞의 가정을 충족하여야 한다.

3) 종류
채점자 간 신뢰도를 추정하는 방법은 크게 점수가 양적 변수인지 질적 변수인지에 따라 구분한다. 양적 변수일 경우는 상관 계수법이나 일반화 가능도 이론을 적용하고 질적 변수 혹은 범주 변수일 경우는 일치도 통계와 Cohen의 Kappa 공식을 사용한다.

a. 상관 계수법: 채점 결과가 점수로 부여될 때, 두 채점자가 동일한 집단의 피험자에게 얼마나 유사하게 점수를 부여하였나를 분석하는 방법으로 채점자 간 신뢰도 추정은 단순적률상관계수 공식에 의한다.

b. 일반화 가능도 이론(generalizability): 고전 검사 이론에 의하면 관찰 점수의 분산은 진점수와 오차 점수의 분산으로 구성되어 신뢰도는 진점수의 분산을 관찰 점수의 분산으로 나눈 값을 말한다. 신뢰도 개념에 의하면 오차 점수의 분산을 하나의 덩어리로 더 세분하지 않으나, 일반화 가능도 이론은 오차 점수의 분산을 여러 개의 구성 요소로 세분하여 구성 요소의 크기를 규명하고 각오 차의 원인을 밝히는 특징을 지니고 있다.

일반화 가능도 이론의 목적은 오차 점수 분산의 원인을 밝힐 뿐 아니라, 측정방법, 절차 그리고 목적에 따라 어떤 요인이 어떤 오차 점수와 관계가 있는지를 밝힌다. 그러므로 일반화 가능도 이론이란 고전 검사 이론의 연장으로 중다 오차원을 포함하는 측정모형에 특정 분산분석 절차를 적용하는 것으로 간주할 수 있다(이종성, 1988; Beennan, 1983).

c. Kappa 계수: 일치도 통계는 두 평정자가 일치하게 평정하는 대각선 부분에 우연에 의하여 평정된 피험자가 포함되어 있어 두 평정자 간의 일치도가 과대 추정되는 문제점을 지니고 있다. 이러한 문제를 해결하기 위하여 Cohen(1960)은 우연에 의한 확률을 제거한 Kappa 계수를 제안하였다.

3. 채점자, 채점자 간 신뢰도의 적용

성태제(1989)는 채점자 간 신뢰도 추정으로 채점자료에 대한 신뢰성을 인정하는 절대적 기준은 없으나 채점 결과가 점수로 부여될 때, 상관계수가 .6 이상 그리고 채점 결과가 범주로 부여될 때 일치도 통계는 .85 이상, Kappa 계수는 1.75 이상을 제안하고 있다.

채점 결과에 대한 채점자 간 신뢰도 검증은 필수적이며, 특히, 교육현장에서 평가의 결과는 학습자에게 중요한 영향을 주기 때문에 신뢰로운 결과를 확보하는 일은 매우 중요하다. 예를 들어, 대학 입학전형에서 실시되는 논술고사, 면접, 특히 예체능계 실기고사에 대한 채점 결과를 전형자료로 사용하기 전에 채점자 내, 그리고 채점자 간 신뢰도가 먼저 검증되어야 한다. 다만, 채점자 간 신뢰도를 검증하는 간단한 방법으로 평가대상이 얻은 가장 높은 점수와 가장 낮은 점수를 제외하고 나머지 점수들의 평균을 사용하는 방법은 과학적이지도 이론적이지도 않다.

학교현장뿐 아니라 산업현장에서 고용과 승진을 결정하기 위해서도 평가된 자료의 평가자 내 신뢰도와 평가자 간 신뢰도가 검증되어야 한다. 평가자 내 신뢰도와 평가자 간 신뢰도가 확보되지 않는다면 객관성을 결여하여 여러 가지 문제가 나타날 수 있다. 따라서 교육기관평가, 교사 평가 등 평가자의 주관이 개입되는 평가결과는 평가자 내 신뢰도와 평가자 간 신뢰도가 검증된 후 평가결과가 행정적 기능을 위하여 사용되어야 할 필요가 있다.

출처: 성태제(2007). 현대교육평가. pp409~421. 서울: 학지사.

신뢰도 및 타당도 관련 포스팅은 아래를 참고해주세요.

신뢰도(reliability)

1. 신뢰도(reliability)? 검사도구의 타당성이 입증되었다면 더불어 신뢰성이 고려되어야 한다. 인간의 어떤 속성을 측정할 때마다 같은 점수를 얻는다면, 이 검사도구는 신뢰성이 있다고 한다. AERA,

dobbyisfreeya.tistory.com

타당도(validity)

1. 타당도(validity)? 타당도는 검사도구가 측정하고자 하는 것을 얼마나 충실히 측정하였는가를 의미하며 검사 점수가 검사의 사용 목적에 얼마나 부합하는가의 문제를 갖는다. 즉, 검사도구 목적

dobbyisfreeya.tistory.com