신뢰도(reliability)

2022. 7. 9. 11:00

1. 신뢰도(reliability)?

검사도구의 타당성이 입증되었다면 더불어 신뢰성이 고려되어야 한다. 인간의 어떤 속성을 측정할 때마다 같은 점수를 얻는다면, 이 검사도구는 신뢰성이 있다고 한다. AERA, APA, NCME (1999)에 의하면 신뢰도(reliability)는 피험자들에게 동일한 검사를 반복 실시하였을 때 측정의 일치성이라 정의하였다. 그러므로 신뢰도란 측정하려 하는 것을 얼마나 안정적으로 일관성 있게 측정하였느냐의 문제이며, 검사도구가 정확하게 오차 없이 측정한 정도를 의미하므로 만약 측정 시 오차가 크다면 신뢰도는 낮아진다.

2. 신뢰도 개념 이해

신뢰도를 이해하는 데 가장 기본이 되는 개념은 크게 두 가지로

1) 고전적인 접근방법은 동일한 피험자 집단에게 동일한 검사를 반복 시행하거나, 한 검사와 동형 검사를 실시하여 얻은 두 측정치 간의 상관계수를 추정하는 방법이다. 동일한 검사를 두 번 실시하여 얻은 결과는 검사도구의 안정성을 의미하며, 한 검사와 다른 동형 검사 점수와의 상관계수에 의한 검사의 신뢰도는 두 검사의 유사성을 의미한다. 검사를 두 번 실시하여 검사의 안정성이나 유사성을 추정하기 위하여 두 검사 간의 상관계수를 이용한다.

2) 고전 검사 이론의 기본 가정 중에서 측정의 오차 개념에 의한 것으로 동일 측정 대상을 무한히 반복 측정하였을 때 측정치들이 유사할수록 신뢰도가 높아진다. 즉, 동일한 측정 대상을 동일한 측정도구로 무한히 반복 측정한 결과에 대한 진점수와 오차 점수의 분산에 기초한 방법이다. 관찰 점수에서 진점수가 차지하는 비중이 크고, 오차 점수가 차지하는 부분이 작으면 신뢰도가 높다고 할 수 있듯이, 관찰 점수의 분산에서 진점수 분산이 차지하는 비율이 높고, 오차 점수의 분산이 작다면 이는 일관성 있게 측정한 것으로 간주되어 신뢰도가 높게 된다. 동일 대상을 무한히 반복 측정하였을 때 관찰 점수가 매번 같으면, 측정 시마다 오차 없이 측정하였다 할 수 있지만, 이러한 경우는 사실상 거의 불가능하므로 관찰 점수는 각각 다르게 측정되는 경우가 흔하다. 사물의 특성이나 인간의 능력을 측정하였을 때 진짜 특성이나 진짜 능력에 대한 측정치인 진점수 추정 방법에 대한 의문이 제기될 수 있다.

3. 신뢰도 역사

검사의 신뢰도를 추정하기 위하여 처음 사용된 공식은 Pearson(1896)이 제안한 단순적률 상관계수 공식으로, 단순적률 상관계수는 신뢰도 추정뿐 아니라 사회 현상의 수많은 변수들 간의 관계를 규명하는 데 널리 이용되고 있는 통계이다. 신뢰도의 개념은 Spearman(1904)에 의하여 소개되었으며, 각기 독립적으로 얻어진 두 검사를 구성하는 문항 간 상관들의 평균으로 정의하였다. Speaman(1910)은 신뢰도 계수(reliabilitycoefficient)란 단어를 처음 사용하면서 어떤 사물에 대한 여러 측정치들을 두 부분으로 나누어 계산된 반분 점수 간의 상관계수라 정의하였다.

1913년까지 요인 분석을 제외한 검사 이론의 대부분이 Speaman에 의하여 정립되었으며, 이어 Fisher(1925)에 의해 실험설계를 위한 분산분석의 통계적 방법이 제안되기 전까지 상관계수를 이용한 검사 이론이 발전되었다. 이때의 신뢰도는 동일한 피험자에게 검사를 두 번 실시하여 얻은 두 검사 점수 간의 상관계수로 추정하든가, 한 번 검사를 시행한 후 한 검사를 동형이 되게 두 부분으로 나누어 두 부분 점수 간의 상관계수를 조정하여 신뢰도를 추정하는 방법을 사용하였다. 전자를 재검사 신뢰도라 하고 후자를 반분 검사 신뢰도라 한다.

신뢰도 추정 공식은 Speaman과 Brown(1910)에 의하여 제안되었으며, 초기에는 신뢰도를 추정하는 방법으로 흔히 재검사 신뢰도와 반분 검사 신뢰도 추정 방법을 사용하였다. Kuder와 Richardson(1937)는 신뢰도 계수를 추정하기 위하여 검사의 문항들의 분산과 공분산을 사용하여 공식 KR-20과 KR-21을 제안하였는데, KR-20은 문항 점수들이 맞고 틀리는, 즉 이분 문항으로 주어질 때 신뢰도를 추정하는 공식이고, KR-21은 문항 점수가 연속 점수일 때 신뢰도를 추정하는 공식이다. KR-20과 KR-21은 검사를 두 부분으로 나누지 않아도 신뢰도를 추정할 수 있는 장점이 있기 때문에 널리 사용되었다.

Hoyt(1941)는 이어 분산분석 방법을 이용하여 신뢰도를 추정하는 새로운 공식을 유도하였다. 한 피험자가 여러 다른 문항에 반복적으로 응답하므로 이는 실험설계에서 동일 피험자에게 다른 처치를 반복적으로 가하는 경우와 유사하므로 반복 설계 방법을 이용하였다. Hoyt가 제안한 분산분석 방법에 의하여 신뢰도를 추정하는 방법이 다소 복잡하기는 하지만 문항 점수가 이분 점수이든 연속 점수이든 하나의 공식으로 신뢰도를 추정할 수 있다는 장점이 있다.

1951년에는 Cronbach가 검사의 문항 점수가 이분 점수이든 연속 점수이든 신뢰도를 추정할 수 있는 보다 간단한 공식을 제안하였다. Cronbach의 공식은 KR-20 공식의 변형된 형태로 이분 문항의 분산이 문항에 정답 할 확률과 그렇지 않을 확률의 곱으로 계산됨을 착안하여 신뢰도 계산 공식을 도출하였으며 Cronbach a(알파)라 명명하였다.

4. 신뢰도 종류

1) 재검사 신뢰도(test-retest reliability)

재검사 신뢰도는 동일한 검사를 동일한 피험자 집단에 일정 시간 간격을 두고 두 번 실시하여 얻은 두 검사 점수의 상관계수에 의하여 신뢰도를 추정하는 방법이다. 재검사 신뢰도는 Karl Pearson의 단순적률상관계수 추정 공식에 의하여 산출되며, 이는 검사도구의 안정성에 대한 지표가 된다.

재검사 신뢰도 추정을 위한 검사의 실시 간격은 일반적으로 피험자의 기억이 소멸된다고 여겨지는 2주에서 4주로 설정하나 검사도구의 특성, 측정 내용에 따라, 달라질 수 있다. 재검사 신뢰도는 동일 검사를 동일 집단에게 두 번 실시하여 얻은 두 검사점 수간의 상관계수로 추정한다.

이러한 재검사 신뢰도는 추정방법이 간단하다는 장점이 있는 반면, 시험 간격 설정에 따른 문제(검사도구 문항 특성, 검사 난이도 등의 변화), 검사를 두 번 시행하는 데 따른 문제점(동일한 검사환경, 동기, 태도 만들기 어려움)으로 인한 단점을 갖는다.

2) 동형 검사 신뢰도(parallel-form reliability)

동형 검사 신뢰도를 구하기 위해서는 검사도구의 신뢰도를 검증하기 위하여 두 개의 동형 검사를 제작한 뒤, 동일 피험자 집단에게 검사를 실시해야 한다. 이때 얻은 두 검사 점수의 상관계수로 신뢰도를 추정한다. 동형 검사의 기본 조건은 한 검사에 의한 진점수와 다른 동형 검사에 의한 진점수가 같아야 하고, 한 검사에 의한 오차 점수의 분산과 동형 검사에 의한 오차 점수 분산이 같아야 한다.

동형 검사 신뢰도의 일종으로 유사 검사 신뢰도(altermateform reliability)가 있다. 유사 검사란 한 검사에 의한 진점수와 다른 검사에 의한 진점수는 동일하나, 두 검사의 오차 점수 분산이 동일하지 않은 검사를 말한다. 동형 검사를 제작할 때에는 두 검사가 동일한 내용을 측정하여야 하며, 동일한 형태의 문항과 문항 수, 그리고 동일한 문항 난이도와 문항 변별도를 가져야 한다. 그러므로 동형 검사 제작이 용이하지 않음을 알 수 있다.

동형 검사 신뢰도를 추정하기 위하여 두 개의 동형 검사가 제작되어 동일 피험자에게 검사가 두 번 시행되어야 하며, 두 개의 동형 검사를 동일 집단에 동시에 시행하므로 간격이 문제가 되지 않고, 신뢰도 계수 추정이 쉽다는 장점이 있다. 그러나 동형 검사 제작이 어렵다는 단점을 갖는다.

3) 내적 일관성 신뢰도(internal consistency reliability)

내적 일관성 신뢰도란 검사를 구성하고 있는 부분 검사, 또는 문항 간의 일관성의 정도를 말하며, 검사를 구성하는 부분 검사나 문항들이 측정하고자 하는 내용을 얼마나 (일관성 있게 측정하였느냐 하는 문제이다. 내적 일관성 신뢰도는 검사를 구성하는 두 부분검사 간의 유사성에 의해 추정되는 반문 검사 신뢰도와 문항 간의 측정의 일관성에 의해 추정되는 문항 내적 일관성 신뢰도가 있으며, 문항 내적 일관성을 문항 내적 일치성 혹은 문항 내적 합성이라고도 한다.

반분 검사 신뢰도(split-half reliability)는 한 번 실시한 검사를 두 부분으로 나누어 두 부분검사 점수의 상관계수를 계산한 후, Speaman-Brown 공식에 의하여 추정된다. 반분 검사 신뢰도는 내적 일관성 신뢰도의 한 종류로서 검사를 두 부분 검사로 나누어 두 부분검사 점수에 대한 측정의 유사성을 추정하는 방법이다. 반분 검사 신뢰도는 재검사 신뢰도나 동형 검사 신뢰도를 추정할 때처럼 두 번 검사를 시행하지 않고 신뢰도를 추정할 수 있는 장점을 지니고 있다. 그러나 검사를 양분하는 방법에 따라 반분 검사 신뢰도 계수가 달리 추정된다는 단점이 있다.

출처: 성태제(2007). 현대교육평가. pp341~362. 서울: 학지사.

저작자표시 비영리 변경금지

'교육학 > 교육과정 및 교육평가' 카테고리의 다른 글

채점자 내 신뢰도 vs. 채점자 간 신뢰도 (0)	2022.07.31
타당도(validity) (0)	2022.07.08

도비의 저장소