30년 전, 평가(시험) 분야에서 저명한 학자였던 오스카 K. 브로스는 그 당시를 기점으로 지난 50년을 반추했었다(Buros, 1977). 그는 평가 분야에서 진보가 없었음을 다음과 같이 기술했다. “만약에 당신이 책과 가장 훌륭하다고 생각된 업적을 면밀히 검토한 다음에 현재에 가능한 지능 평가를 검토한다면, 아마도 당신은 지난 50년간에 관련 분야에서 진전이 적었음을 알고 놀랄 것이다. 사실 몇몇 분야에서 우리는 그다지 잘하지 못했다. 전자기기를 이용한 채점, 분석 그리고 시험 성적표 제작을 제외하고는, 우리는 지난 50년간 내세울 만한 대단한 업적이 없다.”(p.10)

평가의 대가인 브로스의 비판 이래로 우리는 시험 분야에 있어 어떠한 주요 진전을 이뤘을까? 분명한 것은 우리는 시험 분야에서 컴퓨터 맞춤형 평가, 문항반응이론, 잠재변수모형 등 컴퓨터 기술이 향상됨에 따라서 관련된 진전을 계속하고 있다는 점이다. 그러나 시험이 어떻게 그리고 어떤 시기에 행해져야 하는 지에 관한 많은 가정과 추론에 있어서는 아주 근소한 변화만이 있었을 뿐이다.

30년 전, 심지어 80년 전 이전에는 현재보다 더 시험이 자주 행해졌기 때문에 궁극적으로 답을 찾아야 할 것은 “우리가 시험을 치르면서 시험의 결과를 통해 더 나은 정보를 얻고 있을까?”라는 것이다. 필자는 아직도 우리가 이 질문에 확실하게 답변할 수 있는지에 대한 확신은 없다.

그렇다면 21세기에 행해질 평가는 어떤 모습이고 어떻게 활용해야만 하는 것일까?

먼저, 우리는 세 개의 R을 평가해야만 한다. 이는 읽기(Reading), 쓰기(Writing) 그리고 수학 (Arithmetic)이다. 현재에도 종종 이 세 가지 스킬을 획득하고 측정하는 것에 대한 중요성을 폄하하고 있지만, 이는 잘못 이해되고 있는 것이다. 분명히 이 세 가지 스킬은 여전히 21세기에 기본적인 내용이다. 또한 책을 접하고 읽을 수 있는 능력이 문화적 이해를 위한 가장 비용 효율적이고 효과적인 방법이다. 필자는 현안에 대해서 위대한 사상가들의 지속되는 영향력에 감탄을 금치 못하고 있다. 예를 들어, 오늘날 지적 재산권과 관련된 많은 토론이 토마스 맥컬리와 토마스 제퍼슨의 에세이에 근간을 두고 있다(J. Boyle, 2009). 대부분의 경우에 이런 위인들은 문화적 인식이나 비판적인 사고를 “누군가를 통해 배웠다”고는 할 수 없다. 오히려 이들은 세 가지 R 기술을 통해 스스로 이를 익혔을 것이다.

이런 기본적이고 중요한 기술들은 모든 교육자들이 학교에서 가르치고자 시도함에도 불구하고 대부분의 경우 이를 가르치고 평가하는 것은 과거 세대와 마찬가지로 비슷한 방법으로 행해지고 있다. 시험은 아직도 형성평가 혹은 총괄평가의 연속상에서 구분되고 시험결과를 토대로 의미 있는 지도를 할 수 있는 정보를 제공하고 있지 못하다.

의미 있는 평가를 위한 첫 번째 시도는 이런 세 가지 R인 읽기, 쓰기, 수학을 수직적이고 발달상의 척도로써 측정하는 것이다. 공통적이며 수직적인 척도는 더 많은 정보와 명확도를 줄 수 있다. 교육의 한 가지 목적은 학생들을 성장하도록 하는 것이고 이 시대에 우리는 학생 개인의 성장을 측정하고 있다. 두 번째 시도는 우리가 학생들의 읽기, 쓰기, 수학 실력을 낮은 수준부터 높은 수준까지 알 수 있다는 것이다. 우리는 또한 이런 수직적인 척도를 따라서 이를 근거로 한 가르침을 줄 수도 있다.

읽기, 쓰기, 수학에 있어서 이런 접근은 렉사일 독서체계를 개발할 수 있는 근간이 되었다.

렉사일 쓰기 지수와 함께 수학능력을 측정하는 퀀타일 수학 지수도 개발하게 되었다. .

이런 지수 체계를 활용함으로써 교육계는 더 많은 도움을 받을 수 있다. 또한 시험평가기관과 출판사들은 책들과 여러 시험평가에 이 척도상으로 평가함으로써 교실에서 가르침을 전하는 선생님들은 시험과 이 결과를 토대로 학생들을 지도할 수 있다.

학생들과 교육상의 여러 자료들을 동일한 척도에 놓고 평가를 함으로써 관련 연구가 결합되어 교육계에 차세대 기술로 평가받는 유용한 지수가 개발되었다(Ericsson, Charness, Feltovich, & Hoffman, 2006). 현재는 5만명 이상의 학생들이 이런 기술을 활용해 공부하고 있다. 전통적인 평가 방법과는 달리 이런 기술들은 각각 동떨어진 다른 시험과 지도에 의존하지 않는다.

이런 새로운 기술들은 다음과 같은 특징과 원리를 갖고 있다.

1. 학생이 지도 과정에도 개입하게 되므로 평가와 지도의 구분이 분명치 않게 된다.

2. 컴퓨터 응용 엔진 기술이 시험 문항 출제와 마찬가지로 학생들의 향후 지도를 위해서도 적용된다. 이 두 가지 기술이 모두 개개인을 위해 맞춤화하게 된다.

3. 평가 기술이 일일 향상도를 확인하고 이는 매해 총괄 평가로 연결된다. 동일한 척도상에 여러 측정 지수와 다양한 평가 지도안이 개인의 진짜 실력 측정을 위해 활용된다. 또한 우리는 단 한 차례의 평가를 통해서가 아닌 일년 동안 여러 차례의 평가를 통해서 학생의 현재 실력과 미래 실력을 예측하게 된다.

4. 시험 문항들은 학생들의 실력에 따라, 안내하는 내용 수준에 따라 즉석에서 만들어진다. 시험 문항은 학생의 실력을 통해 나타나거나 사라지게 될 것이다.

5. 채점과 성적 보고는 학생과 교사 그리고 선생님을 위해 즉각적으로 행해진다. 배움의 경험과 평가 데이터는 현재와 같이 특정한 날짜를 정하고 알려주는 것이 아니라 웹을 통해 24시간 내내 안내된다.

6. 학생에 대한 지속적인 모니터링은 그 학생의 평생을 놓고 측정하게 된다. 학습자의 평생을 놓고 이를 정확히 평가하게 된다(Williamson, 2006).

7. 중요한 것은 이제는 교사 중심이 아닌 학생이 중심이 된다는 것이다. 학생이 중심이 된 접근은 필요한 스킬 획득을 위한 중요한 요소인 맞춤화된 실행, 실시간 수정 피드백, 집중 훈련, 분산 학습, 자기 주도 학습 등으로 학생이 중심이 된 접근을 하게 된다.

이와 같은 일곱 가지 원칙을 채택함으로써, 우리는 전통적인 평가 모델의 틀을 깨는 것이 가능해질 것이다. 여전히 많은 연구가 필요하지만 우리에게 다음 50년은 지난 50년보다는 더 많은 발전을 할 수 있다는 희망이 있다. 만약 평가의 대가였던 브로스가 오늘을 본다면 학생들의 읽기, 쓰기, 수학을 평가하는데 있어서 훨씬 낙관적인 결론을 지었을 것이다.