[백재파의 생각+] 인공지능의 평가, 괜찮을까

부산닷컴 기사퍼가기

동아대 기초교양대학 교수·공모 칼럼니스트

AI 활용 자동채점 사업·연구 활발
오류 책임 등 윤리적 문제도 부상
기술 성숙과 사회적 논의 거쳐야

바야흐로 인공지능(AI)의 시대이다. 학생들은 종이 사전 대신 인공지능 기반의 자동번역기를 활용하고, 챗GPT와 같은 거대 언어모델 기반의 생성형 인공지능 챗봇에 모르는 것을 물어본다. 심지어 인공지능 그 자체가 교육과정 내 하나의 교육 내용으로 자리 잡았다.

인공지능을 교육의 도구 및 내용으로 다루는 데에서 나아가 최근에는 인공지능을 평가에 활용하려는 시도가 있다. 객관식 문항은 애초 기계적 채점이 가능하므로 서술형 문항, 특히 학생들의 작문에 대한 자동채점 방안이 인공지능 활용 평가의 주요 관심사로 떠오르고 있다. 특히 작문에 대한 평가가 중요하게 다루어지는 국어 관련 학문 분야에서 인공지능을 활용한 작문 자동채점에 대한 사업과 연구가 활발하다.

한국교육과정평가원에서는 서술형 글쓰기의 자동채점을 위한 기초 연구를 수행하고 있으며, 국립국어원에서는 인공지능 기술을 활용한 글쓰기 자동채점과 첨삭이 가능한 ‘K-로봇’ 개발을 시작했다. 개발 이후 대규모 글쓰기 진단 체계를 운영하여 일반 국민의 글쓰기 능력 진단과 첨삭 지원, 공공기관과 기업체의 인재 선발에도 활용할 수 있도록 한다는 목표다. 또한 외국어로서의 한국어 교육 보급을 담당하는 세종학당 역시 인공지능 기반의 자동채점을 모의 시행하고 있으며, 완전한 인공지능 기반의 평가를 목표로 삼고 있다.

이처럼 평가에 인공지능을 활용한 자동채점 시스템을 도입하려는 이유는 그것이 갖는 경제성에 기인한다. 현행 대규모 서술형 답안 평가에서는 다수의 채점자가 많은 분량의 답안을 교차 채점해야 하므로 막대한 시간과 비용이 소요된다. 그러나 자동채점 시스템은 일단 구축해 놓기만 한다면 채점에 시간과 비용이 거의 들지 않는다는 장점이 있다. 또한 자동채점은 인간의 채점과 달리 채점자의 주관이 개입하지 않아 일관적 채점이 가능하다는 것도 이점이다.

그럼에도 불구하고 대학 입학과 취업에 직접적인 영향을 미치는 중요한 평가를 인공지능에 맡기는 것이 타당한지에 대해서는 신중한 접근이 필요하다고 판단된다. 그 이유는 최근 자동채점에서 활용되는 딥러닝 기반의 자동채점 시스템의 경우 은닉층을 사용하기 때문에 어떤 변인을 근거로, 어떤 방식으로 계산해 점수를 산출하는지 알 수 없는 이른바 ‘블랙박스’의 문제가 있기 때문이다. 따라서 채점 과정과 결과가 타당한지 따질 수 없으며, 채점 근거가 제공되지 않아 평가 결과를 교육에 환류하는 것이 불가능한 문제가 발생한다.

그렇다면 채점의 변인을 지정하는 지도학습 기반의 자동채점 시스템을 도입하면 되지 않을까. 아쉽게도 현재 자연언어 처리 기술로는 문장 길이, 단어 수, 고빈도 어휘 수 등 단순한 언어적 정보만을 통해 분석이 가능해 작문 채점에서 기대되는 논리적 적합성, 구조의 체계성, 내용의 창의성 등은 채점이 불가능하다. 따라서 현재의 지도학습 기반의 자동채점 시스템이 도입될 경우 교육 현장에서는 글을 논리적이고 체계적으로 쓰는 방법을 교육하기보다는 평가에서 높은 점수를 받을 수 있는 방법, 이를테면 어려운 단어를 글 전체에 흩뿌려 쓰거나 연결어미를 사용해 문장을 늘리는 등 기술적인 방법이 교육될 공산이 크다.

근본적으로 현재의 자동채점 시스템은 알고리즘을 구성할 때 인간 채점 결과를 바탕으로 채점 모형을 설계하므로 채점 알고리즘이 아무리 뛰어나다고 할지라도 인간 채점 결과의 타당도와 신뢰도를 뛰어넘을 수 없다는 한계가 있다. 이는 자동채점 결과는 인간 채점에 비해 성능이 떨어질 수밖에 없어 누군가에게는 반드시 오류가 있는 채점 결과를 제공해야 한다는 것을 의미한다. 여기에서 우리는 자동채점이 가져다주는 경제적 편익을 위해 오류가 있다는 것을 알면서도 잘못된 점수를 부여하는 것이 정당한가, 채점 오류에 대한 책임은 누구에게 있는가와 같은 윤리적 문제에 직면하게 된다.

유럽연합은 이러한 맥락에서 학생 평가 목적의 인공지능 시스템을 고위험 인공지능 규제 대상으로 지정하고 있다. 그러나 우리의 경우 인공지능이라는 시대적 유행에 편승하는 데에만 급급해 인공지능 평가 시스템의 도입에 대한 충분한 검토가 이루어지지 못한 것으로 보인다.

따라서 단기간에 대규모 평가에서 인공지능 평가의 도입만을 목적으로 하기보다 채점자의 인지 부담을 줄여주는 채점 보조 수단으로, 학습자의 자기주도 학습을 도와주는 보조 도구로 인공지능 평가 시스템을 연구하고 개발할 필요가 있다. 이후 기술이 더 발전해 모델이 정교화되고 타당한 채점 근거를 설명할 수 있게 되었을 때 비로소 사회적 논의를 거쳐 실제 평가에 도입해야 할 것이다.


당신을 위한 AI 추천 기사