호 이달의 기사 전체보기

인공지능 한국어 논·서술형 자동채점 연구의 현황과 과제

글 박종임 한국교육과정평가원 연구위원

AI 디지털 교과서와 AI 자동채점이 구현하는 ‘맞춤교육’ 


  현재 교육부는 2025년까지 AI 디지털 교과서와 코스웨어를 학교에 도입함으로써 학생 개별 맞춤형 학습을 지원하고, AI 기술을 활용하여 수업과 평가를 혁신하고자 하는 정책을 추진하고 있다. 이 과정에서 하이터치 하이테크(High Touch High Tech, HTHT), 즉 인간 교사가 AI라는 첨단 기술을 활용하여 개별 학생에게 가장 적합한 맞춤형 교육을 제공함으로써 학생 개개인의 긍정적 학습 경험과 잠재력을 이끌어 주는 것을 강조하고 있다. 학생들의 서로 다른 특성을 인간 교사가 모두 고려하기는 어렵지만, AI 기술을 활용하면 학교에서도 학생 각각의 특성을 고려한 맞춤형 학습이 가능하다. 이렇듯 이제는 AI를 교육에 현명하게 활용하면서 과거 일률적·평균적으로 이루어지던 학교 교육은 이제 다양화·개별화를 지향해야 한다. 


  교실에서 학생 맞춤형 교육을 구현하기 위해서는 구체적으로 어떤 기술이 필요할까? 학생의 사전 지식이나 선개념 등을 확인하여 학습 상태를 진단하기 위해서는 ‘평가’가 중요하다. 평가가 선택형이나 단답형 문항으로만 이루어지면 별다른 기술적 어려움 없이도 학생의 응답을 즉각적으로 파악하고 진단할 수 있다. 그러나 평가를 통해서 학생의 학습 상태를 보다 구체적으로 진단하고, 나아가 학생들의 고차원적인 사고 능력을 촉진하기 위해서는 논·서술형 평가가 중요하다. 


  하지만 논·서술형 평가는 그 특성상 인간 교사가 즉각적으로 채점하고 피드백하기가 매우 어렵다. 따라서 AI를 활용하여 학생이 작성한 논·서술형 응답을 직접 채점하거나, 초벌 채점이나 답안 분석을 통해서 인간 교사의 채점을 지원하는 기술이 필요하다. 또한 AI 기술을 활용하여 학생이 작성한 논·서술형 응답을 분석하여 학생이 가지고 있는 오개념을 수정하도록 하거나, 글을 고쳐쓰기 위한 첨삭을 제공하는 등 다양한 형태의 맞춤형 피드백을 지원하는 기술이 필요하다. 



AI 자동채점 연구 현황과 AI 기술의 ‘설명 가능성’


  영어권 자동채점 기술은 1960년대를 기점으로 현재까지 꾸준하게 발전해 왔으나, 한국어 자동채점 기술은 이제 시작 단계라고 할 수 있다. 한국교육과정평가원에서는 노은희 외(2012, 2013, 2014, 2015, 2016)의 연구를 중심으로 단답형과 1문장 수준 서술형 자동채점 시스템을 개발하여 국가수준 학업성취도 평가에 적용한 바 있다. 최근에는 박종임 외(2022, 2023 수행 중)의 연구를 중심으로 국어과 글쓰기 및 수학과 서술형 자동채점을 위한 기초 연구를 수행하고 있다. 그러나 이들 자동채점은 글에 드러나는 키워드나 수량적 특성들을 활용하여 비교적 단순한 평가 요소만을 채점할 수 있다는 점에서 일반적으로 글쓰기 채점에서 기대하는 것과 같은 논리성이나 창의성을 채점하는 것은 한계가 있다. 그러나 향후에는 한 편의 글을 채점하고 피드백함에 있어서 여러 가지 AI 기술이 통합 적용된다면 더욱 깊이 있는 채점과 피드백을 기대해볼 수 있을 것이다.


  최근에는 딥러닝 계열의 AI 기술들에 주목하고 있으나 한국교육과정평가원에서 수행 중인 글쓰기 자동채점 연구는 딥러닝을 제외한 머신러닝의 방법을 우선적으로 고려하고 있다. 그 이유는 AI 기술의 ‘설명 가능성(Explainable)’ 문제 때문이다. 이제 AI 기술은 많은 업무에서 인간의 의사결정을 대체하고 있다. 이에 유럽연합(EU) 등에서는 AI와 관련한 규제를 점차 엄격하게 적용하고 있는데 특히 교육이나 학생평가 목적의 AI 시스템을 고위험 AI 규제 대상으로 지정하고 있다. 이 경우 ‘AI 시스템을 인간이 직접 확인하고 제어할 수 있는가?’, ‘AI의 예측과 판단에 대한 근거를 인간이 파악할 수 있는가?’와 같은 문제의 해결책이 마련되어야 한다. 이에 AI 학습에 사용한 데이터의 신뢰성, 사용한 알고리듬이나 채점자질(Scoring Feature)에 대한 투명성이 매우 중요해지고 있다.


  AI 자동채점 기술을 개발할 때는 일반적으로 데이터를 수집하고, 채점자질을 설계하고, 모델을 학습시키고, 모델 성능을 평가하는 단계를 거치게 된다. 그런데 채점자질을 설계하는 단계에서 머신러닝과 딥러닝의 차이가 있다. 글쓰기 자동채점을 예로 들면, 채점자질은 글의 점수를 예측하는 데에 사용되는 글의 중요한 특징들을 의미한다. 머신러닝은 이러한 특징을 인간 전문가가 직접 설계하고, 딥러닝은 수많은 데이터에서 기계가 필요한 채점자질을 자동으로 산출한다.


  채점자질 설계의 주체에 따라서 AI 모델의 설명 가능성에 차이가 생긴다. 즉, AI 자동채점에서 유용하게 활용되기를 기대하는 채점자질을 인간이 직접 설계하는 머신러닝의 경우, 적어도 어떤 자질이 활용되고 있는지, 어떤 자질들이 점수 예측에 중요하게 활용되었는지를 확인할 수 있다는 점에서 모델의 설명 가능성이 존재한다. 그러나 딥러닝은 채점자질을 기계가 자동으로 선정하고 채점 과정에서 블랙박스와 같은 은닉층(Hidden Layer)을 활용하기 때문에 어떠한 채점자질이 점수 예측에 활용되었는지를 판단하는 것이 거의 불가능한데 이 때문에 자동채점 결과를 교육적으로 해석하고 피드백하는 것에도 제한이 있다.


  따라서 AI 자동채점을 통한 채점 결과를 교육적으로 해석하고 피드백하기 위해서 한국교육과정평가원에서는 머신러닝 계열의 알고리듬을 우선 적용하는 관점에서 한국어 자동채점 방법을 설계하였고, 올해 연구에서는 소규모이긴 하나, 국어과 글쓰기와 수학과 서술형 답안에 대한 시뮬레이션을 진행하면서 향후 후속 연구의 방향을 탐색하고 있다.



AI 자동채점 및 피드백이 가져올 교실의 변화


  현재 연구 중인 한국어 자동채점은 충분한 학습용 데이터가 구축되고 채점모델이 정교화된 이후에는 대단위 평가에서도 활용이 가능하겠으나, 단기적으로는 학생들의 맞춤형 학습 및 교사의 채점 지원을 목적으로 활용하는 것이 적합하다. 높은 정확도를 요구하는 고부담 평가 상황에 바로 적용하기보다는 상대적으로 부담이 낮은 교수·학습 및 채점 지원 서비스를 통해서 지속적으로 데이터를 수집하고 모델을 고도화하면서 자동채점 기술의 안정성을 확보하는 것이 중요하기 때문이다.


  현재는 교실 현장에서 논·서술형 평가를 시행하거나, 학생들의 글쓰기를 반복적으로 학습시키기 위해서는 인간 교사가 글을 채점하고 피드백하는 데에 너무 많은 시간과 노력이 필요하다. 이러한 상황에서 AI 자동채점 및 피드백은 다양한 이점이 있다. 학생 입장에서는 자신의 수준에 맞춰서 글쓰기를 반복적으로 연습하고 즉각적인 피드백을 받을 수 있으며 이를 토대로 자신이 쓴 글을 수정할 수 있는 기회를 더 많이 가질 수 있다. 교사 입장에서도 채점과 피드백에 들이는 업무량을 줄일 수 있고, 자동채점으로 생성된 정보를 활용하여 학생에게 보다 심층적인 피드백을 제공하는 데에 집중할 수 있다.


  물론 현행의 자동채점이 단어 수, 문장 수, 형태소별 사용 빈도, 문장 복잡도, 이독성, 어휘 사용 수준 등 글의 계량적 정보에만 치중해 있다는 비판을 받기는 하나, 이러한 계량적 정보는 기계가 인간보다 빠르고 정확하게 분석할 수 있는 영역이고, 계량적 정보 중심의 피드백을 AI가 먼저 제공해 주면 인간 교사는 AI가 파악하기 어려운 내용 중심의 피드백에 집중할 수 있다. 이처럼 한국어 자동채점 및 피드백 기술이 개발되면 교실 현장에서 글쓰기 학습이나 논·서술형 문항을 활용한 평가가 보다 활성화될 수 있을 것이다. 



AI 한국어 논·서술형 학습용 데이터셋 구축


  한국어 논·서술형 자동채점 기술을 구현하기 위해서는 다양한 분야의 연구가 동시다발적으로 이루어져야 한다. 교육 전문가를 중심으로 다양하고 채점자질을 설계하는 연구도 필요하지만 가장 많은 비용과 노력, 시간을 요구하는 분야는 바로 ‘AI 학습용 데이터 구축’이다. 자동채점 시스템은 기계가 처음부터 스스로 채점하는 방식이 아니다. 


  사람이 채점한 결과를 활용하여 기계가 학습하고, 그 학습 결과를 반영하여 채점모델을 만든 다음, 이에 근거해서 새로운 데이터의 점수를 예측하는 방식이다. 그러므로 자동채점 기술을 개발하기 위해서는 기계가 알고리듬 구축 시 학습할 수 있는 AI 학습용 데이터가 반드시 구축되어야 한다. AI 학습용 데이터는 모든 인공지능 기술 개발의 핵심적인 자원이라고 볼 수 있다. 


  이처럼 AI 학습용 데이터는 자동채점의 시작점이 되므로 매우 정교하고 타당한 과정으로 구축되어야 한다. 따라서 한국어 자동채점 기술을 구현하기 위해서는 무엇보다 한국어 논·서술형 학습용 데이터셋을 구축하는 연구가 필요하다. 특히 교육 분야의 학습용 데이터셋은 그 활용도를 고려할 때 매우 신중하고 전문적으로 구축되어야 한다. 


  이에 교육부나 과학기술정보통신부 등의 유관 부처, 한국교육과정평가원, 한국교육학술정보원, 한국지능정보사회진흥원과 같은 유관 기관과의 협력 체제가 마련될 필요가 있다. 전문성과 신뢰성이 확보된 논·서술형 데이터가 최대한 빠른 시일 내에 구축된다면, 한국어 자동채점 및 피드백 기술이 우리의 교실 현장을 변화시키는 원동력이 될 수 있으리라고 기대한다. 


열람하신 정보에 만족하시나요?