한국어로 세상을 잇다, 인문학이 여는 AI 번역의 미래
자율전공학부 이정희 교수, 5년 연속 ‘한국어-외국어 병렬 말뭉치 구축 사업’ 수행
인문학적 통찰로 AI 시대의 새로운 소통 방식 제시
글로벌 시대, 언어의 장벽을 넘는 일은 더 이상 선택이 아니다. 해외 비즈니스는 물론 교육, 문화 교류, 일상 속 소통까지 다양한 언어가 오가는 환경에서 인공지능(AI) 번역 기술은 사회 전반에 깊숙이 자리잡고 있다. 그러나 AI 번역이 항상 매끄러운 결과를 내는 것은 아니다. 때로는 뜻이 엉뚱하게 전달되거나, 맥락이 어긋난 표현이 나오기도 한다. 그 이유는 AI가 ‘배운 만큼’만 번역할 수 있기 때문이다. 더 정확하고 자연스러운 번역을 위해서는 다양한 상황에서 쓰인 문장을 AI가 충분히 학습해야 한다. 이를 위해 필요한 것이 바로 번역의 기준이 되는 문장 자료, ‘말뭉치’다.
이런 배경 속에서 경희는 5년 연속 국립국어원이 주관하는 ‘한국어-외국어 병렬 말뭉치 구축 사업’의 핵심 연구기관으로 참여하며 주목받고 있다. 자율전공학부 이정희 교수가 책임을 맡고 있는 이 사업은 한국어와 다국어 간 번역 데이터를 체계적으로 수집·정제해 AI 학습 기반을 제공하는 대형 프로젝트다. 특히 인문학적 시각을 바탕으로, 언어와 문화의 맥락까지 고려한 고품질 데이터를 구축하며 기술과 인문학의 융합을 통해 사회적 가치 확장에 기여하고 있다.
이정희 교수와 ‘말뭉치’의 인연은 한국어 교재에서 시작됐다. 한국어교육 전공자로 오랫동안 한국어 교재를 개발한 이정희 교수는 교육의 흐름 변화를 포착했다. 그는 “디지털 환경으로 전환 속에서 앞으로 종이보다 데이터 교재가 될 것”이라고 직감했다. 우연한 기회로 언어 데이터의 정리와 가공에 관한 관심을 담은 논문을 발표하였고 국립국어원이 시작한 병렬 말뭉치 구축 사업에 국제한국어교육학회(IAKLE)를 대표하는 연구책임자로 뛰어들어 5년째 사업을 이끌고 있다.
수집부터 감수까지, 말뭉치 구축의 다층적 작업 과정
실제로 말뭉치를 만든다는 것은 어떤 의미일까. 이정희 교수는 말뭉치 사업에 대해 “AI에 가르쳐줄 문장을 하나하나 고르고, 그것이 다른 언어로 어떻게 자연스럽게 전달될지를 고민하고 정제하는 일”이라고 설명한다. 즉, 말뭉치 구축은 단순한 데이터 수집 작업을 넘어서 정제, 번역, 검수, 감리까지 여러 차례의 과정을 거치는 대규모 언어 공정이다.
가장 먼저 이뤄지는 단계는 ‘데이터 수집’이다. 번역의 원천이 될 ‘원시데이터’를 모으는 작업으로, 국립국어원에서 저작권을 확보한 자료를 제공받거나, 필요에 따라 신문 기사, 유튜브 자막 등 다양한 매체에서 데이터를 구매하거나 협조를 받아 확보한다. 이렇게 모인 문장 중, 일상 대화 등 실생활 언어에 가까운 2인 대화 말뭉치가 가장 핵심 자원이 된다.
다음으로는 ‘정제’ 단계가 진행된다. 우선 컴퓨터가 자동으로 중복되거나 의미가 불분명한 문장을 걸러낸다. 너무 짧거나 지나치게 긴 문장, 번역 가치가 떨어지는 표현, 혹은 유사도가 높은 문장은 기계적으로 삭제된다. 이 과정을 통해 전체 데이터의 약 70%가 1차적으로 솎아진다. 하지만 여기서 끝이 아니다. 이후에는 국문과 대학원생을 포함한 전문가들의 손길이 더해진다. 표현의 규범성, 문맥의 적절성, 개인정보 노출 여부, 차별적이거나 혐오적인 언어 사용 여부까지 꼼꼼하게 점검한다.
한글 특유의 띄어쓰기와 중의적 표현은 AI 번역의 정확도를 결정짓는 핵심 요소다. 이정희 교수는 “‘이전 대통령 측은 모든 혐의를 부인했다’와 같은 문장에서 ‘이 전’이 ‘이전’으로 잘못 잘못 붙어 있으면, AI가 ‘이전(以前)’으로 오해할 수 있다”고 설명하며, 띄어쓰기 하나가 문장의 의미를 완전히 바꿔버릴 수 있음을 강조한다. 또한, 한국어는 주어나 목적어를 생략하는 일이 잦고, 한 번 등장한 정보는 반복하지 않는 경향이 있어 문맥 파악이 어렵다. 인간에게는 자연스러운 흐름이지만, AI에게는 맥락을 잃게 만드는 복잡한 함정이다. 이런 문장을 AI가 제대로 이해하도록 구조를 정돈하고 의미를 명확히 하는 것이 연구진의 중요한 역할이다.
정제된 데이터는 이후 AI 언어 전문기업이자 협업 기관인 (주)플리토로 전달되어, 다국어에 능통한 검수원들이 참여하는 크라우드소싱 방식으로 번역된다. 특히 크메르어, 타갈로그어처럼 국내에 고급 사용자 수가 적은 언어의 경우, 해당 언어를 모국어로 쓰는 유학생이나 이주여성 통·번역사 등 다양한 인적 네트워크를 통해 번역과 검수가 이뤄진다. 번역이 끝난 문장은 다시 경희 연구팀으로 돌아와 재검수된다. 단어 선택, 문장 흐름, 문화적 적절성 등을 고려해 타겟 언어권 화자의 입장에서 직접 다시 한번 꼼꼼하게 살펴보는 과정이다. 마지막으로는 ‘감수’ 단계, 즉 표본 검사를 통해 전체 품질을 확인하며, 정확도 99.9% 이상을 목표로 삼는다.
경희 인프라로 구축한 말뭉치, 연구와 교육을 잇다
말뭉치 구축 사업이 더욱 특별한 이유는 이 프로젝트가 ‘경희’를 중심으로 운영되고 있다는 점에 있다. 현재 사업을 이끄는 상주 연구원 13명 중 10명, 보조연구원 16명 중 15명이 경희대 국문과 대학원 재학생 혹은 졸업생으로, 말 그대로 ‘경희 인프라’가 사업의 근간을 이루고 있다. 이정희 교수는 “한국어 교육에 대한 경희의 잠재력을 믿고 시작한 일”이라며 경희의 우수한 한국어 교육과 인재에 대한 자부심을 드러냈다.
학부생부터 대학원생에 이르기까지 다양한 인력으로 꾸려진 연구진은 데이터 수집, 1차 정제, 번역 검수, 감수 등 말뭉치 구축의 전 과정을 실질적으로 담당하며, 언어와 문화의 미묘한 차이까지 꼼꼼히 살펴 데이터 품질 향상에 힘쓰고 있다. 이 교수는 “학생들이 학문적 깊이를 쌓는 동시에 국가적 프로젝트에 참여해 실질적인 현장 경험을 얻는다는 점에서 교육적 의미도 크다”고 덧붙였다.
기술적 인프라를 넘어, 다문화 사회의 ‘소통 인프라’로
말뭉치는 AI 번역 기술을 위한 기술적 인프라를 넘어서, 다문화 사회 속에서의 ‘소통 인프라’를 구축하는 핵심 요소다. 이정희 교수는 “우리 사회가 빠르게 다문화 사회로 전환되고 있지만, 함께 살아갈 준비는 아직 부족한 상황”을 지적하며 “현재는 외국인들이 한국어를 배우는 데 집중되는 경향이 있지만, 말뭉치 사업은 다양한 언어와 문화를 지닌 사람들이 서로 이해하고 소통할 수 있는 토대를 마련하는 일, 한국어를 잘하지 못해 차별받거나 피해를 입는 일이 없게 하는 것”이라고 강조한다.
그는 언어를 단순한 의사소통 수단이 아니라, 문화와 정체성을 담고 있는 복합적 매개체로 바라봐야 한다고 말한다. 따라서 AI 번역 기술이 진정한 소통과 이해를 실현하기 위해서는, 말뭉치 구축 과정에서 언어의 문화적 맥락과 고유한 특성을 섬세하게 반영하는 인문학적 통찰과 접근이 필요하다는 것이다. “언어는 단순한 코드가 아니라, 역사와 사회적 배경을 품고 있는 살아 있는 존재”라는 그의 설명은 기술 중심의 접근만으로는 해결할 수 없는 문제의 본질을 짚어낸다.
결국 AI 번역의 품질은 언어의 맥락을 얼마나 정교하게 반영하느냐에 달려 있다. 이러한 복합적인 문제를 풀기 위해서는 서로 다른 학문과 기술 간의 유기적인 협력과 융합이 필수적이며, 이정희 교수는 그 출발점이 바로 깊이 있는 소통과 상호 이해에 있다고 본다.
기술과 인문학이 함께 여는 미래
궁극적으로 말뭉치 구축 사업은 기술 중심 사회 속에서 인문학의 가치와 역할을 다시금 비추는 계기가 된다. 급속히 발전하는 AI 시대에 인문학적 접근 없이는 기술이 인간의 삶에 깊이 뿌리내리기 어렵다는 현실을 보여주기 때문이다. 이 교수는 “기술만 앞세울 경우 언어와 문화, 인간에 대한 이해는 소외될 수밖에 없다”며 “말뭉치 구축 프로젝트는 인문학과 AI 기술이 만나 보다 풍부하고 의미 있는 미래를 함께 그려가는 좋은 본보기”라고 평가했다.
현재까지 구축된 병렬 말뭉치는 베트남어, 인도네시아어, 태국어, 인도 힌디어, 캄보디아 크메르어, 필리핀어, 러시아어, 우즈베크어로 문장으로는 약 404만 문장이며 어절 수로는 4,100만 어절에 이른다. 언어 전문가가 많지 않아 구축하기 어려운 저자원 언어의 병렬말뭉치는 산업계에서 가치가 크다. 이 방대한 데이터는 국립국어원이 중앙에서 관리하며, 국내외 다양한 AI 연구기관과 기업에 제공되어 한국어 기반 인공지능 번역 기술 발전을 견인하고 있다. 데이터 구축이 본격화되면서 사업의 규모 역시 점차 확대되고 있다. 1차 사업은 37억 원의 예산으로 시작되었으며, 5차 사업인 올해에는 42억 6천만 원을 수주했다. 이는 인문학 기반 사업 중에서도 상당한 규모의 예산으로 그간의 성과와 가능성이 높게 평가받은 결과다.
최근 국립국어원과 경희 연구팀의 우수한 성과를 인정받아 사업 연장을 준비하고 있으며, 텍스트를 넘어 음성, 이미지 등의 멀티모달 방식의 데이터 구축도 고민 중이다. 이는 다양한 문화권의 언어 데이터를 확보해 AI 번역의 정확성과 범용성을 높이기 위한 전략이다. 이정희 교수는 “AI가 언어의 미묘한 뉘앙스와 문화적 맥락까지 이해할 수 있도록 고품질 말뭉치 구축은 앞으로도 계속돼야 한다”며 “한국어와 한국 문화의 고유한 특성을 반영한 데이터 구축을 통해 데이터 주권을 지키고 한국형 AI 기술 발전에 지속적으로 기여할 것”이라고 밝혔다.
글 정예솔 wg1129@khu.ac.kr
사진 정병성 pr@khu.ac.kr
ⓒ 경희대학교 커뮤니케이션센터 communication@khu.ac.kr