[한국어와 인공지능]④ 송철의 국립국어원장 "한국어 AI 시대의 기초는 말뭉치..제2의 세종계획 추진해야"

이다비 기자 입력 2016. 10. 9. 10:20 수정 2016. 10. 9. 10:47
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

구글의 메신저 ‘어시스턴트(Assistant)’, 아마존의 스피커 ‘에코(Echo)’, SK텔레콤의 스피커 ‘누구(NUGU)’, 한컴인터프리의 번역 애플리케이션 ‘지니톡(Genie Talk)’... 이들의 공통점은 ‘사람의 말을 알아듣는’ 인공지능(AI)이라는 것이다. 기계가 컴퓨터 프로그램 명령어가 아닌, ‘불 좀 꺼줄래?’와 같은 사람의 일상 언어(자연어)를 이해한다는 뜻이다.

송철의 국립국어원장. 그는 인터뷰에서 국어 정보화 사업의 필요성을 강조했다. / 이다비 기자

사람 말을 알아듣고 사람이 원하는 결과를 제공하는 기계를 만들려면 ‘자연어 처리(Natural Language Processing)’ 기술이 필수적이다. 또 자연어 처리의 질을 높이려면 디지털화한 언어의 데이터베이스가 필요하다. 기계가 방대한 언어 데이터를 통해 인간의 말을 배워야 음성을 인식하고 통역과 번역을 해낼 수 있기 때문이다.

언어 데이터베이스의 기초가 바로 ‘말뭉치(Corpus)’다. 국립국어원은 1998년부터 2007년까지 한국어 정보 처리 기술을 위한 대규모 국어 정보화 사업인 ‘21세기 세종계획(이하 세종계획)’을 통해 말뭉치 약 2억 어절을 구축했다.

국립국어원은 또 지난 10월 5일 개방형 사전 ‘우리말샘’을 개통했다. 우리말샘은 위키피디아처럼 국민 누구나 참여해 한국어 뜻풀이·발음·방언·예문·사진 자료 등 한국어 정보를 더하거나 수정할 수 있는 사용자 참여형 사전이다. 우리말샘에 쌓이는 언어 데이터는 기업이나 민간에서 자유자재로 사용할 수 있다.

한글날을 맞아 송철의(64) 국립국어원장을 지난 7일 만나 말뭉치와 우리말샘, 국어 정보화 사업에 관한 의견을 들었다. 송 원장은 “AI에서 핵심은 사고이며, 사고는 곧 언어에 담아 나타난다는 점에서 국어 정보화 사업이 중요해질 수밖에 없다”며 “국립국어원도 제2의 세종계획을 추진하는 등 국어 정보화 사업에 힘쓸 것이다”고 역설했다. 그는 “국어 정보화 사업 관련 전문 인력이 부족하고, 예산도 충분하지 않다”며 아쉬워하기도 했다.

◆ 언어 빅데이터 ‘말뭉치’... 세종 계획 이후 10년 동안 한국어 말뭉치에 손도 못대

송 원장은 말뭉치를 “언어 빅데이터(Big Data)”라고 표현했다. 말뭉치는 일련의 분석 과정을 거쳐 컴퓨터가 인식할 수 있도록 저장된다. 잘 정리된 저장된 말뭉치가 많을수록 AI의 음성 인식률이 높아지고 자동 통번역 정확도가 올라간다. 말뭉치가 많아야 AI가 스스로 학습(딥러닝)하며 인간의 언어를 충분히 추론하고 이해할 수 있기 때문이다.

말뭉치는 우리 생활 어디에나 존재한다. 신문, 책, 음성에 있는 단어나 문장 등 언어 자료들이 다 말뭉치가 될 수 있다. 문어 자료나 음성자료 등 가공되지 않은 언어 자료를 ‘원시 말뭉치(날 말뭉치)’라고 한다.

원시 말뭉치를 여러 기준으로 분석한 것을 분석 말뭉치라고 한다. 형태소 단위로 쪼개어 분석한 것을 ‘형태분석 말뭉치’, 주어와 목적어, 서술어 등 구문 구조를 분석한 것을 ‘구문분석 말뭉치’라고 한다. 보는 눈과 먹는 눈 등 동형이의어(同形異義語)를 구별하는 ‘의미분석 말뭉치’도 있다. 이처럼 원시 말뭉치를 각각 쓰임과 소재에 따라 분석해 놓은 말뭉치를 ‘분석 말뭉치(Tagged Corpus)’라고 부른다.

분석 말뭉치는 말뭉치 사용 방법에 따라 그 차원이 무궁무진하다. 형태분석, 구문분석, 의미분석 말뭉치 외에도 옛 언어를 구별해내는 ‘역사자료 말뭉치’, 한국어를 배우는 외국인들이 자주 틀리는 말뭉치를 모은 ‘한국어 학습자 말뭉치’, 한국어-영어·한국어-일본어 등 문장을 대응시킨 ‘병렬 말뭉치’도 있다. 특히, 병렬 말뭉치는 컴퓨터로 서로 다른 언어를 번역하는 기계번역에서 주로 쓰인다.

원시 말뭉치와 분석 말뭉치는 모두 언어 데이터로 이용된다. 실제 국립국어원이 세종계획으로 구축한 말뭉치는 학계와 민간 자연어 처리 분야에서 다양하게 활용되고 있다. 세종 말뭉치를 데이터베이스에 저장해 서울대에서 웹 프로그램 형태로 구현한 꼬꼬마 세종 말뭉치 활용 시스템이 대표적이다(이동주, 연정흠 등. 2010). 또 국립국어원은 네이버, 구글 등 언어 처리 기업들에 당시 세종계획 말뭉치를 제공하기도 했다.

말뭉치를 데이터베이스에 구축하는 과정 / 논문 ‘꼬꼬마 : 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구(이동주, 연정흠 등. 2010) 캡쳐

학계와 AI를 개발하는 민간 부문에서는 ‘한국어 말뭉치가 부족하다’는 불만이 나오고 있다. 유태준 마인즈랩 대표는 조선비즈와의 인터뷰에서 한국어 말뭉치 수준에 대한 아쉬움은 드러냈다.

그는 “영어는 5000시간 넘는 음성 말뭉치가 있어서 AI를 학습시키면 굉장히 인식률이 높은데 한국어는 그렇지 않다”고 말했다. 미국의 경우, 프린스턴대가 ‘언어학 데이터 컨소시엄(Linguistic Data Consortium)’을 만들어 연구하는 등 언어 데이터를 다량으로 축적하고 있다.

[한국어와 인공지능]③ 유태준 마인즈랩 대표 "콜센터에 AI 적용한 것이 신의 한수...한국어 음성인식률 95% 달성" <2016.09.20>

국립국어원도 1998년부터 2007년까지의 국어 정보화 사업인 세종계획으로 구축된 말뭉치가 충분하지 않다는 것에 공감하고 있다.

송 원장은 “세종계획이 2007년에 끝났기 때문에, 이때 구축된 말뭉치는 대부분 90년대 초반 자료다”며 “그 뒤 10년 동안 새로운 언어가 생기고 없어지는 등 많은 변화가 있었는데, 이 부분에 대한 자료가 미미하다”고 말했다.

음성 말뭉치도 부족하다. 세종계획이 끝나고 음성 말뭉치는 더 이상 진행되지 않고 있다. 음성인식 스피커 등이 시장에 계속 출시되고 있지만, 근간인 음성 말뭉치는 구축이 잘 안 되고 있는 것이다.

송 원장은 “세종계획 당시 강연을 녹음하고 강연 음성 어절을 파일에 입력했는데 이 부분도 외국과 비교하면 적은 양이다”고 말했다.

말뭉치가 부족한 것에 관해 국립국어원만을 탓할 수는 없다. 말뭉치를 수집·분석하는 데는 상당한 시간과 비용이 드는 데 세종계획 이후로 국립국어원에 할당된 국어 정보화 사업 예산이 많지 않았기 때문이다.

특히 말뭉치 구축 사업에는 전문 인력이 많이 필요하다. 말뭉치의 형태를 분석하거나 의미를 분별하는 기계가 따로 있지만, 오류가 잦아 전문 인력이 하나하나 검토를 하는 과정이 필수다. 현재 국립국어원에서 국어 정보화 사업을 담당하는 인원은 ‘언어 정보과’에 속해있는 10명이 전부다.

◆ 사용자 참여 사전 ‘우리말샘’, 언어 데이터 모두에게 공개

우리말샘 화면 / 우리말샘 홈페이지 캡쳐

지난 10월 5일 개통한 개방형 국어사전인 우리말샘 도 국립국어원의 국어 정보화 사업의 일환이다. 국민 누구나 우리말샘에 참여해 한국어 뜻풀이·발음·방언·예문·사진 자료 등을 더하거나 수정할 수 있다. ‘재능 나눔’·‘케미·‘썸타다·‘지박령’·‘갸르릉’ 등 단어가 우리말샘에 올라오기도 했다.

우리말샘은 동사와 호응하는 조사·예문·유의어 등이 같이 수록돼 있어 일반 신문이나 책에 있는 말뭉치보다 많은 정보를 담고 있다. 우리말샘은 기계가 읽을 수 있는 전자사전 형태로 제공된다.

우리말샘은 2009년에 ‘쉽고 살아 있는 사전 편찬’ 계획을 대통령 보고한 후 2010년부터 7년간 본격적으로 준비해 세상에 나왔다.

언어처리 학자들은 이전부터 기존에 있는 ‘표준국어대사전’을 이용해서도 의미분석 말뭉치를 만들었다. 국립국어원은 우리말샘이 개통됨에 따라 말뭉치 분석이 더 활발하게 일어날 것으로 기대하고 있다. 우리말샘에는 신조어, 유의어 등이 새롭게 추가돼 표준국어대사전보다 말뭉치를 만들고, 분석하는 면에서 활용도가 높기 때문이다.

국립국어원, 누구나 참여하는 개방형 국어사전 '우리말샘' 개통<2016.10.05>

우리말샘 사전에 수록된 정보는 저작권 제한 없이 오픈 API(Application Program Interface)로 제공돼 학계와 기업, 민간에서 누구나 자유롭게 내려받아 활용할 수 있다. 우리말샘에 사용자가 등록·첨삭한 단어는 ‘참여자 제안 정보’로 표시된다. 2주가량 해당 분야 전문가 감수를 거치면 우리말샘에 등록된다. ‘전문가 감수 정보’만 오픈 API로 제공된다. 단어의 신뢰도와 정확도를 높이기 위헤서다.

송 원장은 “저작권 제한 없이 모두에게 우리말샘을 공개하는 만큼 학계나 민간 부문에서 우리말샘을 이용해 언어 관련 상품을 개발하고 언어처리에 유용하게 썼으면 한다”고 말했다. 그는 민간이 우리말샘에 수록된 특정 단어 정보를 추출해 책을 출판하고 관련 애플리케이션(앱)을 만들거나, AI 자연어 처리에도 이용할 수 있다고 덧붙였다.

우리말샘은 우리말 어휘를 총체적으로 수집·정리하고, 국민이 직접 참여해 국민이 가지고 있는 국어 지식을 모은다는 의의가 있다. 송 원장은 “우리말샘 개통은 우리말 정보를 축적하기 위한 초기 단계인 만큼 국민의 적극적인 참여가 필요하다”고 강조했다.

국립국어원은 우리말샘과 함께 ‘한국어-외국어 학습사전’도 개통했다. 한국어-외국어 학습사전은 외국인 학습자를 위해 한국어기초사전의 표제어와 뜻풀이를 외국어로 번역한 사전으로, 영어·러시아어·베트남어·아랍어 등 총 10개국어로 마련됐다.

이 사전에 쓰인 표제어와 뜻풀이 번역 자료는 번역 시스템에서 쓰이는 한국어-외국어가 대응되는 병렬 말뭉치로 볼 수 있다. 송 원장은 이와 관련 예문은 제외하고 표제어와 뜻풀이까지만 번역된 점을 아쉬워했다.

송철의 국립국어원장. / 이다비 기자

그는 “예문까지도 번역이 된다면 병렬 말뭉치가 대량으로 구축돼 통번역 시스템에서 유용하게 쓰일 수 있을 텐데, 그렇지 못해 아쉽다”고 말하기도 했다.

◆ “국어 정보화 사업 필요하다” 제2의 세종계획 구상 중

국립국어원은 현재 국어 정보화 사업인 제2의 세종계획을 구상하고 있다. 국립국어원은 연구 용역에 국어 정보화 사업을 위한 기초 조사를 의뢰해 진행하고 있는 상태다. 국어학계, 정보학 분야, 민간 전문가가 이 연구에 참여·자문하고 있다.

송 원장은 “국립국어원에서는 올해 국내외에서 지금까지 구축된 말뭉치 현황을 파악하고, 학계나 업계에서 어떤 말뭉치들이 얼마나 필요한지에 대한 조사 등을 연구 용역을 통해 진행하고 있다”고 말했다.

국립국어원이 제2의 세종계획을 추진하는 이유는 국립국어원 내에서도 AI에서 기계가 인간의 언어를 이해하는 자연어 처리가 중요하다는 점과 세종계획 이후 국어 정보화 사업이 많이 지연되고 있다는 점에 공감하고 있기 때문이다.

국립국어원은 연구 결과로 말뭉치 구축 사업을 진행할 경우, 인공지능 업계나 학계와 협업할 계획도 하고 있다.

송 원장은 “예산 당국에 국어 정보화 사업이 어떤 의미가 있는지, 말뭉치의 개념이 무엇인지 설명하는 초기 단계부터 쉽지 않다”며 “더욱이 국어 정보화 사업이 언어 데이터를 구축하는 것인 만큼, 한눈에 볼 수 있는 상품·성과가 나지 않아 예산 당국을 설득하기도 어렵다”고 말했다.

국립국어원은 올해로 8년째 ‘국어정보처리 시스템 경진대회’를 열었다.

송 원장은 “국어정보처리 시스템 경진대회를 통해 말뭉치, 사전 등 언어 자원의 활용도를 높이고 국어 정보화 인력을 양성하고 있다”면서 “앞으로 말뭉치 등 국어 정보화 사업을 진행할 때 학계와 민간과 적극적으로 협력할 것이다”고 덧붙였다.

그는 “국어 정보화 사업을 적극적으로 홍보하고 예산 당국과 민간에 이 사업의 필요성을 알리는 게 우리가 해야 할 일”이라고 다시 한 번 힘주어 말했다.

- Copyrights ⓒ 조선비즈 & ChosunBiz.com, 무단 전재 및 재배포 금지 -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?