AI용 어휘 '말뭉치' 태부족..영어 2000억개 vs 한국어 2억개
◆ AI 인프라 외면한 정부 ◆
반면 국내 업체들이 내놓은 인공지능(AI) 어시스턴트는 말귀를 못 알아듣는다는 불만이 많다. 리서치기관 컨슈머인사이트가 지난 4월 전국 14~64세 휴대전화 사용자 1만2580명을 조사한 바에 따르면 AI 스피커 사용 경험자의 이용 만족률은 49%로 낮은 수준에 머물렀다. 불만족 이유는 '음성 명령이 잘 되지 않는다'(50%) '자연스러운 대화가 곤란하다'(41%) '소음을 음성 명령으로 오인한다'(36%) 등 순이었다. 컨슈머인사이트는 "국내 음성인식 스피커는 날씨나 일정 등 단순한 정보를 서툴게 검색하는 수준"이라고 했다.
자연어 처리 기술자는 "언어를 기계가 학습한다는 것은 어느 정도 자료가 쌓여야 의미 있는 결과가 나오기 때문에 음성인식 기술 업력이 짧은 기업들이 딥러닝 기술을 확보해도 인식률이 떨어질 수밖에 없다"고 했다. 이 관계자는 "요즘에는 (걸그룹) '트와이스'라고 하면 걸그룹을 뜻하지만 과거 데이터를 학습한 기계는 '두 배'로 알아듣는다"며 "기 처리 기술은 음성 '인식' 단계에서 완성도가 떨어지기 때문에 제대로 된 서비스를 할 수 없다"고 했다. 예를 들어 세종 말뭉치를 구축한 '국립국어원 언어정보나눔터'에서 '먹었니'를 검색하면 2건만 검색된다. 한 개발자는 "통상 10억어절 이상은 돼야 딥러닝을 적용할 수 있는데 2건으로는 '먹었니'를 기계에 학습시킬 수 없다"고 했다.
'비트코인' '헬조선' 등 최근 사용되는 어휘 또한 찾아볼 수 없다. 이 프로젝트가 2007년 종료된 후 더는 진행되지 않았기 때문이다. 김한샘 연세대 언어정보연구원 교수가 쓴 '말뭉치 구축의 세계 동향과 국어 말뭉치의 현주소'에 따르면 세종 말뭉치는 1990년대가 7000만건, 2000년대가 1800만건으로 절반 이상이 1980년대 이전 자료에 치우쳐 있다.
■ <용어 설명>
▷ 말뭉치 : 자연어 처리 개발에 사용되는 언어 데이터를 모아놓은 덩어리(DB)다. 음성인식 인공지능 서비스는 자연어 처리 과정을 통해 인간 언어를 인식하고 분석한 뒤 다시 인간 언어로 답한다.
[이선희 기자 / 이석희 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- "편의점 업계, 내년부터 심야 할증에 카드결제 거부"
- KT, 3년 내로 5대 플랫폼 매출 비중 30%로 확대
- 수장 바뀌는 LG유플러스. 경영 전략 어떻게 바뀔까
- 마시멜로 실험 오류 가능성..어렸을 때 잘 참으면 훗날 성공?
- [포토] 'Metis' 론칭 행사
- 강경준, 상간남 피소…사랑꾼 이미지 타격 [MK픽] - 스타투데이
- AI가 실시간으로 가격도 바꾼다…아마존·우버 성공 뒤엔 ‘다이내믹 프라이싱’
- 서예지, 12월 29일 데뷔 11년 만에 첫 단독 팬미팅 개최 [공식] - MK스포츠
- 이찬원, 이태원 참사에 "노래 못해요" 했다가 봉변 당했다 - 스타투데이
- 양희은·양희경 자매, 오늘(4일) 모친상 - 스타투데이