인공지능용 한국어 말뭉치 155억어절 구축..5년간 175억 지원
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
4차 산업혁명의 기반인 인공지능(AI)의 핵심 중 하나는 사람과 기계의 자유로운 의사소통이다.
이 계획은 기초 언어자원으로 시기·매체·장르별로 다양한 한국어 말뭉치 152억7천만 어절과 구성·형식·분석체계 등이 정제돼 준거가 될 수 있는 표준 말뭉치 1억3천700만 어절을 구축·보급하는 것이 골자다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(서울=연합뉴스) 이웅 기자 = 4차 산업혁명의 기반인 인공지능(AI)의 핵심 중 하나는 사람과 기계의 자유로운 의사소통이다.
컴퓨터가 인간의 말이나 글을 제대로 이해하고 반응하려면 인간이 말하고 쓰는 자연언어를 처리할 수 있는 방대한 언어 데이터베이스가 필요하다.
이러한 언어 데이터베이스를 말뭉치(corpus)라고 한다. 최근 빠르게 보급되는 음성인식 인공지능의 정확도는 이러한 말뭉치가 얼마나 풍부하게 정교하게 구축돼 있느냐에 달려있다.
문화체육관광부와 국립국어원은 한국어 인공지능 기술의 발전을 위해 2018~2022년 총 154억7천만 어절의 말뭉치를 구축하는 국어 정보화사업 계획을 마련했다고 9일 밝혔다.
이를 위해 5년 동안 총 175억원의 예산을 투입하기로 했으며, 우선 내년도 예산 11억5천700만원을 편성했다.
이 계획은 기초 언어자원으로 시기·매체·장르별로 다양한 한국어 말뭉치 152억7천만 어절과 구성·형식·분석체계 등이 정제돼 준거가 될 수 있는 표준 말뭉치 1억3천700만 어절을 구축·보급하는 것이 골자다.
언어처리 성능 평가의 객관적 기준이 될 평가용 말뭉치 6천만 어절과 번역·사전편찬 등에 활용하기 위한 한국어-외국어 대역 말뭉치 4종(몽골어·베트남어·인도네시아어·태국어) 각 10만 어절을 구축·보급하는 내용도 포함됐다.
아울러, 언어자원의 구축·연계·배포 전 과정을 효율적으로 지원하고 통합하기 위한 시스템도 구축하기로 했다.
이번 사업은 문체부와 국립국어원이 1998~2007년 10년간 추진한 '21세기 세종계획'의 후속 사업이다. 1차 세종계획은 총 150억원의 예산을 들여 소설 4천권 분량인 2억 어절의 말뭉치를 구축하고 60만개 어휘를 담은 전자사전과 다양한 언어 정보화 검색 프로그램을 개발하는 성과를 남겼다.
국립국어원 관계자는 "이번 사업을 통해 한국어 언어처리 기술개발을 위한 기반을 다지는 것은 물론, 외국의 왜곡된 한국어 자료 활용을 차단하고 언어자원 공동 구축으로 사회적 비용도 절감할 수 있을 것으로 기대한다"고 말했다.
abullapia@yna.co.kr
- ☞ 드라마 소품 지폐 훔쳐 쓴 20대, 절도 유죄·위폐사용 무죄
- ☞ 소득 5천만원에 집 10채, 빚이 7억…"유동성 줄면 파탄"
- ☞ 사드보복 '무풍지대'… 대중 수출 급증한 물품들은?
- ☞ 'NFL무릎꿇기'에 박차고 나간 美부통령…트럼프 "내가 지시"
- ☞ 한수원 직원 968명에 선정적 광고문자…또 개인정보 유출
▶연합뉴스 앱 지금 바로 다운받기~
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지
- 해커톤? 메이카톤? MICE? 알쏭달쏭 행정 외래어 여전
- '571돌 한글날' 맞아 광화문서 축제..공연·전시·참여마당 풍성
- 디자인에 정당한 대가를..공공디자인 창작보수 기준 연내 도입
- 국내 캐릭터산업 50년..둘리부터 라이언까지 '무럭무럭'
- 계속되는 한한령에 피해 커지는 한류 산업
- 방송작가 표준계약서 연내 도입된다
- MLB닷컴, 이정후 활약상에 "샌프란시스코, 슈퍼스타 찾았다" | 연합뉴스
- 수법부터 동선까지…드러나는 '일가족 살인사건' 계획범죄 정황 | 연합뉴스
- 가수 이하늘, 명예훼손 혐의로 검찰 송치 | 연합뉴스
- [샷!] "무소유 하러 갔다가 풀소유로 돌아왔어요" | 연합뉴스