"머신러닝 과용이 과학에 위기를 불러올 수도"

15일 AAAS 연례학술대회서, 앨런 美라이스대 교수 경고

“수 많은 과학자들이 '머신러닝'을 데이터를 분석하기 위해 사용하고 있다. 하지만 머신러닝을 통해 얻은 정보들은 오해의 소지가 있거나 완전히 틀린 결과를 내놓고 있어 과학에 위기를 가져오고 있다.”

제네베라 앨런 미국 라이스대 통계학과 교수는 지난 15일(현지시간) 미국 워싱턴DC에서 열린 미국과학진흥협회(AAAS) 연례학술대회에서 이같이 주장했다. 머신러닝 기술을 통해 나온 결과의 정확도나 실험 재현성이 현저히 떨어진다는 것이다.

한국어로 흔히 '기계학습'으로 번역하는 머신러닝은 인공지능과 통계학을 합친 분야로 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하는 기술이다. 다양한 경로로 수집한 데이터를 기반으로 학습을 하고 예측을 수행해 스스로 성능을 끌어올린다. 이런 알고리즘을 연구하고 구축하는 것이 머신러닝의 핵심이다.

머신러닝 기술은 컴퓨터 과학을 포함한 대부분의 분야에서 활용되고 있다. 문자인식, 물체인식, 자동번역, 대화 분석, 음성 인식, 정보 검색, 유전자 분석, 질병 진단, 가상현실, 경로탐색, 무인 자동차 등 쓰이는 분야보다 쓰이지 않는 분야를 찾기가 더 어려울 정도로 다양한 분야에서 응용되고 있다

하지만 앨런 교수는 머신러닝 기술과 빅데이터 기술 사용의 증가가 오히려 위기를 가져온다는 입장이다. 그는 “머신러닝은 부정확하거나 틀린 결과를 내는 경우가 많다"며 "데이터 안에서만 존재하는 패턴을 밝힐 뿐 현실 세계에서 나타는 현상을 밝혀내진 못한다”고 밝혔다. 앨런 교수는 또 “머신러닝 기술은 항상 예측의 결과를 내도록만 설계되고 있다”며 “데이터를 보고 ‘패턴을 찾아내지 못했다’거나 ‘어떤 연관성이 있는지 발견하지 못했다’는 대답을 할 수 없다”고 덧붙였다.

앨런 교수는 현재의 머신러닝의 사용이 최근 과학계가 문제삼고 있는 ‘재현성’이 떨어지고 것과 관련이 있다고 주장했다. 재현성은 실험에서 관측된 사상을 같은 조건하에서 재실험해 동일한 결과를 얻는 정도를 뜻한다. 그는 “모든 생물 의학 관련 실험 중 85%가 재현할 수 없다는 연구결과도 있다”며 "머신러닝 기술의 진전이 없다면 돈과 시간을 버리는 일이 될 것”이라고 밝혔다.

그는 현재 미국 베일러대 약학대 연구팀과 함께 차세대 머신러닝과 통계 시스템을 개발 중이다. 방대한 양의 데이터를 분석해 어떤 종류의 패턴을 발견할뿐 아니라 그 결과가 얼마나 불확실한지와 결과의 재현성을 살펴보는 것이 목표다. 앨런 교수는 “빅데이터를 수집하는데는 시간과 돈이 많이 들지만 그 결과가 틀리다면 그 시간과 돈을 낭비하는 것"이라며 "결과가 얼마나 불확실한지와 재현성을 보여주는 차세대 머신러닝과 통계 시스템을 통해 과학자들의 돈과 시간을 아끼는 것이 목표”라고 밝혔다.

제네베라 앨런 미국 라이스대 통계학과 교수는 지난 15일(현지시간) 미국 워싱턴DC에서 열린 미국과학진흥협회(AAAS) 연례학술대회에서 현재 머신러닝 기술이 가진 문제점을 지적했다. 현재 머신러닝 기술을 통해 분석된 결과가 정확도가 낮고 재현성이 낮다는 주장이다. 라이스대 제공

[고재원 기자 jawon1212@donga.com]

동아사이언스

IT

"머신러닝 과용이 과학에 위기를 불러올 수도"