[과학 오디세이]빅데이터, 만능 아니다

이상욱 | 한양대 철학과 교수·과학철학 입력 2016. 11. 13. 21:12
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[경향신문] 도널드 트럼프의 미국 대통령 선거 승리는 많은 사람에게 충격으로 여겨졌다. 각종 예측 결과에서 압도적 우위를 점했던 힐러리 클린턴이 그토록 많은 표 차이로 패배할 것이라고 예상한 사람은 많지 않았기 때문이다. 물론 미국 대통령 선거 제도의 기묘한 특징 때문에 클린턴이 실제 득표수에서는 앞서고도 선거인단 수에서 뒤진 것이긴 하지만 어쨌든 근소한 차이도 아니고 완패를 당했다는 사실은 이변이었다.

당연히 선거 이후 왜 선거 예측이 틀렸는지를 놓고 여러 설명이 제시되고 있다. 그런데 여기서 우리가 주의해야 할 사실이 하나 있다. 통상적인 확률 해석에 따르자면 클린턴이 높은 확률로 트럼프를 이길 것이라는 예측과 트럼프가 클린턴을 이긴 실제 선거 결과는 모순이 아니라는 점이다. 예를 들어 동전을 던져 앞면이 연속해서 5번 나올 확률은 3% 정도밖에 안된다. 그런데 동전의 앞면이 5번 연속 나오는 일이 벌어졌다고 해서, 이렇게 확률 낮은 사건이 일어나는 게 말이 되느냐고 할 수는 없다.

높은 확률이란 동일한 조건에서 여러 번 시행했을 때 더 많은 비율로 나타난다는 의미일 뿐이다. 동전 앞면이 5번 연속 나올 확률이 3%라는 것은 동전 던지기를 수만번 했을 때, 앞면이 연속해서 5번 나올 비율이 0.03 정도라는 의미다. 미 대선 예측을 이렇게 해석하면 100% 확률로 특정 후보가 승리한다고 예측하지 않는 한 어떤 예측도 ‘틀렸다’고 말할 수 없게 된다. 한 번 선거해서 나타난 어떤 결과도 모두 동등하게 가능한 상황 중 하나이기 때문이다. 이건 좀 이상하다.

여기서는 동전 던지기와 달리 2016년 미 대통령 선거는 수만번 반복할 수 있는 사건이 아니라는 점에 주목해야 한다. 이런 유일무이한 사건에 대해 부여된 확률을 반복 가능한 사건에 부여되는 상대빈도로 해석하는 것 자체가 문제가 된다. 이 확률은 특정 후보의 당선 가능성에 대한 개인이나 기관의 ‘확신의 정도’를 숫자로 표현한 것으로 보는 것이 더 그럴듯해 보인다. 예를 들어 한 여론조사기관이 클린턴이 선거에서 이길 확률을 90%로 예측했는데 트럼프가 대통령이 되었다면, 그 기관이 자신의 예측에 대해 지나치게 확신했다고, 즉 예측이 틀렸다고 볼 수 있다. 아마도 이번 미 대선에서 여론조사기관이 비난받는 이유가 이런 의미에서 ‘틀린’ 예측을 했기 때문일 것이다.

하지만 이렇게 이해한다고 해서 이 ‘틀린’ 확률 예측이 무엇을 의미하는지가 명쾌하게 해명되는 것은 아니다. 선거 전에 미국 유권자 일부에게 각 후보의 당선 확률을 묻고 이것을 평균 내서 당선 확률을 발표한다면, 이는 개인의 ‘주관적 느낌’을 평균 낸 것에 불과하기에 신뢰하기 힘들다. 당연히 선거 예측 기관은 이런 식으로 확률을 계산하지 않는다. 다양한 데이터와 관련 통계 자료, 즉 객관적으로 수집된 다른 확률값에 근거하여 복잡한 방식으로 최종 확률을 계산한다. 그러므로 이렇게 얻어진 확률이 틀렸다는 것은 분명 무언가 구조적인 문제가 있음을 의미한다.

2012년 미국 대선 결과를 정확하게 예측해서 유명해진 네이트 실버는 예측하려는 대상, 예를 들어 유권자의 표심이 실시간으로 유입되는 추가적 정보에 의해 끊임없이 영향을 받는 경우를 ‘움직이는 과녁’에 비유한다. 이 ‘움직이는 과녁’을 명중시키려면 편견 없이 데이터를 수집하고 이를 반영하여 예측을 지속적으로 업데이트하는 것이 중요하다. 핵심은 수많은 데이터에서 진짜 인과관계를 보여주는 ‘신호’를 겉보기 연관관계에 불과하거나 무작위 배경잡음에 해당하는 ‘소음’으로부터 구별하는 일이다. 실버 같은 데이터 과학자들이 이 둘을 구별하기 위해 수많은 ‘휴리스틱스(어림방법)’를 개발해 활용하고 있지만, 엄청난 양의 데이터에서 신호와 소음을 구별하는 일은 여전히 본질적으로 불확실한 작업이다.

그래서 실버는 무조건 많은 데이터만 모으면 모든 문제에 대한 정확한 답을 얻어낼 수 있다는 빅데이터 만능주의자들의 주장에 비판적이다. 아무리 풍부한 데이터가 주어지고 똑똑한 분석가가 이를 분석해도 여전히 누가 대통령이 될지 정확하게 예측하는 일은 동전 던지기의 상대빈도를 구하는 일처럼 간단하지 않다. 개별 분석가가 어떤 가정과 데이터 분석 알고리즘을 활용하는지에 따라 예측이 상당히 달라질 수 있기 때문이다. 실버조차 이번 미 대통령 선거에서 트럼프가 패배할 확률이 높다고 예측했고 결과적으로 그의 2012년 신화는 재현되지 않았다. 빅데이터를 활용하면 모든 사회문제를 단칼에 해결할 수 있다고 큰소리치는 일부 데이터 과학자들이 주목해야 할 대목이다.

<이상욱 | 한양대 철학과 교수·과학철학>

Copyright © 경향신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?