정치

[인터뷰] 여론조사 '샘플링 왜곡' 논란..어떤 문제인가?

손석희 입력 2017.04.10. 22:49 수정 2017.04.11. 11:18
음성 기사 옵션 조절 레이어
글자 크기 조절 레이어
'샘플링 분야 권위자' 김재광 아이오와주립대 통계학과 교수

[앵커]

말씀드린 대로 지금 김재광 교수가 연결이 돼 있습니까? 김재광 교수님 나와 계십니까?

[김재광/아이오와주립대 교수 : 안녕하세요. 김재광입니다.]

[앵커]

거기 아침 일찍일 텐데 고맙습니다.

[김재광/아이오와주립대 교수 : 괜찮습니다.]

[앵커]

일부 언론사에서 의뢰해서 여론조사 회사에서 조사한 그 내용을 문제제기하셨는데, 우선 그 내용 무슨 문제제기부터인지 말씀해 주셔야 될 것 같은데요. 물론 아까 안지현 기자가 조금 얘기하기는 했습니다마는.

[김재광/아이오와주립대 교수 : 제가 여론조사 심의위원회 홈페이지 나와 있는 공개자료를 검토해 봤는데요. 거기서 보니까 3월과 4월, 동일한 회사에서 동일한 조사를 했는데 다른 방법이 사용되었고 조금 다른 결과가 나왔습니다. 그래서 조금 더 내용을 들여다 보니까 이상한 점이 두 가지 정도 발견이 되었는데요. 첫 번째 포인트는 비적격 사례 비율이 4월 조사에서 매우 낮아졌다는 것입니다. 그게 그래프가 혹시 있는지 모르겠는데 그래프에서 보시면.]

[앵커]

지금 나오고 있습니다.

[김재광/아이오와주립대 교수 : 3월에는 비적격이 60%, 50% 이랬는데요. 그런데 4월에는 갑자기 10% 미만으로 줄어들었거든요. 이게 저는 이상한 게 이게 정말로 RDD, 랜덤하게 뽑혔다면 이게 한 4~50% 나와야지 정상인데, 이게 RDD라고 얘기를 해 놓고서 10% 이하가 나오니까 조금 의심스러운밖에 없었습니다.]

[앵커]

알겠습니다. 제가 아까 소개해 드릴 때 오하이오라고 잘못 말씀드렸는데 아이오와주립대 김재광 교수님입니다.

[김재광/아이오와주립대 교수 : 네, 아이오와주립대입니다.]

[앵커]

샘플링 세계적인 권위자로 알려져 계신 분이기도 하죠.

[김재광/아이오와주립대 교수 : 감사합니다.]

[앵커]

그러니까 다시 잠깐 말씀드리자면 표면상으로는 표본 크기가 2000명, 유선전화 비율이 40%, 응답률이 15%. 나타난 걸로만 보면 아무 문제가 없는데 샘플링이 왜곡됐다고 지적하시는 거잖아요. 그러니까 다시 말하면 굉장히 큰 모집단에서.

[김재광/아이오와주립대 교수 : 그렇습니다.]

[앵커]

모집단으로 표현해야 되는지 모르겠습니다마는, 통계학적으로. 꽤 많은 사람들을 상대로 해서 그중에 응답률을 가지고 다 응답하는 건 아니니까요. 그만큼 여러 사람한테 전화를 해야만 적절한 사람의 표본을 추출해낼 수가 있는데, 지금 말씀하신 것을 제가 그대로 이해한대로 말씀드리자면 전화한 상대가 적다는 얘기잖아요?

[김재광/아이오와주립대 교수 : 더 이상한 게 비적격 사례 비율이 정상보다 많이 낮아졌다는 것도 이상한 부분이었고요. 두 번째로 이상했던 부분은 그 무선전화에서 60개 국번만 걸었다는 것이 참 이상했습니다. 왜냐하면 3월 조사에서는, 그러니까 랜덤하게 국이 1부터 9999까지 하면 랜덤하게 뽑히면 한 8000개 하는 게 맞는 건데, 이게 60개만 뽑았거든요. 그러면 그게 이제 샘플링에서는 집락추출이라는 것을 한 건데요. 집락추출을 할 이유가 전혀 없는 겁니다. 왜냐하면 더 나쁜 거거든요. 그런데 왜 굳이 더 효율이 떨어지는 집락추출을 했을까. 굉장히 의심스러워지기 시작했습니다.]

[앵커]

다시 말하면 보다 랜덤하게 조사범위를 넓혀서 랜덤하게 뽑아낸 것이야말로 그게 조금 더 나은 정확도를 가질 수 있는 것인데 지금 그렇지 않다, 그러면 뭘까요? 그러니까 이건 왜 그런 결과가 나오는 건가요, 이런 행위가 나오는 겁니까. 그러니까 예를 들면 전화를 그만큼 걸어야 되는 것을 줄여서 비용을 줄였다든가 이런 쪽으로 생각해 볼 수도 있습니까?

[김재광/아이오와주립대 교수 : 이게 한 가지 제가 보기에는 조사기간이 너무 짧았습니다. 하루하고 그다음날 2시간인가 3시간밖에 안 되거든요. 그러니까 갑을관계에서 을 입장에서는 그 주어진 데드라인에 빨리 맞춰야 된다는 2000명의 샘플을 빨리 맞춰야 된다는 어떤 프레셔가 올 수 있을 테고, 그것 때문에 좀 무리한 방법을 사용하지 않았을까 하는 그런 합리적인 의심을 해 볼 수가 있습니다.]

[앵커]

알겠습니다. 중앙선관위 여론조사심의위원회가 사실관계 확인을 위해서 해당 여론조사 업체의 데이터를 요청해 놓은 상태입니다. 그렇다면 교수님께서 보시기에는 이건 중앙선관위에서 좀 더 조사해 봐야겠습니다마는 분명히 문제가 발견될 것이다, 이렇게 보고 계신 거죠?

[김재광/아이오와주립대 교수 : 저는 거기서 회사에서 얘기하는 게 유효성 검증 시스템을 통해서 비적격률을 확 낮췄다고 하는 이렇게 표현을 하는 것을 봤는데요. 저는 그게 사실 정체가 뭔지 궁금합니다. 왜냐하면 비적격이라는 게 유선전화에서는 사업체 전화번호나 팩스번호나 그런 것이 부적격이고 무선에서는 그게 할당 초과거든요. 그러니까 연령대별 할당이 초과됐다는 얘기인데 그걸 어떻게 걸어보지도 않고 알 수 있는 건지.]

[앵커]

교수님, 회사 쪽에서 뭐라고 얘기하냐 하면… 저도 회사 쪽 반론을 전달을 해 드려야 되니까. 과거 조사에서 활용하지 않았던 유효성 검증 시스템. 즉 결번을 걸러내는 시스템을 활용했다 이렇게 얘기하고 있습니다. 김 교수님.

[김재광/아이오와주립대 교수 : 그래서 만약에 정말로 그렇다면 그 회사는 그 시스템을 언제 어떤 방식으로 구축을 했으며 거기에 사용되는 알고리즘이 어떤 것인지를 밝혀야 되겠죠, 신뢰를 회복하려면.]

[앵커]

알겠습니다. 그런데 그럼 이건 어떻습니까? 다른 데서 나온 여론조사 결과하고 지금 이 회사에서 내놓은 여론조사 결과하고 아주 의미있는 차이가 있지는 않습니다. 그렇다면 이 회사에 어떤 문제를 제기할 수… 물론 그 과정에서 잘못됐다라는 것을 지금 주장하고 계시지만. 그럼에도 불구하고 대개 결과가 같게 나오는 결과가 이렇게 있습니까?

[김재광/아이오와주립대 교수 : 두 번 틀려서 맞출 수는 있죠.]

[앵커]

그런가요?

[김재광/아이오와주립대 교수 : 글쎄, 제가 데이터를 지금 저는 홈페이지에 나온 결과만 보고서 판단하는 거기 때문에 어렵고, 만약에 저한테 로데이터를 받을 수 있다 그러면 제가 좀 더 판단을 내릴 수 있는데 아마 그것은 여심위에서 잘하실 거라고 생각합니다.]

[앵커]

알겠습니다. 중앙선관위 쪽에 나중에 어떤 결론이 나올지 모르겠습니다마는 지켜봐야 될 것 같고요. 일단 문제제기 차원에서… 그런데 사실 이번 여론조사 결과뿐만 아니라 그 지난번의 선거든 그 전의 선거든 여론조사에 대한 문제제기는 지속적으로 있어왔기 때문에, 거기서 어떤 오류가 발생하면 그만큼 그것은 다른 사람들한테 크게 영향을 끼치게 되는 거라서 그래서 문제제기 차원에서라도 오늘 잠깐 얘기를 들어봤습니다. 아이오와주립대 김재광 교수였습니다. 고맙습니다.

[김재광/아이오와주립대 교수 : 감사합니다.]