[기자수첩] 여론조사가 틀리는 이유 ②

국내 여론조사에 대한 신뢰도 매우 낮아 신뢰도 떨어뜨리는 거짓 답변과 낮은 응답률 인간공학, 데이터 과학 등 신뢰도 높이기 위한 과학기술 활용 고민해야

여론조사에 대한 ‘신뢰도’로 설문조사를 진행하면 기상청의 일기 예보에 대한 불신보다 훨씬 더 큰 불신을 확인할 수 있다. 일기 예보는 한국 기상청이 틀리더라도 미국, 일본 등의 타국 기상청은 더 맞을 것이라는 일말의 기대, 슈퍼컴퓨터 기반 계산에 대한 막연한 기계적 신뢰를 확인할 수 있지만, 여론조사는 사실상 신뢰도가 0에 수렴한다.

수많은 원인이 있을 수 있겠지만, 설문조사에 응하는 사람들에게서도 원인을 찾을 수 있다

거짓 답변의 위험

대구 지역 60대 남성 A씨는 여론조사 전화가 올 경우, 자동응답조사(ARS)에는 대답하지 않고 사람이 질문할 경우 굉장히 친절하게 대답한다고 인터뷰에 응했다. 출신 지역, 성별, 연령 등의 여러 요소를 조합해 볼 때, 매우 높은 확률로 국민의힘을 지지할 스펙트럼의 소유자이지만, 더불어민주당 계열의 정당을 줄곧 지지해 왔음을 밝혀 질문자에게 혼동을 주는 것에 쾌감을 느낀다고 한다.

실제로도 응답형 설문조사는 답변의 신뢰도를 위해 몇 가지 질문 장치를 포함시켜 이런 문제를 차단하기 위해 노력한다. 예를 들어, 2022년 대선에 대한 설문조사를 진행하면서 2017년과 2012년 대선에서는 각각 어느 후보에게 투표했냐는 질문을 던질 수 있다. 적성 검사 문항들이 여러 차례 반복되는 것도, 한 차례는 거짓 답변을 할 수 있을지 몰라도 계속 자신을 속이기는 어렵다고 생각하기 때문이다.

인간공학(Ergonomics)에서는 거짓이 섞일지 모르는 설문 응답보다 행동에 대한 분석이 더 정확하다고 믿고 스마트폰 사용 방식, 웹서핑 방식 등의 정보를 빅데이터 분석에 활용하기도 한다. 위의 A씨의 경우도 인터넷에서 소비하는 콘텐츠 대부분은 국민의힘 지지자와 동일할 확률이 높기 때문에, 굳이 인력을 투입해 5분, 10분씩 질문하는 대신 콘텐츠 소비 기록만으로 정치성향을 판단할 수 있다고 주장한다.

개인 정보 활용에 대한 제한으로 인해 국내에서는 인간공학계의 고민이 적극적으로 활용되기 어려우나, 설문조사에 의존하는 사회통계학자들은 거짓 답변의 위험을 위의 방식으로 보완할 수 있다는 점에 공감했다. 실제로 사회통계학 연구자들 사이에서 최근 빅데이터 연구가 활발해진 것도 이 때문이다.

낮은 응답률

거짓 답변만큼이나 여론조사기관을 곤혹스럽게 하는 것은 낮은 응답률이다. 보통의 선거 여론조사에 대한 응답률은 최대 10% 미만이다. 5% 미만인 경우도 많다. 정치 콘텐츠를 생산해내는 기자와 정당 관계자가 아니면 선거와 정치 전반에 대한 관심도는 그리 높지 않다. 모 정치인이 자신에게 덮어씌워 지는 음해를 피하고자 해명을 해도 음해에는 좀 더 관심을 가질지언정 해명에는 큰 관심을 가지지 않는 일반적인 여론 동향 정도만 알 수 있다. 설문조사를 진행해도 ‘들어봤다’ 정도일 뿐이다. 자세한 속사정을 알고 그 정치인이 얼마나 억울할지 공감해주는 평범한 유권자를 찾기는 대단히 힘들다.

바꿔 말하면 응답자 위주로 설문조사 결과가 정리되기 때문에 통계학에서 말하는 ‘표본 편향(Sample bias)’이 발생할 가능성이 크다. 선거 당일에 실시되는 출구조사 대비 여론조사의 정확도가 크게 떨어지는 이유 역시 출구조사는 응답률이 매우 높지만, 여론조사는 일반적으로 회피 성향이 강하기 때문에 표본 편향도 함께 일어날 수밖에 없다.

새로운 기법을 시도하는 여론조사

최근 영미권에서는 위의 인간공학 아이디어를 이용해 낮은 응답률의 문제를 해결하려는 시도들이 많다. 경제학계에서는 오래전부터 ‘현시선호이론(Revealed preference theory)’을 바탕으로 실제 선택한 결과물을 바탕으로 사람들의 선호를 판단하자는 고민이 있었고, 상품 선택뿐만 아니라 정치적인 선택에도 마찬가지의 논리를 적용하는 사례가 늘었다. 굳이 설문조사를 하는 것이 아니라, 소비하는 콘텐츠를 바탕으로 거꾸로 선호를 역추적하는 것이다.

최근 부상 중인 데이터 과학(Data Science)에서는 A/B Test를 이용해 둘 중 하나를 선택하는 행동을 보고 A와 B의 차이 중 어느 쪽이 더 소비자들에게 선호되었는지를 추측해내는 방법을 활용한다. 이러한 새로운 기법의 여론조사에서는 질문 대신 각 후보의 상징적인 콘텐츠들을 제시하고 응답자들이 어느 쪽의 콘텐츠를 선택하는지를 통해 선호하는 후보를 역추적해내는 것이다.

여론조사에 대한 불신이 깊어지고 기술력이 발전하면서 다양한 시도들이 나온다. 날씨 예보가 매번 틀린다며 ‘구라청’이라는 비속어가 섞인 명칭까지 듣는 기상청은 새로운 기상 예측 모델을 만들려고 노력한다. 여론조사도 이렇게 불신이 계속 깊어진 상태라면 신문 기사 한 줄에 쓸 용도, 심지어는 여론 조작에 쓰인다는 비난을 피하기 어렵다. 발전된 과학기술을 활용할 수 있다면, 기상청의 그것처럼 좀 더 ‘업그레이드된 모델’을 만들 수 있게 되기를 바란다.

Similar Posts