달력

«   2018/06   »
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Statistics Graph
Total694,074
Today19
Yesterday207
4.16세월호참사가족대책협의회
4.16연대
딱 하루

 by eJungHyun

글 보관함

최근 몇 일간 언론에서 보도되는 대선 지지 후보 여론 조사 결과를 보면서 의문이 들어 정리를 해보았다.

참고로 나는 통계학 전공 혹은 부전공도, 수학 관련 어떠한 전문지식도 없는 일반인이다.

그저 서버 개발자라는 직업을 본업으로 하면서

유저 플레이 성향 분석, 데이터 밸런싱 검증, 이벤트 대상자 추출, 매출 지표 분석,  마케팅에 필요한 통계 추출 등을 

약 7년간 꾸준히 함으로써 숫자, 통계 등에 조금 익숙한 사람이다.

통계란 언제나 허점이 있고, 또한 오차 라는 것이 있고, 데이터는 문제가 없더라도 어떻게 해석을 하느냐에 따라

같은 데이터가 매우 다른 영향을 줄 수 있다는 것을 여러 번 경험하였다.


다자 구도로 여론 조사를 한 것은 크게 문제 삼을 이유가 없다 하더라도, 

특정 후보를 양자 구도로 하여 지지도를 조사하는 것에 대해서

나는 분명한 목적을 가지고 일부러 한 여론 조사로 보았다.

왜냐하면, 나는 현재 시점에서 대선 주자의 양자 구도는 현실성이 매우 낮다고 보았기 때문이다.


본격적인 대선 구도에 오르기 전, 여기 저기에서 대선 후보에 대한 여론조사 결과를 집중적으로 보도하기 시작했다.

게다가 이번에는, 특정 여론 조사 기관에서 데이터 표본을 잘못 추출해서 불공정 여론 조사로 심의 조사에 착수한다는 이야기가 나왔다.

지난 주까지만 해도 더불어 민주당의 문재인 후보에 대한 지지율이 오차 범위 밖에서 크게 앞지르고 있었다.

그런데 갑자기 2~3일 사이에 큰 변화가 왔다. 아니, 내가 체감한 것은 고작 하루 정도의 시간 이었다.

현실성이 낮은 상황을 일부러 가정을 해서라도 유리한 여론 조사 데이터를 많이 노출해서 이득을 보려고 하는 것. 

이것은 너무 오차 범위가 크기에 어떻게든 각 후보가 유리한 상황으로 바꾸어 보고자 하는 의도 였을 것이다.


정확하지 않은 데이터를 바탕으로 먼저 언론이 움직여 판을 만들고, 

그 다음에 실제로 해당 언론에 영향을 받아 일부 유권자가 움직이는 이 상황에 화가 난다.

특정 후보를 지지 하기에, 다른 후보에 대한 폄하를 하고자 함이 아니다.

정치라는 것이 다 그런 것이라고 말들 하는데, 정정 당당하지 않은 비열한 행동을 제발 그만들 했으면 한다.


어쨌든, 최근 몇일 간 공개된 여론 조사 결과에 대해 정리를 해보았다.

구체적인 내용을 보기 전에, 여론조사는 무엇인지, 여론 조사에서 사용하는 용어들이 어떤 의미인지 간단하게 정리를 했다.



여론 조사란?


개별적인 면접이나 질문서 따위를 통하여 국가나 사회의 여러 가지 문제에 대한 사회 대중의 공통된 의견을 조사하는 일. (국립국어원)

여론 조사는 유선/무선 전화 번호를 무작위로 추출하여 선정해 통화를 시도한다.

아래 6개의 여론 조사 데이터는 대부분 몇 천개 단위의 국번 별 0000~9999번의 무작위 생성 번호로 전화를 했다고 적혀 있다. 



용어 정리


  • 응답률 : 응답자 / (무응답자 + 응답자) * 100
    전체 대상자 중에서, 비적격 사례와 통화 실패를 제외하고 실제로 정상적으로 통화 연결이 된 사람 중 응답을 한 사람의 비율이다.
    응답률이 얼마이냐에 상관 없이 신뢰할 수 있는 조사일 수 있다고 한다.
  • 비적격 사례 : 결번, 사업체 번호, 팩스, 대상 지역 아님, 할당 초과 등
  • 통화 실패 : 통화중, 부재중, 접촉 안됨
  • 표본 오차 : 실험을 통해서 구한 값과 참값 사이에 발생한 차이가 표본 추출의 과정에서 발생한 차이인 경우의 오차.



데이터 수집 및 정리


데이터는 중앙선거여론조사심의위원회(여심위) 홈페이지에서 수집을 했다. 

(링크 http://www.nesdc.go.kr/portal/bbs/B0000005/list.do?menuNo=200467)

게시물 중 등록번호 3638 ~ 3644 까지의 여론조사 데이터를 기반으로 정리를 했다.

데이터가 많아서, 표본에 대한 정리와 다자 구도에서 지지하는 후보에 대한 데이터만 각 여론조사 기관에 데이터를 정리했다.

선택한 여론조사 기관은 

(주)코리아리서치센터,

한국사회여론연구소(KSOI),

(주)리서치앤리서치,

(주)리서치플러스,

칸타코리아(칸타 퍼블릭),

리얼미터 이렇게 총 6개 이다.

 

 

 

 

실제로 여론 조사 결과지 PDF 에 적혀 있는 숫자를 그대로 엑셀에 입력하여, 결과 데이터와 퍼센트에 문제가 없는지 확인을 했다.

기반이 되는 데이터가 뭔가 의심이 될만 한 내용이 없는지를 찾아보려고 노력했다.



(주)코리아리서치센터


  • 의뢰업체 : KBS. 연합뉴스
  • 조사 기간 : 2017-04-08 10:00 ~ 22:00. 2017-04-09 10:00 ~ 13:00 (총 15시간)
  • 전체 추출 수 : 60,000 개
  • 유/무선 국번 추출 개수 : 2,985 개 / 60개
  • 비적격 비율 : 8.517% (= 5110 / 60000 * 100)
  • 조사 대상 : 2,011 명


  • 응답률 : 15.27%
  • 표본 오차 : 95% 신뢰수준에 ±2.2%
  • 대선 지지 후보


매우 이상한 데이터다. 퍼센트의 합계가 100%가 넘는다. 

raw 데이터 까지 일일이 확인해 본 것은 아니지만, 정식 여론조사 등록 기관에서 

결과 데이터에 이렇게 찾기 쉬운 오류가 있는데도 그대로 여심위에 등록을 했다는 것도 이상하고, 

이상한 데이터를 그대로 언론에서 사용해 보도한 것도 이상하다.

비적격 비율이 다른 여론 조사에 비해 너무 낮은 것이 이상하다. 

무작위로 전화번호를 뽑는데, 어떻게 비적격 비율이 저렇게 낮게 나올 수 있을까.

또한 전체 추출 수도 60,000 개로 가장 낮고, 무선 쪽에서는 국번 추출을 60개에서만 했다. 

다른 기관에서 추출한 개수와 현저하게 차이가 난다.



한국사회여론연구소(KSOI)


  • 의뢰업체 : 한국사회여론연구소(KSOI) 자체조사
  • 조사 기간 : 2017-04-07 10:00 ~ 21:00. 2017-04-08 10:00 ~ 17:00 (총 18시간)
  • 전체 추출 수 : 127,000 개 
  • 유/무선 국번 추출 개수 : 7,539 개 / 3,522개
  • 비적격 비율 : 23.608% (= 29982 / 127000 * 100)
  • 조사 대상 : 1,007


  • 응답률 : 17.36%
  • 표본 오차 : 95% 신뢰수준에 ±3.1%
  • 대선 지지 후보


전반적인 내용 상 크게 이상해 보이는 것은 없었다.



(주)리서치앤리서치


  • 의뢰업체 : MBC, 한국경제신문
  • 조사 기간 : 2017-04-07 10:00 ~ 22:00. 2017-04-08 10:00 ~ 22:00 (총 24시간)
  • 전체 추출 수 : 70,000 개 
  • 유/무선 국번 추출 개수 : 154,657 개 / 15,810개
  • 비적격 비율 : 41.35% (= 28945 / 70000 * 100)
  • 조사 대상 : 1,500


  • 응답률 : 17.44%
  • 표본 오차 : 95% 신뢰수준에 ±2.5%
  • 대선 지지 후보


이 조사 내용은, 홈페이지에 게재한 조사 대상 인원수와, 실제 PDF 파일 내에 응답완료자 수가 다르다. 

조사 대상을 일부러 1500명으로 맞춰서 가중치 적용을 해서 비율을 뽑았다는 의미인가? 

뭔가 내용이 다르니 의심스럽다.



(주)리서치플러스


  • 의뢰업체 : 한겨레 신문
  • 조사 기간 : 2017-04-07 11:00 ~ 21:00. 2017-04-08 10:00 ~ 18:00 (총 18시간)
  • 전체 추출 수 : 106,346 개 
  • 유/무선 국번 추출 개수 : 5,462 개 / 7,700개
  • 비적격 비율 : 16.99% (= 18076 / 106346 * 100)
  • 조사 대상 : 1,023


  • 응답률 : 21.415%
  • 표본 오차 : 95% 신뢰수준에 ±3.1%
  • 대선 지지 후보


이 기관 데이터 역시 비적격 비율이 꽤 낮은 편이다. 20%가 채 되지 않는다. 


칸타코리아(칸타 퍼블릭)


  • 의뢰업체 : 조선 일보
  • 조사 기간 : 2017-04-07 10:30 ~ 21:30. 2017-04-08 10:30 ~ 21:30 (총 22시간)
  • 전체 추출 수 : 108,898 개 
  • 유/무선 국번 추출 개수 : 8,220 개 / 7,493개
  • 비적격 비율 : 73.89% (= 80467 / 108898 * 100)
  • 조사 대상 : 2,300


  • 응답률 : 14.115%
  • 표본 오차 : 95% 신뢰수준에 ±2.0%
  • 대선 지지 후보


이 기관의 데이터는 비적격 비율이 매우 높다. 이 부분은 문제가 안되는 것일까? 

비적격 비율이 낮은 것만 문제가 되고, 높은 것은 문제가 안되는지 이것도 궁금하다.



리얼미터


  • 의뢰업체 : 지방 신문 7개사
  • 조사 기간 : 2017-04-07 10:00 ~ 22:00. 2017-04-08 10:00 ~ 22:00 (총 24시간)
  • 전체 추출 수 : 340,000 개 
  • 유/무선 국번 추출 개수 : 3,550 개 / (ARS 7713 + 전화면접 7709) 개
  • 비적격 비율 :26.014% (= 88448 / 340000 * 100)
  • 조사 대상 : 2,244


  • 응답률 : 9.914%
  • 표본 오차 : 95% 신뢰수준에 ±2.1%
  • 대선 지지 후보


이 기관의 데이터는 전체 추출 수가 다른 기관보다 훨씬 크다. 34만 개이다. 

그 중에 유효한 번호는 15만개이다. 



각 여론 조사 기관의 대선 후보 지지 현조사 결과 정리



모두 다른 기준으로 표본 데이터를 산정했기에 이렇게 6개의 기관에서 진행한 여론 조사 결과를 같은 선상에서 비교하는 것이

그리 합당한 것 같지 않지만, 대략적인 분위기를 파악하기 위해 정리를 해보았다.


여론 조사 지지도 조사 결과 1,2위 간 격차에 따라 기관 분류를 보니, 

4개 기관은 오차 범위 밖으로, 2개 개관은 오차 범위 안으로 격차가 벌어진 것으로 결과가 나왔다.

1, 2위 간 격차가 오차 범위 밖으로 결과가 나온 기관 : (주)코리아리서치센터 ±2.2%, 한국사회여론 연구소(KSOI) ±3.1%, 칸타코리아 ±2.0%, 리얼미터 ±2.1%

1, 2위 간 격차가 오차 범위 안으로 결과가 나온 기관 : (주)리서치앤리서치, (주)리서치플러스


여론 조사 지지도 조사 결과 1, 2 위는 문재인, 안철수 후보 이다.

오차 범위 밖 1위 후보가 문재인인 경우 : 한국사회여론 연구소(KSOI) 3.9% 차이, 칸타코리아 2.2% 차이, 리얼미터 5.4% 차이

오차 범위 밖 1위 후보가 안철수인 경우 : (주)코리아리서치센터 4.1% 차이

오차 범위 안 1위 후보가 문재인인 경우 : (주)리서치앤리서치 0.7% 차이

오차 범위 안 동률 : (주)리서치플러스 0% 차이


오차 범위 내로 격차가 벌어진 결과에 대해서는, 실제로 표심이 어떻게 나타날지 선거 결과가 나와봐야만 알 수 있을 것이다.

어쨌든 지금 결과로 정리를 해본다면, 아래와 같다.

4개의 기관에서 오차 범위 안팍의 격차로 문재인 후보가 지지율 1위.

1개의 기관에서 오차 범위 밖의 격차로 안철수 후보가 지지율 1위.

1개의 기관에서 오차 범위 안으로 두 후보 간의 지지율이 동률.



개인 총평


총 퍼센트의 합이 100%를 넘거나, raw 데이터와 다른 조사 대상 수를 홈페이지에 기입하거나, 비적격 비율이 현저하게 낮거나 혹은 높거나.

6개의 여론조사 기관의 데이터가 조금씩 차이가 있었다.

전문성이 낮은 나에게는 더욱 궁금증을 유발시키고, 의심을 하게 하는 부분이었다.

어느 쪽의 조사이든 다 100% 믿을 수 없고, 어느 정도 오차를 감안하며 해석해야 한다는 것을 알지만, 봐도 봐도 아리송하다.


6개 중 4개의 기관에서 오차 범위 밖의 격차로 문재인 후보가 지지율이 1위 인 상황에서 

1개의 기관에서 오차 범위 안으로 지지율이 같은 것은 가능성이 있어 보인다. 

표본이 랜덤하게 추출되다 보니 그 정도의 차이는 의심의 여지가 없다고 생각한다.

그런데, 어떻게 유난히 1개의 기관은 오차 범위 밖으로 안철수 후보가 지지율이 1위가 나왔을까.

여론 조사라는 것은 맨 처음 살펴 보았듯이 사회 대중의 공통된 의견을 조사하는 것인데, 

특별히 한개의 기관에서만 눈에 띄게 다른 결과가 나온 것이 의심스럽다.


  • 추출수가 6만개, 7만개 수준의 여론 조사도 신뢰를 할 수 있을까?
    적어도 대선/총선 등 사회에 큰 영향을 주는 사건에 대한 조사는 전체 추출수를 훨씬 크게 잡아서 유효 번호를 뽑을 수 있도록 했으면 좋겠다.

  • 리얼미터는 유효 번호가 약 15만개 이다. 가장 많은 표본을 마련해 신뢰도가 높은 여론 조사 결과를 만들어 냈다고 생각한다.
    유효 번호 수가 2만4천개 정도 였던 코리아리서치센터의 여론조사 결과보다 훨씬 신뢰가 간다. 

  • 사람이 하는 일인지라 실수가 있을 수 있다고 생각을 하지만..
    등록된 공식적인 여론조사 기관에서 자잘한 데이터 기입 오차라니, 여론 조사라는 것 자체에 신뢰가 확 떨어진다.

  • 어떻게 몇 일 만에 지지 현황이 이렇게 바뀔 수 있는지.. 참으로 놀랍다.

  • 왜 대다수 언론에서는 이런 데이터들을 비교 분석해서 문제점을 찾아 보도해 주지 않는 것인지 화가 난다.

  • 같은 내용에 대한 여론 조사를 할 때에는, 같은 기준으로 표본을 선정 했으면 한다. 
    예를 들어, 같은 기간 내에 조사를 하는 경우 전체 추출수 n만개. 국번 추출개수 m천개를 통일해서 표본을 선정하는 것이다. 
    이런 기준을 전문가들이 합당하게 정한다면, 조사 결과를 보고 판단하는 사람들도 좀 더 믿고 볼 수 있지 않을까.



글 내용에 공감하시면 하트 (공감버튼)을 눌러 주세요.

읽으신 분들의 작은 표현이 큰 힘이 됩니다.

Name

Password

Homepage

Secret

사랑합니다. 편안히 잠드소서

티스토리 툴바