중간발표
개요
지난 20대 총선은 우리에게 커다란 충격을 안겨주는 사건이었다. 모두가 당시 집권 여당이었던 새누리당의 승리를 점쳤으며 그 누구도 야당인 새정치민주연합이 승리할 것이라는 예상을 전혀 하지 못했다. 그렇게 예상했던 가장 큰 요인은 새정치민주연합이 친노/동교동계/안철수 지지세력이 분열되어 내홍을 겪었으며 결국 주요 인사들이 대거 탈당해 국민의 당을 결성하는 최악의 사태가 발발한데 반해 새누리당은 대통령인 박근혜를 중심으로 강한 결속력을 이루고 있었기 때문이다. 이러한 정치 상황을 반영하듯 총선 직전까지의 여론조사는 여당의 승리를 가리키고 있었다.
문제의식
하지만 그러한 여론조사을 완전히 뒤엎는 결과가 도출되었으며 여기서 우리는 여론조사가 선거의 승패를 예측하는데 있어서 허점이 존재한다는 문제의식을 가질 수 있게 되었다. 20대 총선의 여론조사가 완전히 빗나간 이유로 지목되는 것 중 하나는 20~40대의 여론이 제대로 반영이 되지 않았다는 점을 들 수 있다. 집전화를 통해 주로 낮시간에 여론조사가 이루어져서 20-40대가 여론조사에 응하는데 어려움이 있었다는 것이 문제점으로 지적되고 있다. 이러한 여론조사의 헛점을 메우기 위해 여론조사 뿐만 아니라 다양한 독립변수들을 복합적으로 고려해야 좀 더 정확하게 총선을 예측할 수 있을 것으로 보인다.
고려해야할 독립변수
선거를 예측하기 위한 독립변수를 선정하기 위해 몇가지 선거의 관련한 통설을 가져오고자 한다.
경제적 요인
선거를 예측하는데 가장 중요하게 적용되는 통설 중 하나는 경제적 상위 계층은 보수를 하위계층은 진보를 선호한다는 것이다. 해당 통설의 예시로 가장 많이 제시되는 것은 강남, 분당 등 경제적으로 우세한 지역은 보수 진영에 대한 투표 성향이 강하고 강북 등 상대적으로 경제적 열세에 위치하는 지역은 진보 진영에 대한 투표가 강하다는 것이다. 통상 보수 정당은 친기업적이고 성장위주의 정책을 시행하는데 반해 진보 정당은 복지와 분배 위주의 정책을 펼친다는 점에서 설득력을 가질 수 있는 요인이다. 경제적 요인을 측정할 수 있는 가장 좋은 지표는 1인당 소득과 가구당 소득 등을 제시할 수 있다.
세대적 요인
선거를 예측하는데 중요한 요소로 여겨지는 또 하나의 요소는 연령을 들 수 있다. 20~40대의 젊은 세대는 진보를 선호하고 그 이상의 연령은 보수를 선호한다고 알려져있다. 그것과 연관되는 지표로 투표율을 들 수 있는데 통상적으로 젊은 층은 정치에 대한 관심도나 정치적 결집력이 떨어져 진보를 지지하는 것과는 별개로 투표를 하지 않는 경우가 많다. 그에 따라 진보 진영은 젊은 층의 투표를 최대한 독려해 투표율을 올리는 것이 선거에서 승리하는 전략 중 하나라고 생각하는 경향이 크다. 즉 연령과 관련한 지표로 생각할 수 있는 것은 청년층과 장년/노년층의 인구비율도 중요하지만 투표율도 고려해볼 수 있는 지표라고 할 수 있다.
지역적 요인
한국적인 특색이 있는 요인을 생각해보면 지역적인 요인을 들 수 있을 것이다. 한국은 전통적으로 지역색이 정치에 강하게 반영되는 경향이 있다. 일반적으로 대구/경북 지역은 보수 정당을 지지하는 성향을 보이며 호남은 진보 정당을 지지하는 모습을 보인다.
기타요인
이외에 생각해볼 수 있는 요인으로 삼을 수 있는 것은 학력과 종교, 직업군를 생각해볼 수 있을 것 같아 요인으로 고려할 생각이다.
독립변수
- 소득 2. 학력 3. 연령 4. 투표율 5. 종교 6. 여론조사 7. 직업군 8. 지역을 1차적으로 고려할 수 있는 독립변수로 선정했다.
앞으로의 계획
분석 단위를 전국으로 확대하기 앞서 먼저 성남시와 그 주변지역(용인, 인천 수원 등)에 국한해서 분석을 진행하고자 한다. 성남시는 서울에 비해서는 선거구가 작은 편이지만 분당 등의 부촌과 외곽의 중산층 거주지가 혼재되어 있으며 젊은 층의 유입이 지속적으로 이루어지고 있고 투표성향도 단일하기 보다는 지역에 따라 갈리는 편이다. 따라서 분석결과를 전국 단위로 확대할만한 표본으로서의 가치가 있다고 판단했다.
예측방식
우리조가 하고하 하는 방식은 다음과 같다 먼저 지난 투표 결과를 타겟 데이터로 두고 투표결과에 가장 유의한 변수가 어떤 것이었는지를 랜덤포레스트를 통해 알아본다. 단 타겟 데이터는 개별적인 당으로 두지 않고 진보/보수의 두 가지로 두고 분석을 실시한다. 그리고 각 변수 별로 중요도에 따라 가중치를 부여한 점수를 산정하여 합산한다. 합산한 점수와 기존의 당선 데이터를 다시 비교하여 점수를 조정하고 다른 가중치 (지역변수 등)가 필요한 지역에는 추가해주는 조정을 거친다. 이러한 과정을 통해 전국적인 투표 결과에 표준적으로 적용할 수 있는 점수를 생성한다. 특정 기준 점수 이상이면 진보 이하면 보수라고 하는 방식으로 예측한다.
데이터 수집
성남의 지방자치단체 데이터를 수집한 것과 비슷한 방식으로 지역자치단체 및 정부에서 공개한 데이터를 기본으로 하고 더 필요하다면 구글링을 통해 정보를 수집하고자 한다.