ビッグデータでの議席数予測は正しかったか?

衆議院選挙は予想通り、自民党・公明党の圧勝でした。326議席という数は今までない圧倒的なものとなっています。

衆院選、自公が3分の2を維持 326議席を獲得

この議席数を事前に予測しようとヤフーがビッグデータによる議席数予測を行ったことは記憶にあたらしいと思います。

ビッグデータが導き出した第47回衆院選の議席数予測

この記事が出た時は、自民党だけで300議席は超えるという話になりました。実際の結果はどうだったのでしょうか。

予想していた議席数は正しかったのか?

こちらが予想されていた数字。今回の投票率はか52%とかなり低かったので「投票率50%台前半」のデータで見てみます。

投票率52%前後、戦後最低か…読売新聞社推計

http://docs.yahoo.co.jp/info/bigdata/election/2014/02/

http://docs.yahoo.co.jp/info/bigdata/election/2014/02/

http://docs.yahoo.co.jp/info/bigdata/election/2014/02/

http://docs.yahoo.co.jp/info/bigdata/election/2014/02/

http://docs.yahoo.co.jp/info/bigdata/election/2014/02/

http://docs.yahoo.co.jp/info/bigdata/election/2014/02/

そしてこちらが昨日の結果。

http://www.asahi.com/senkyo/sousenkyo47/

http://www.asahi.com/senkyo/sousenkyo47/

「かなり差があるんじゃない?」

初見でそう思っちゃいました。自民党の数字が大きくて分かりやすいのでピックアップしてみます。

  • 小選挙区:予想は「258」で実際は「223」
  • 比例区:予想は「58」で実際は「68」

小選挙区の差がかなり大きいですね。この差はなぜ出てきたのか?少し考えてみました。

街頭演説がデータされれば予測精度はきっと高くなる

その分、民主党の数が予想よりも増えています。理由はこれに尽きるかなと思っています。

  • インターネット=世間というわけではない
  • 「世の中の声」をビッグデータにうまく反映させるのは難しい

ビッグデータはあくまでインターネット上のデータを統計・解析するものなので、そこに無いデータについての予想は苦手。というよりできません。

インターネットを使った選挙が解禁になって少しづつ広まってはいるものの、まだまだ使わない人がたくさんいるわけで、そういう人達の行動が大方のインターネット利用者とは違った動きをとっているということに他ならないと思うのですが、ビッグデータの課題はそういう人達のデータをどのようにして集めてくるかという点になってきそうです。

このあたりはインターネット普及率が上がり、より細かな分析ができるようになると変わってくるかもしれません。インターネット利用率について総務省のデータを引用。

平成23年末のインターネット利用者数3は、平成22年末より148万人増加して9,610万人(前年比1.6%増)、人口普及率は79.1%(前年差0.9ポイント増)となった(図表4-3-1-2)。また、端末別インターネット利用状況をみると、「自宅のパソコン」が62.6%と最も多く、次いで「携帯電話」(52.1%)、「自宅以外のパソコン」(39.3%)となっており、スマートフォンは16.2%となっている(図表4-3-1-3)。

この利用率が100%になって、情報収集源がテレビ・新聞からインターネットに変わってくるとかなり細かな予想ができそうです。今までAさんを応援していたけれど、街頭演説を聞いてBさんを応援しようと思うようになったら、Bさんのことを詳しく調べますよね。

街頭演説演説が行われた日時と場所・その場にいた人・年齢といったデータが全て取れるようになってくると、全ての行動結果が履歴として追うことができるようになります。そうなると今よりもかなり高い精度で議席数の予測ができるようになりますね。

近い将来には、投票前に結果がわかってしまう・・・なんてことも実現できそうです。ということで、現状は課題が残るビッグデータによる議席数予想ですが、改めて今後の大きな可能性を感じさせてくれます。次回の予想では、今よりももっと高精度な予想ができるようになっているのではないでしょうか。