スポンサーリンク

2019年09月20日

【ビッグデータ】『ビッグデータ探偵団』安宅和人,池宮伸次,Yahoo!ビッグデータレポートチーム


4065173140
ビッグデータ探偵団 (講談社現代新書)


【本の概要】

◆今日ご紹介するのは、先日の「未読本・気になる本」の記事でも人気を博していた1冊。

本書の「はじめに」によると、著者の安宅さん率いるYahoo!ビッグデータレポートチームは、2013年の参議院選挙で議席獲得数を予想し、「的中率96%」という数値を叩き出したのだそうです。

アマゾンの内容紹介から一部引用。
データを正しく理解する力(=データ・リテラシー)は、リアルな現実世界を生きていくうえで、もはや「常識」として身に着けておくべき必須のツールとなる。
データを分析し、意思決定に役立てていく「データ・ドリブン」の思考力、分析力、情報科学の基本、データの力を解き放つ力――
これらをしっかりと会得し、応用できる人だけが、これからの社会を生き抜いていけるのだ。
さあ、私たちが分析した新事実を読んで、データの魅力と無限の可能性を体感してみよう!

まだ中古が定価を大きく上回っていますから、若干とはいえお得なKindle版がオススメです!






Connecting Big Data to Business Processes / Dion Hinchcliffe


【ポイント】

■1.新社会人は何を検索するのか?
 今回は、冒頭でみた「初任給 プレゼント」と検索している人々を、「新社会人」属性を持つグループと設定する。もちろん、このワードで検索する人が必ずしも全員新社会人とは限らないが、傾向を出す分析方法においては、100%の正解データが必要というわけではないため、本レポートではそのグループを、実際に初任給をもらいプレゼントの購入を考えている新社会人として定義した。(中略)
 これを見れば、これから新社会人になる学生たちは、自分がどのような悩み事に直面するのか、いつごろどんなことに関心が出てくるのかがわかる。社会人歴の長い方は、過去の自分を思い返しながら、部下となる新卒社員たちがどのような不安や関心を抱いているのか、参考にしてみるのもよい。
 一例を見てみよう。4月の給料日頃に、「初任給 プレゼント」と検索した新社会人のグループのデータを、全体の検索データと比較してみた。すると、初任給が支給された約8ヵ月後にあたる12月下旬に、ある検索キーワードが特徴的に上昇することが見てとれる。
 それが、「上司 年賀状」である。


■2.東京は極端な「電車社会」
 まず、リアルのデータから見ていこう。次のチャートは、ひとりが1年間に電車を利用する回数を横軸、マイカー通勤・通学率を縦軸にとり、 47都道府県をマッピングしたものだ。
 このグラフから一目瞭然だろう。東京だけが、他の都道府県と大きく離れて右端に位置し、孤立している。マイカーと比較して、電車比率の度合いが著しく高いのである。
 これは、東京がいかに極端な「電車社会」であるかを示している。神奈川や大阪など、関東・関西の主要府県の人は、東京と同じようなライフスタイルである印象を持つ方も多いかもしれない。だが、実際に赤ちゃんからお年寄りまでの全年齢の平均的な電車利用回数を見てみると、東京の人は年間800回以上(1週間に15回以上!)も電車を利用しているのに対し、神奈川や大阪の人々の電車利用回数は、400回以下と、東京の半分にも満たない。
 その他の残りの大半の県は、クルマがメインの生活だ。電車は年に数十回乗るかどうかという程度であり、東京の10〜100分の1に過ぎない。


■3.未来の混雑を予測する
 2週間後、ずっと楽しみにしていた大好きなアーティストAのコンサートに行く予定があるとしよう。会場は武道館だが、訪れるのは数年ぶりだ。何時に自宅を出て、どんなルートで行くのがベストか。
 そんな疑問を抱いたとき、おそらくほとんどの人は、事前に「乗換案内」の機能で交通機関のルートを調べ、何時に家を出るべきか、当日の自分の行動計画をあらかじめ立てておくに違いない。
 重要なことは、事前にルートを調べるそのような人は、 あなたひとりだけではない、ということだ。(中略)
 ここから、少しずつ見えてきたのではないか。「乗換案内」には、現在時刻のルートを検索するデータだけでなく、将来の予定を先読みするデータが大量に蓄積されている。
 つまり、「乗換案内」に蓄積されたデータを分析すれば、「○月×日△時にA駅に到着したい、と考えて検索している人がどの程度いるのか」を推測することができる。それを平時の検索数と比較することで、混雑の予測が可能になるというわけである。


■4.Yahoo!検索は比例区、SNS投稿は小選挙区との相関が高い
 2012年衆院選の分析において利用したのは、Yahoo!検索における各政党名の総検索数( 法△修靴得党名への言及のあるSNS投稿数(◆ である。それぞれ、選挙期間中(2102年の衆院選公示日の12月4日から、投票前日である12月15日) に集計した数値を、小選挙区・比例区の得票数・獲得議席数と比較した。
 順に、結果を見ていこう。まずはYahoo!検索の検索数( 砲箸隆慙△砲弔い董興味深い関連性が見つかったのが、各政党の比例代表区の得票数である。(中略)
 続いて、ツイッターやFacebookなどのSNS投稿数(◆砲汎隻漆瑤料蟯悗鯆瓦戮討澆襪函△海舛蕕枠耄禧茲任呂覆、小選挙区の得票数結果との非常に強い関連性が見つかった。

(詳細は本書を)


■5.どんな顔か調べても、投票はしない
 さらに、当選・落選議員それぞれの注目度上位30人を抜き出し、各々の候補者名と関連して検索されているワード上位20個を集計してみた。(中略)
 すると、当選する議員と落選する議員とで、それぞれ関連して検索されるワードに特徴があることがわかった。
 たとえば、当選議員については、「街頭演説」や「選挙区」といったワード群と一緒に検索されている傾向がある。反面、落選議員は「画像」や「動画」、さらには「結婚」(!) とともに検索される傾向があった。どのような人物であるかを興味本位で調べてはみるものの、実際に投票するまでには至らない、という検索者の心理を窺うことができる。
 他に特徴的なワードとして、「子供」が挙げられる。落選議員はゼロであるのに対し、当選議員は比較的多く検索されている。自分の投票する候補者に子供がいるかどうかを気にしているのだろうか、それとも2世議員への関心が高いのか。一見、政策とは直接の関係がないようにも思える候補者のプライベートな要素に対しても、投票者は強い関心を寄せているといえそうだ。


【感想】

◆これは「データ好き」の方なら、たまらない1冊ではないか、と思われる作品でした。

その「データ」の多くは、実際に私たちが「検索」したことに伴うもの。

つまり、私たちの「欲求」なり「知りたいこと」が可視化されると、見る人が見れば「未来」が分かるワケです。

たとえば上記ポイントの1番目では、検索した言葉から、彼らの「新社会人」という属性を推理。

そのグループが他に検索した言葉によって、「悩み」を明らかにしていきます。

そのポイントの1番目では、12月に年賀状をどうするかを悩んでいますが、これを「縦軸を検索量、横軸を日付」としてプロットしたのがこちらの図(4月分)。

4065173140

……クリックしてもアマゾンのページに飛ぶだけなのでご了承ください。

本書では「特定のグループが、どのタイミングで、どのような行動をとるのかを把握できれば、広告やショッピングサービスなどのマーケティングにも活用可能」と述べてますが、まさにその通りだと思います。


◆同様に「未来」を探っているのが、上記ポイントの3番目。

私たちがよく使う「乗換案内」には、「日付」どころか「時間」まで含めて検索することがほとんどです。

本書で具体例に挙げられていたのが、「コミケ」におけるデータで、事前に検索されたデータから当日の検索数を予測したものと、実際の当日の検索数のグラフを重ねているのですが、ほぼ一致。

ちなみにコミケでは「早朝が頂点になる」という、珍しい波形になるそうなのですがw

また本書では、神宮外苑花火の会場周辺駅について同じように予測を行い、どの駅がどのくらい混むかについて、実際の検索数との比較を行ったところ、これまたほぼ一致したという。

なお、この混雑予想は、Yahoo!の「乗換案内」だとアイコンで表示されるそうなので、今度試してみようと思います(私は普段「ekitan」を使っていたので)。


◆また、冒頭でも触れたように、こうしたビッグデータによる「予測」は、選挙でも成果を出しているのを示したのが、上記ポイントの4番目。

残念ながら、アマゾンの方にグラフがアップされていないので、ご紹介できないのですが、本書では各政党の比例区得票数を縦軸に、政党名の検索数を横軸にとった散布図を収録しています。

それを見ると、検索数と得票数に非常に高い相関が!

また小選挙区においては、得票数を縦軸に、SNSの投稿量を横軸に取ると、同じような結果になった次第。

ただしこれは、2012年の衆議院選の時のお話で、2013年の参院選ではさらにバージョンアップしたモデルで予測を行い、2つのモデル(「相関モデル」「投影モデル」)のそれぞれで9割以上(96%と93%)の一致率で的中させたのだそうです。


◆これで思い出したのが、こちらの本で述べられている「米国大統領選と最も相関性の高い検索語」のお話。

4334962165
誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性

参考記事:【オススメ】『誰もが嘘をついている〜ビッグデータ分析が暴く人間のヤバい本性〜』セス・スティーヴンズ=ダヴィドウィッツ(2019年07月24日)
そしてシルバーは、共和党候補予備選挙でドナルド・トランプの支持に最も相関性の高いある要因を見出した。それは私が4年前に見出した判断の手がかりだった。トランプ支持が最も強かった地域は、「ニガー」という語を最もよく検索していた地域だったのだ。
具体的な政党名よりも、話としてはこちらの方がユニークな気がしないでもありません。

しかし本書では、上記ポイントの5番目にあるように、候補者名の検索頻出第2ワードに注目!

具体的には棒グラフで表示されているのですが、まさか「街頭演説」がトップになるとは思いませんでした。

……てことは、あのうるさい街頭演説も効果があるということ(困惑)?

こういう意外なデータが、選挙の予測に関係しているというのは、非常に興味深いことではないでしょうか。


◆なお本書では、他にもいろいろとユニークな分析を行っています。

検索ではなく、実際の国勢調査等のデータを用いているのが、上記ポイントの2番目。

私自身、他の地方に住んだことがないとはいえ、まさかここまで東京が特異な街だとは思いませんでした。

さらに歌詞に頻出する単語を分析したところ、最も登場する「名詞」は「君」、「形容(動)詞」は強い、「動詞」は「見る」だったのだそう。

本書では品詞それぞれの上位10位までが掲載されているのですが、これがまた「なるほど」と思わせられるものばかりです。

そんな中、「夏」がダントツなアーチストもいたという。

4065173140

……これはもう、誰(グループ)かは言わなくても分かりますかw


ビッグデータが身近に感じられる面白い1冊!

4065173140
ビッグデータ探偵団 (講談社現代新書)
第1部 ビッグデータは、「深層」を描き出す
1―1 新社会人は4月に「モットーとは」、5月に「新入社員 辞めたい」、6月に「恋活」と検索する
1―2 ママは、生後102日目にわが子をモデルへ応募したくなる
1―3 「頭が痛い日本人」が最も多い時刻は、17時である
1―4 矢沢永吉と郷ひろみは、双子レベルの「そっくりさん」
1―5 日本は、「東京」と「それ以外」の2つの国からできている

幕間劇1―6 音楽CDが売れる時、サバの漁獲量が増える――擬似相関とは何か?

第2部 ビッグデータは、こんなに役立つ
2―1 これからの「混雑ぶり」がわかり、移動のストレスが消える
2―2 救援活動をスムーズに進める、「隠れ避難所」を探せ!
2―3 リニアで日本はどれだけ狭くなるのかを、実際に見てみよう
2―4 政治への関心が薄い日本人の注目を一挙に集めた、「令和」発表の瞬間
2―5 検索量を分析すると、選挙の議席数予測は96%も的中する
2―6 今の景気を予測することは、どこまで可能か?


【関連記事】

【オススメ】『誰もが嘘をついている〜ビッグデータ分析が暴く人間のヤバい本性〜』セス・スティーヴンズ=ダヴィドウィッツ(2019年07月24日)

【因果関係?】『データ分析の力 因果関係に迫る思考法』伊藤公一朗(2017年07月16日)

【出会い系?】『ハーバード数学科のデータサイエンティストが明かす ビッグデータの残酷な現実』クリスチャン・ラダー(2016年08月08日)

【統計リテラシー】『ナンバーセンス ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方』カイザー・ファング(2015年08月24日)

友達には秘密にしておきたい『ビッグデータの正体』(2013年05月21日)


【編集後記】

◆本日の「Kindle日替わりセール」から。

B0753XSFYN
私たちは子どもに何ができるのか ― 非認知能力を育み、格差に挑む

著者の「ポール・タフ」という名前をどこかで聞いたことがあるな、と思ったら、『成功する子 失敗する子 ― 何が「その後の人生」を決めるのか』を書いた人でした。

残念ながらそちらは値引きされてませんが、今回の作品は中古が在庫切れで価格が高騰しているのに、「65%OFF」の「599円」というお値打ち価格ゆえ、Kindle版が数字上、2200円弱、お得な計算です。


人気blogランキングご声援ありがとうございました!

この記事のカテゴリー:「ビジネススキル」へ

「マインドマップ的読書感想文」のトップへ
Posted by smoothfoxxx at 08:00
ビジネススキルこのエントリーを含むはてなブックマークYahoo!ブックマークに登録

スポンサーリンク