スポンサーリンク

2017年07月16日

【因果関係?】『データ分析の力 因果関係に迫る思考法』伊藤公一朗


データ分析の力 因果関係に迫る思考法 (光文社新書)
データ分析の力 因果関係に迫る思考法 (光文社新書)


【本の概要】

◆今日ご紹介するのは、昨日の「光文社セール」の記事にて注目を集めていた1冊。

どうも発売当時見落としていたようなので、あわてて買った次第です。

アマゾンの内容紹介から。
本書では「広告が売り上げに影響したのか?」「ある政策を行ったことが本当に良い影響をもたらしたのか?」といった、因果関係分析に焦点を当てたデータ分析の入門を展開していきます。なぜ因果関係に焦点を当てるかというと、因果関係を見極めることは、ビジネスや政策における様々な現場で非常に重要となるためです。また、この「因果関係の考え方」について、数式を使わず、具体例とビジュアルな描写を用いて解説していきます。

中古に送料を足すと定価を超えてしまいますから、このKindle版なら「50%ポイント還元」によって400円以上お買い得となります!





sample from Spurious Correlations / katexic


【ポイント】

■1.寿司職人の仕事に通じるデータ分析の3つの心得
 1点目は、素晴らしいネタを仕入れること。2点目は、そのネタの旨味を生かせる包丁さばきができること。どんなに素晴らしいネタを仕入れることができても、ネタをどのような角度で切るかという技能が身についていないと、口にしたときの旨味は出ないそうです。また、3点目は、目の前のお客さんが求めている味や料理を提供できているのか、という点です。(中略)
 同様のことがデータ分析にも言えます。
 情報通信革命によって、多くの人が比較的容易に良いデータ(ネタ)を手に入れられるようになりました。これは素晴らしいことです。しかし、同時に「データをどのような角度で切るのか」というセンスや思考法を身につけないと、せっかくのネタを生かす分析はできません。
 また、どんなに美しいデータ分析ができても、それがデータ分析結果を必要とする側にとっての課題に答えてくれるものでないと、素晴らしい分析結果なのに全く役に立たない、本末転倒なことになってしまいます。


■2.相関関係を因果関係と誤った例
 研究者たちは、2歳以下の子供に対して、(1)寝ている時に電気をつけているか、(2)近視になっているか、というデータを集めました。その結果、寝ている時に電気をつけている子供ほど近視になっていることがわかりました。(中略)
 ところが、その後にオハイオ大学の研究者が行った研究によって、これは単なる相関関係であることがわかりました。
 彼らの研究によると、(1)近視を持つ親ほど寝る時に電気をつけていることが多く、(2)近視の親を持つ子供ほど「遺伝的に近視になりやすい」ということでした。つまり、図表1-3を使って説明すると、寝る時に電気をつけていること(X)が子供の近視(Y)に影響しているわけではなく、親が近視であること(V)が寝る時に電気をつけていること(X)と子供の近視(Y)の両方に影響しているだけだったのです。


■3.オバマ前大統領の選挙活動におけるマーケティング戦略
 オバマ陣営は、まずウェブサイトのトップページに表示する画面を6通り考えました。(中略)
 さらに、オバマ陣営はトップページに表示するボタン(クリックするとメールアドレスを書き込むページに移る)にも仕掛けが必要だと考えました。
 図表2-8に示したのは、選挙チームが考えた4通りのメッセージです。(中略)
 つまり、6通りの画面案と4通りのメッセージ案があったので、合計で24通りの組み合わせが作られることになります。
 さて、メーリングリストへの加入率を上げるという目的を考えた場合、どの画面とメッセージの組み合わせが一番良いと思われますか? 読者の皆さんも、ぜひ予想してみてください。


■4.医療費の自己負担額が変わる「境界線」に着目した分析手法
 日本では、70歳の誕生日を境に、医療費の自己負担額が3割から1割へと減少していたことは、皆さんご存知でしょうか?(注:この調査後の2014年4月以降、70〜75歳は2割負担となった)重岡助教授が着目したのは「もしも自己負担額が医療サービス利用に影響を与えるならば、70歳以上の患者は70歳未満の患者に比べて医療サービスをより多く利用するのでは」という仮説でした。
 重岡助教授は「患者調査」という統計の1984年から2008年までのデータを利用し、月年齢別に見た外来患者数をグラフ化しました(図表3-1)。(中略)
 図表3-1から観測できることは2点あります。
 1点目は、データが全体的に右上がりの曲線を描いていることです。(中略)
 2点目は、70歳を境に大きな「ジャンプ」が見られることです。つまり、69歳11カ月の人に比べて、70歳0カ月の外来患者数が格段に多いということです。


■5.燃費政策で重くなった日本の車
 日本の燃費政策の図はアメリカの燃費政策の図によく似ていますが、2つの違いがあります。1つ目は、横軸が「自動車の重量」になっていることです。つまり、軽い車ほど厳しい規制値が要求され、重い車ほど緩い規制値が要求されます。2点目は、日本の政策では規制値の変化が「階段状」になっていることです。
 実は、階段状になっている日本の政策は、自動車会社の企業行動を分析する上で大きく役立ちます。例えばある車が、図の規制値線の平らな部分にいるとします。すると、少し重量を重くすると、1つ右の規制カテゴリーに移動できることがわかります。そのため、規制値が変わる点(次の階段の左端)まで重量を上げるメリットがあるかもしれないのです。(中略)
 車両重量増加の社会的費用は3点にまとめられます。
 1点目は、想定されていなかった重量の増加という現象が起こったために、燃費向上に関して当初予想していたほどの政策効果が出なかった、という点です。(中略)
 2点目は、規制の影響により、実際の重量が「市場で決まる適切な重量」から乖離することです。すると、経済学用語で死荷重と呼ばれる社会にとっての非効率性が発生することになります。
 3点目は、重量増加によって、事故時の安全性が損なわれることです。


【感想】

表紙の帯に「ビッグデータ」というフレーズがあることから、読む前はてっきりいわゆる「ビッグデータ本」と勘違いしていました。

よくある「スーパーでおむつとビールを並べて陳列すると売上が伸びた」みたいなw

しかし実際に本書で述べられているのは、まさにメインタイトルにもある「『因果関係』の見極め方」。

上記ポイントの1番目にあるように、「情報通信革命によって、多くの人が比較的容易に良いデータを手に入れられる」ようにはなりましたが、たとえそうであっても、正しく分析できなければ無駄に終わってしまいます。

……典型的なのが、上記ポイントの2番目にある「相関関係を因果関係と誤る」パターンなのですが、これは類書でもよく言及されていますから、まぁいいですか。

そこで本書では、第2章以降で、いくつかの分析方法について解説がなされているわけです。


◆まず登場するのが、「ランダム化比較試験(RCT)」。

これはいわゆる「ABテスト」「A/Bスプリット」と、一般的に(マーケティング界隈では)呼ばれるものです。

「ABテスト」を実際に行った事例としては、上記ポイントの3番目にある、オバマ前大統領の選挙活動が本書では紹介されていました。

上記では問いかけておいて、結論を書いていないのですが、メッセージはまだしも、画面案は引用できなかったので、いかんともしがたいところ。

本書では実際に「6通りの画面案と4通りのメッセージ案」が収録されていますから、そちらをぜひご覧ください。

私自身、考えてみたのですが、さすがに「1/24」ですから、まったくかすりもせず(画面もメッセージもハズしましたw)。


◆続く第3章で登場するのが「回帰不連続設計法(RDデザイン)」なるもの。

回帰不連続デザイン - Wikipedia

これは実際に上記「RCT」ができない場合に、「自然に実験を行ったかのような状況を上手く利用する」やり方を言います。

その実例が上記ポイントの4番目の「医療費の自己負担額」。

上記ポイントでで言及されている「図表3-1」というのが、まさに上記Wikipediaに掲載されたイメージ図そっくりで「69歳11カ月の人に比べて、70歳0カ月の外来患者数が格段に多い」ことがよく分かります。

……そのせいで「2014年4月以降、70〜75歳は2割負担となった」んですかね?


◆さらにもう1つ「RCT」が使えない場合の分析方法として、本書の第4章では「集積分析」というものが紹介されています。

こちらは「階段状の変化」が、どう「行動」に影響を及ぼすかについて分析する方法。

その事例が、上記ポイントの5番目にある「日本車の燃費政策」です。

本書では燃費規制値を縦軸に、車両重量を横軸にしてグラフが描かれているのですが、見事に「境界線の右端」に多くの車が集中しているという。

これは上記の「RDデザイン」と違って、変数が操作できるゆえのこと。

結果、良かれと思って実施した政策も、上記ポイントにもあるように、予想していたほどの効果が出なかっただけでなく、「効率性」や「安全性」に問題を生んでしまったワケです。


◆なお、今回は割愛しましたが、こうした分析方法の弱点や欠点について言及しているのが、本書の第7章。

さらに第8章では、さらに学びたい人のために「参考図書」が紹介されています。

その中の1冊が「本書に最も近いレベルで書かれている」というこちらでした。

「原因と結果」の経済学―――データから真実を見抜く思考法
「原因と結果」の経済学―――データから真実を見抜く思考法

ただし、こうした入門書はまだしも、中・上級書は洋書なので(ry

いずれにせよ、本書を読むことで「データ分析の基礎」が学べたと、個人的には思う次第。


セール期間中なら、400円強でゲットできます!

データ分析の力 因果関係に迫る思考法 (光文社新書)
データ分析の力 因果関係に迫る思考法 (光文社新書)
第1章 なぜデータから因果関係を導くのは難しいのか
第2章 現実の世界で「実際に実験をしてしまう」――ランダム化比較試験(RCT)
第3章 「境界線」を賢く使うRDデザイン
第4章 「階段状の変化」を賢く使う集積分析
第5章 「複数期間のデータ」を生かすパネル・データ分析
第6章 実践編:データ分析をビジネスや政策形成に生かすためには?
第7章 上級編:データ分析の不完全性や限界を知る
第8章 さらに学びたい方のために:参考図書の紹介


【関連記事】

【統計リテラシー】『ナンバーセンス ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方』カイザー・ファング(2015年08月24日)

【データ分析】『それちょっと、数字で説明してくれる?と言われて困らない できる人のデータ・統計術』柏木吉基(2015年08月05日)

すぐに使える『ヤバい統計学』テクニック7選(2011年03月05日)

【データ分析】『統計学が最強の学問である』西内 啓(2013年01月27日)

【オススメ】『競争優位で勝つ統計学---わずかな差を大きな勝利に変える方法』ジェフリー・マー(2012年05月04日)


【編集後記】

◆本日の「Kindle日替わりセール」から。

〈インターネット〉の次に来るもの 未来を決める12の法則
〈インターネット〉の次に来るもの 未来を決める12の法則

中古が1700円近くしますから、送料を考えるとこのKindle版が900円ほどお得な計算です。


人気blogランキングご声援ありがとうございました!

この記事のカテゴリー:「ビジネススキル」へ

「マインドマップ的読書感想文」のトップへ
Posted by smoothfoxxx at 10:00
ビジネススキルこのエントリーを含むはてなブックマークYahoo!ブックマークに登録BuzzurlにブックマークBuzzurlにブックマーク

スポンサーリンク