2013年01月27日
【データ分析】『統計学が最強の学問である』西内 啓
統計学が最強の学問である
【本の概要】
◆今日ご紹介するのは、先日の「未読本・気になる本」の記事でも人気だった1冊。サブタイトルとして「データ社会を生きぬくための武器と教養」とあり、なるほどそうだと感じいりました。
アマゾンの内容紹介から一部引用。
あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。
どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。
「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人が、その本当の魅力とパワフルさを知っているだろうか。
私はぶっちゃけ「超文系人間」ですが、本書に目を通しておいて良かったと思っております。
いつも応援ありがとうございます!
【ポイント】
■1.統計的にあみだくじは端が当たりにくい友人たちのクセなのか、人間心理の傾向なのか、両端の縦棒を先に選ばれたことはほとんどなかった。(中略)
つまり、一見4分の1すなわち25%ずつの確率で公正に決めようとしていると思わせつつ、両端を選び続ける私がコンビニに行く確率は11.4%(= (81+33)÷1000)ほどしかない。一方で、なぜか中心付近の縦棒を直感的に選ぶ傾向にあった友人が(4)(5)の選択肢を選ぶと40.4%(= (210+194)÷1000) もの確率で当たることになる。きっと彼はこうしたあみだくじのせいで、何度も「なぜか最近運が悪いな」という感覚とともに買い出しを引き受けてくれていたことだろう。
■2.教育にも活かされるべきエビデンス
不思議なもので、教育という分野に関しては、まったくと言っていいほどの素人でも自分の意見を述べたがるという現象がしばしばおこる。(中略)
あるいは、ただ大学在学中に弁護士になったとか、子どもを全員東大に進学させたといった人の個人的な経験をありがたがって信頼するという人もいる。
だが、どのような教育がいいか、という問いへの回答は、教育される本人の特性や能力、環境などさまざまな要因によって左右されるし、医療と同様に不確実性の大きい分野でもある。自分が病気になったときに、まず長生きしているだけの老人に長寿の秘訣を聞きに行く人はいないのに、子どもの成績に悩む親が、子どもを全員東大に入れた老婆の体験記を買う、という現象が起こるのは奇妙な事態だとは思わないだろうか。
■3.ITの進化が統計学に与えた影響
ひと昔前の統計学者は、いかに計算の手間を省いて近似的に精度の高い推測を行なうか、あるいはできるだけ少ないデータで精度の高い推測を行なうかといった研究を盛んにしていたが、こうした研究は現在ではほとんど実際に用いられることはなくなった。ITの進歩により、データ量の多さや計算の複雑さは、ほとんど問題にならなくなったのだ。(中略)
主として実際に使われている統計学の考え方や手法自体は、数十年前に完成していたものがほとんどであったとしても、それを誰でも、あるいはいつでも簡単に使いこなすことができるようになったのは、20世紀終わりから続くITの革命的な進歩によってである。
■4.全数調査 vs サンプリング調査
もちろん全数調査よリサンプリング調査のほうが精度が低いことは間違いない。だが問題となるのは、それによってどの程度精度が低下するのか、そしてその精度が低下した結果、実際に下すぺき判断や取るべき行動にどのような影響があるのかということである。逆に言えば、判断や行動に影響しないレべルの精度は無意味で、そのためにかけなければいけないコストはムダだ。
対処しきれない量のデータが存在する際に、適切なサンプリングさえすれば、必要な情報を得るためのコストが激減するのは80年前だろうが現代だろうが本質的には変わらない。にもかかわらず、ビッグデータに関心のあるビジネスマンは、しばしばビッグデータをビッグなままで扱うことにしか目が行かないのだ。
■5.データをビジネスに使うための「3つの問い」
【問1】何かの要因が変化すれぱ利益は向上するのか?
【問2】そうした変化を起こすような行動は実際に可能なのか?
【問3】変化を起こす行動が可能だとしてそのコストは利益を上回るのか?
(詳細は本書を)
■6.因果関係には向きがある
さらには、親の感じ方の問題ではなく、実際に暴力的なゲームで遊んでいる時間が長い子どもほどその後の犯罪率が高いという結果が確定したとしても、規制すればそれによって少年犯罪を防止できるかどうかは定かではない。
なぜならゲームなどからは何の影響も受けないもともとの「暴力性」とでもいった原因があり、この「暴力性」が高い子どもほど暴力的なゲームを好み、また犯罪にも手を染めやすい、といった因果関係が真理かもしれないからだ。この場合、見かけ上少年犯罪者ほど暴力的なゲームのプレー時間は長くなるだろうが、ゲームを規制したからといってその子どもの暴力性が制御できるわけでもない。それでもやはり同じように罪を犯す、ということになってしまう。
■7.現代統計学の父・フィッシャーの『実験計画法』
フィッシャーまでの科学者たちも実験をするにはしていたが、10回やって10回確実に生じるような現象を記述することしかしていなかった。あるいは、10回やってほんの1回しか起こらないような現象であっても、その1回だけを取り上げてさも実験に成功したかのような顔をする者もいた。
どのような手順で実験して、10回中何回成功すれば科学的に実証できたと考えられるのか、ということを考えた人間はフィッシャーの前には誰一人としていなかったのだ。そしてそのフィッシャーの考えた「科学的に実証するための手順」のうち最も重要なアイデイアが、「ランダム化する」という部分なのである。
(詳細は本書を)
【感想】
◆本書を読み始めて、最初に登場するのが上記ポイントの初っ端の「あみだくじ」の事例。4人で8本の縦棒のあみだくじを作り、当たった1人が買い出しに行くというものです。
8本棒があれば、両端を選ぶ人は意外といないもの。
結果、西内さんは買い出しを免れ続けたワケですが、これ、西内さんの大学院時代のお話なので、この確率については東大の大学院生でも知らなかったことになります。
統計学恐るべし!
……って、一見大げさのようですが、本書によると、『公共工事の入札が「同条件なら最後はあみだくじで決める」という地方自治体もあるらしい』ので、知ってるのと知らないのとでは、ビジネス上でも差がでてくることに。
◆さてそんな統計学も、ひと昔前は「データ処理」だけでヒーヒーでした。
例えば米国で1948年から行われた健康上の調査(「フラミンガム研究」)は、5000余名の調査を「2年に1回」行うというパターン。
本来、毎年やるべきだったこの調査のボトルネックはデータ処理であり、当時使われていたのは、「大型のパンチカードシステム」だったとか。
それが今では、ITの進化により、個人のノートパソコン(はおろか、スマホ)で解析が可能に。
そして、その延長線上にあるのが、今はやりの「ビッグデータ」ということかと。
◆ただし、ビッグなデータをそのまま処理するには、その分コストがかかります。
技術的な問題と費用的な問題は別ということ。
そこで考えるべきは「費用対効果」です。
例えば本書の事例にあるのは、「10万人の顧客データにおいて、女性の割合が70%だった場合に、何人サンプリングすれば、どの程度正解に近づくのか?」というもの。
「100名」であれば本来70%のものが「51%〜89%」と微妙ですが、「1000名」であれば「64%〜76%」、「8000名」であれば「68%〜72%」となり、これ以上は「サンプルを増やしてもあまり誤差(「標準誤差」といいます)」が小さくなりません。
8000名分のデータを集計するくらいなら、エクセルでも可能ですから、この位の精度でも十分であれば、ビッグデータ技術に投資するのはムダ、ということになるのでしょう。
◆ちなみに、上記ポイントの最後に登場したフィッシャー氏が行った世界最初の「ランダム化比較実験」(俗にいう「A/Bテスト」)というのが本書で紹介されており、それは何と「ミルクティの淹れ方」に関するもの。
ある婦人が「紅茶を先に入れたミルクティ」と「ミルクを先に入れたミルクティ」の味の違いが分かる、と言い出し、その場にいた紳士のほとんどがそれを笑い飛ばしたのにもかかわらず、フィッシャー氏だけは「その命題をテストしてみようじゃないか」と実験を開始。
2種類の違った淹れ方のミルクティを用意し、ランダムな順番でその婦人に飲ませ、その答えを書きとめた後で、ちょっとした確率の計算をしたのだそう。
その際、同席していた別の統計学者によると、婦人は出されたミルクティをすべて正確に言い当てたらしく、その場合における偶然当てる確率は5杯なら約3.1%、10杯なら約0.1%になります(詳細は本書を)。
これだけの確率であれば、もはや「何らかの形でミルクティを識別していた」と考えるべき。
私も英国滞在時には、カップにミルクを先に入れて、そこに電気ポットで沸かした紅茶を入れてもらっていたのですが、ちゃんと理由があったのですね!(味の違いを意識したことはなかったですがw)
◆本書は「統計学」を扱った本としては、比較的分かりやすいらしいです……と自分で判断できるほど、統計学の本を読んでいないワタクシ。
ただ、事例は興味深いものが多く、それが故に最後まで読み切れたのだと思います。
とはいえ、ちょっと専門用語(「一般化線形モデル」等)が出てくると、たとえ解説されているにしても、一瞬頭が真っ白になったんですが。
/ ̄ ̄ ̄\
/ ─ ─ \
/ <○> <○> \.
| (__人__) | 何言ってんだか良くワカンネー
\ ` ⌒´ /
/ \
やっぱ、私が「超文系」だからなんでしょうかねぇ……。
それでもこれからの時代を考えると読んでおくべきかと!
統計学が最強の学問である
第1章 なぜ統計学が最強の学問なのか?
第2章 サンプリングが情報コストを激減させる
第3章 誤差と因果関係が統計学のキモである
第4章 「ランダム化」という最強の武器
第5章 ランダム化ができなかったらどうするか?
第6章 統計家たちの仁義なき戦い
終 章 巨人の肩に立つ方法
【関連記事】
【オススメ】『競争優位で勝つ統計学---わずかな差を大きな勝利に変える方法』ジェフリー・マー(2012年05月04日)【数字力】『ウソを見破る統計学』神永正博(2011年05月01日)
すぐに使える『ヤバい統計学』テクニック7選(2011年03月05日)
【オススメ!】『オタクの行動経済学者、スポーツの裏側を読み解く』トビアス・J・モスコウィッツ,L・ジョン・ワーサイム(2012年07月03日)
【スゴ本】「予想どおりに不合理」ダン・アリエリー(2008年12月15日)
【編集後記】
◆ちょっと気になる本。青い象のことだけは考えないで!
当ブログでは過去の作品を漏れなくご紹介してきた、トルステン・ハーフェナーの新作です。
今までより、自己啓発色が強い気が。
ご声援ありがとうございました!
この記事のカテゴリー:「ビジネススキル」へ
「マインドマップ的読書感想文」のトップへ
スポンサーリンク
この記事へのトラックバックURL
●スパム防止のため、個別記事へのリンクのないトラックバックは受け付けておりません。
●トラックバックは承認後反映されます。
この記事へのコメント
記事読ませて頂きました。
これからも、良い本をどんどん紹介して行って下さいね!!
これからも、良い本をどんどん紹介して行って下さいね!!
Posted by 大阪 京太郎 at 2013年01月27日 13:05
今回の記事は、力作ですね!
この本は、買おうか迷ってましたが、smoothさんの記事で買おうと思いました。
今後も、ブログ、読ませてもらいます。
よろしくです。
この本は、買おうか迷ってましたが、smoothさんの記事で買おうと思いました。
今後も、ブログ、読ませてもらいます。
よろしくです。
Posted by グラさん at 2013年01月27日 22:02
>大阪 京太郎さん
初めまして。
コメントありがとうございます。
引き続き、面白そうな本を選んでいきたいと思いますので、よろしくお願いします!
>グラさん
コメント&お買い上げありがとうございます(涙)。
意外にもホッテントリになってしまい戸惑っております(汗)。
記事内で、やる夫が白目むいてるように、正直難しい点があるので、激オススメとはしにくいのですが、理系的素養があれば、かなり楽しめるのではないでしょうか?
今後とも宜しくお願いします☆
初めまして。
コメントありがとうございます。
引き続き、面白そうな本を選んでいきたいと思いますので、よろしくお願いします!
>グラさん
コメント&お買い上げありがとうございます(涙)。
意外にもホッテントリになってしまい戸惑っております(汗)。
記事内で、やる夫が白目むいてるように、正直難しい点があるので、激オススメとはしにくいのですが、理系的素養があれば、かなり楽しめるのではないでしょうか?
今後とも宜しくお願いします☆
Posted by smooth@マインドマップ的読書感想文 at 2013年01月28日 04:18
当ブログの一番人気!
9月16日まで?
9月26日まで
Kindle月替わりセール
年間売上ランキング
月別アーカイブ
最近のオススメ
最近の記事
このブログはリンクフリーです