スポンサーリンク

       

2023年08月24日

【可視化?】『データ思考入門』荻原和樹


B0BTYC87Q6
データ思考入門 (講談社現代新書)


【本の概要】

◆今日ご紹介するのは、現在開催中である「講談社 ポイント還元キャンペーン」の中でも、個人的に読んでみたかった1冊。

著者の荻原さんのことは存じ上げなかったのですが、あの東洋経済オンラインの「新型コロナウイルス 国内感染の状況」を作られた方だと知り、がぜん興味が沸いた次第です。

アマゾンの内容紹介から一部引用。
統計や数字に強くなる!
現代人必修の「データを使いこなす力」を、GoogleやSmartNewsなどで教えるエキスパートが分かりやすく解説。
真実を見抜き、正確に伝えるための「データ思考」入門。

一応「40%OFF」のこのKindle版がお得ではあるのですが、セールがいつまでか分からない(今日までの可能性アリ)ので、お求めは極力お早めに!






testability-bubbles-overview / JAWspeak


【ポイント】

■1.「軸の省略は常に悪い」とは限らない
このように、データの軸を不適切に省略したり、あるいは自説に都合がよい部分だけ切り取ったりして、受け手の印象を操作するケースもあります。こうしたグラフはネット上で「詐欺グラフ」などと呼ばれ、強く非難されます。(中略)
 それでは、次の図0-3はどうでしょうか?(中略)
 これは2022年2月から8月にかけての米ドルと日本円のレートです。図0‐1と同様に縦軸が省略されていますが、為替レートはわずかな変動が経済社会に大きな意味を持つこと、ドル円の額面から考えてゼロの近くまでグラフが必要となる可能性がほぼないことから、軸が省略された状態で表現されるのが普通です。仮にこのグラフをゼロまで表示したら、今度は「値動きを過小に表示している」との批判が起こるでしょう。
 先ほどの防衛費に関するグラフでは、縦軸を省略することで変化が誇張され、批判されました。一方、為替レートのグラフでは、むしろ軸の省略によって情報を適切に伝えることができました。「軸の省略は常に悪い」とは限らないのです。


■2.相関と因果を混同しない
 相関と因果の違いは「2つのデータが原因と結果の関係にあるかどうか」です。相関は、あくまでも「データ上で2つの指標が同時に増減する」ことだけを表します。相関関係が成立するだけでは、2つのデータが因果関係にあるとは言えないのです。しかし、データだけ見ていると「2つの指標は相関しているから何らかの因果関係があるだろう」と誤解されやすく、注意が必要です。
 先ほどは相関も因果もある(と考えられる) ケースを例に挙げましたが、では「アイスクリームの売り上げ」と「熱中症で搬送される人の数」ではどうでしょうか。おそらく夏の間は2つのデータがある程度相関して動くはずです。しかし「アイスクリームを買ったから熱中症になった」、あるいは「熱中症になったからアイスクリームを買った」とは考えにくいでしょう。この場合、2つのデータは相関関係にはありますが因果関係にはありません。


■3.巧みなデータの選び方をした「20世紀における感染症との闘い」
 はしか(風疹)、A型肝炎、おたふくかぜといった感染症の症例数が「ヒートマップ」と呼ばれる可視化手法で示されています。縦軸がアルファベット順に並んだ全米50州、横軸が時系列、各セルの色がその年における人口10万人あたりの症例数です。(感染症ごとに症例数は異なるので、色と数字の対応はそれぞれ異なります)。「Vaccine introduced」とラベルのついた縦線は、その感染症に対するワクチンが導入された年です。(中略)
 この背景には、アメリカにおける根深いワクチン懐疑論があります。新型コロナのワクチンをめぐっては、その副反応を5G回線や磁力などと結びつける荒唐無稽な陰謀論が一部で流行しましたが、そのずっと前から「アンチ・ヴァクサー(anti-vaxxer)」と呼ばれる反ワクチン論者がアメリカでは社会問題となっていました。(中略)
 ワクチンの意義や有効性が議論される中で、この問題にデータで応えたのが今回のコンテンツです。副題「ワクチンのインパクト」が示すとおり、ワクチンが感染症に及ぼす効力について一目で理解できる強力な視覚的メッセージを与えています。


■4.軸を意識して見慣れたデータを新鮮に見せる
 たとえば私は2018年7月に「日本の夏は徐々に暑く・長くなっている」と題したインフォグラフィックを東洋経済オンラインで公開しました。東京における夏の日別平均気温を気象庁の公開データから取得し、ヒートマップに表現したものです(図4-11)。
 縦軸が1870年代(なんと気象庁は140年以上前から気象データを観測し、データとして公開しています)、横軸が6月から9月の各日を表します。それぞれの日の平均気温を青(18度未満)から濃い赤(30度以上)で表現しています。つまり「年」「月日」「気温」という3つの軸をそれぞれ「縦軸」「横軸」「色」に変換したものです。なお夏の気温といえば「最高気温」が使われることが多いですが、今回は日中の気温だけでなく1日の気温を最も代表する指標として平均気温を採用しました。
 これを見ると、東京の気温は1940年代後半、すなわち終戦後から着実に暑い日が増えていること、特に1980年代以降では7月の前半から9月まで暑い日が続き、夏の期間が延びていることがわかります。


■5.「5次元」のデータを表現する方法
 ここまでの例では「縦軸」「横軸」「大きさ」「色」という4つの視覚表現を使ってデータを表現してきました。さらに「昔からの推移が見たいから、月別にデータの推移がわかるようにしてよ」と言われたらどうすればよいでしょうか。紙上での表現は難しいでしょうが、「Gapminder」というデータ可視化のウェブサイトでは、さらにアニメーションを活用して「5次元」のデータを表現しています。(中略)
 初期設定のグラフでは以下のようにデータの軸と視覚表現が設定されています。
縦軸:平均余命(歳)
横軸:平均所得(千ドル、ただし軸が線形でなく倍々になっていることに注意)
円の大きさ:人口
円の色:地域(アジア、アメリカなど)
アニメーション:時系列


【感想】

◆非常に興味深い内容の作品でした。

当ブログのビジネススキル本がお好きな方にもピッタリの1冊!

ただし、「データ思考入門」というタイトルとはやや異なる内容と言いますか、上記ポイントをお読みいただければお分かりのように、ほぼほぼデータの可視化(グラフ等)のお話が中心です。

そして、グラフがメインであればあるほど、引用したくともできない図解等が多くなるジレンマ。

上記でも実際にグラフがあるものは、リンクを張っておりますが、ホントはそれらのグラフもスクショした上で、自分で画像をアップして、そこにリンクを張った方が分かりやすいんですよね。

とはいえ、それをやっていいのか分からないので、とりあえず自重しております。

もっとも、本書ではそれらのグラフ等は掲載されているものの、すべてモノクロなこともあって、むしろこうして直接リンク先でカラー版を見ていただいた方が、よりインパクトがあるのではないか、と。


◆さて、「はじめに」から引用した上記ポイントの1番目は、私自身、いきなり「目からウロコ」でした。

よくある縦軸を切ったグラフを「詐欺」とまでは言わないまでも、「紛らわしい」と批判していた私ですが、確かに為替レート等を0円から軸を取ったら、かえって恣意性を疑われそうです。

本書ではこのように、「データから得られる知見を過不足なく理解してもらうための考え方」のことを、「データ思考」と呼んでいる模様。

それに続いて、冒頭でも触れた、東洋経済オンラインでの「新型コロナダッシュボード」の設計の思想が語られており、ここも参考になりました(詳細は第3章にて)。

つまり、データベースは広く公表されている、こちらの「新型コロナウイルス感染症の現在の状況と厚生労働省の対応について」なのですが、ここからどの数字を拾って、どのようなデザインで作るかがミソなワケでして。

実際、著者の荻原さんも、似たようなことをしたくとも、初めは上手くできなくて、イギリスに留学して諸々学ばれたらしいです。


◆また、第2章から抜き出した上記ポイントの2番目の「相関」と「因果」のお話は、類書でもおなじみかと。

一応、ここにおける「アイスクリームの売り上げ」と「熱中症で搬送される人の数」は、因果関係はありませんが、双方に影響を与える「真の原因」があって、それはもちろん「気温」です。

何でも統計学ではこの「真の原因」を「潜伏変数」というそうなのですが、それは今般初めて知りました。

そして続く第3章から引用したのが、上記ポイントの3番目の「20世紀における感染症との闘い」のコンテンツです。

ちなみに上記にもあるように、コロナ禍以前から、アメリカではワクチンに対する懐疑論があり、たとえばこちらを読んでいただくと、過去からの経緯がお分かりいただけると思うのですが。

新三種混合ワクチンが自閉症とは無関係であることが示される - GIGAZINE

そういう流れの中で、こういったインパクトのあるコンテンツが出されても、懐疑論は消えないでしょうし、そこに新型コロナが発生したわけですからねぇ……。


◆一方、荻原さんが作成されたのが、第4章に収録されていたインフォグラフィック「日本の夏は徐々に暑く・長くなっている」です。

……これ、本書では「日本」になっていますが、グラフや元記事では「東京」なんですよね(謎)。

とはいえ元記事は、はてブ340超というバズりぶり。

データだけ並べたり、普通の折れ線グラフ等で記事を書いても、ここまではバズらなかったと思いますから、まさに適切な可視化の勝利!

ちなみに細かいドットにカーソルを合わせると、その日の平均気温が分かるようになっていますから、昔暑かった思い出(悪夢?)があれば、具体的にその日の気温が確認できます。


◆そして最後のポイントの5番目は、リンク先のアニメーションを見たことのある方も、いらっしゃるのではないでしょうか?

実はこれ、あの『ファクトフルネス』でおなじみの、ハンス・ロスリングが設立した財団のサイトのもの。

確かTEDか何かで披露されたような記憶があります。

上記でも触れられているように、5つの要素を分かりやすく同時に表現(時系列があるので「同時」とは言わないかもしれませんが)しているのは、お見事というしかありません。

なお、時系列がなければ、1つのグラフで表すことができますし、本書では「架空のデータ」として「購入単価(縦軸)」「顧客年齢(横軸)」「売上高(円の大きさ)」の3次元のグラフ(バブルチャート)に、「料理の形態(色)」を加えた4次元のグラフを作っています。

といっても本書には色がないので、イメージとしては本書のサブネイル画像で用いた、こんなのを思い浮かべていただきたく(再掲)。


testability-bubbles-overview / JAWspeak


……すいません、まだ本書の半分しかカバーできてないのですが、残りは実際にお求めになってご確認ください(他力本願)。


データを可視化したい方なら必読の1冊!

B0BTYC87Q6
データ思考入門 (講談社現代新書)
第1章 データ可視化という強力な武器
第2章 データを読み解く
第3章 データを編集する(理論編)
第4章 データを編集する(実践編)
第5章 データをデザインする
第6章 多様なデータの見せ方
第7章 データ可視化をどのように改良するか
第8章 炎上や誤解を避ける
第9章 データ可視化と報道


【関連記事】

【思い込み?】『FACTFULNESS(ファクトフルネス)10の思い込みを乗り越え、データを基に世界を正しく見る習慣』ハンス・ロスリング,オーラ・ロスリング,アンナ・ロンランド(2019年01月02日)

【思考術?】『科学的思考トレーニング 意思決定力が飛躍的にアップする25問』牧 兼充(2022年10月26日)

【因果関係?】『データ分析の力 因果関係に迫る思考法』伊藤公一朗(2017年07月16日)

【統計リテラシー】『ナンバーセンス ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方』カイザー・ファング(2015年08月24日)

【データ分析】『それちょっと、数字で説明してくれる?と言われて困らない できる人のデータ・統計術』柏木吉基(2015年08月05日)


【編集後記】

◆本日の「Kindle日替わりセール」から。

B0BWXLZRBC
A17 地球の歩き方 ウィーンとオーストリア 2023〜2024

おなじみ「地球の歩き方」から、本日はウィーン編が登場。

一応Kindle版が1500円弱お買い得となっています!


この記事のカテゴリー:「ビジネススキル」へ

「マインドマップ的読書感想文」のトップへ
Posted by smoothfoxxx at 08:00
ビジネススキルこのエントリーを含むはてなブックマーク

スポンサーリンク