人は通常、数字の意味合いを容易に理解できない。売り上げの数字やウェブサイトへのアクセス数を読むだけで「今週の売り上げは高止まりしている」「昨日のアクセスはよくなかった」と瞬時に理解できるのは、数字を見慣れているベテランだけだ。ここで役に立つのが「データ可視化」だ。データを何らかの図表に変換したものはすべてデータ可視化に該当する。データ可視化は「見せる」だけと誤解されがちだが、最終目標は「直感的に理解させる」ことであり、インタラクティブな表現も活用される。ビジネスではTableauやPower BIといったBI(ビジネスインテリジェンス)ツールが普及し、データ可視化を見る・作る機会は大幅に増えた。一方、制作が簡単になったことで不適切なデータ可視化を見る機会も増えた。
これに対抗するためにはデータのリテラシーを身につけることが欠かせない。それを本書では「データ思考」と呼ぶ。データ思考を高め、危ういデータ可視化に騙されないようにするには、そもそもデータをどう可視化すべきかを学び、「作る側」の視点を学ぶことが最も重要だ。
本書では「社会のためのデータ可視化」を主に扱う。報道コンテンツやアート作品など、広く社会にデータを伝えるためのものだ。興味の薄い人に見てもらうため「正確に伝わる」「わかりやすい」に加え、データを見ることそのものが楽しいと感じてもらえる工夫を用意する必要がある。
データを適切に可視化するには、まず数字のデータを丁寧に読み解き、隅々まで理解することが必要だ。データの定義の確認から始めるのが基本となる。何を集計しているのか、何がデータに含まれ、何が含まれないのかをクリアにする。
データの集計方法も確認しておくべきポイントだ。たとえば「訪日外客数」は、入国手続きを受けるごとに1人と数える。日本への出入国は必ず飛行機か船を使うため、カウントの重複で全体の傾向が歪む可能性は低い。
対象を全て調査する全数調査か、一部だけ調査する標本調査かの違いにも注意を要する。アンケート形式で回答を募る場合、答えやすい項目とそうでない項目で大きく回答率が異なることがある。未回答の割合を見ておくことをお勧めする。
データを読み解く作業の最終目標は「データと現実をつなげること」だ。訪日外客統計では、現実に1人の外国人観光客を目にしたとき、その人がデータ上でどのように扱われるのか。数字の変化が現実世界で何を意味するのか。具体的な個別のケースを数字と結びつけ、照らし合わせることが求められる。
数字が数字でしかない、目の前の生活と結びつかない事態を避けるために、データを読み込み、腑に落ちるまでデータを理解しよう。
ここから2つ以上のデータを読む際の工夫や注意点を解説する。2つ以上のデータを同時に提示することは、良くも悪くもユーザーに因果関係を強く示唆することに注意しなければならない。
偏った印象を与えるデータの中には見抜くのが難しいケースもある。日本人男性の喫煙率と肺がんの死亡率を、時系列でプロットしたグラフを例にする。喫煙が肺がんなどの疾病の引き金になることは広く知られている。
しかしこのグラフからは、喫煙率が1965年から低下し続ける一方、肺がんによる死亡率は増加の一途を辿っているように読み取れる。予備知識なくこのグラフを見せられると「喫煙率が下がると肺がんは増える」という結論を導いてしまうかもしれない。
3,400冊以上の要約が楽しめる