データサイエンスとは、「データから新たな知見を引き出し、価値を創造する科学」とよく定義される。データに基づく知見を、人間・組織の意思決定に活用していく。
人間・組織の意思決定とひと口にいっても、ごはんをどうするかという個人レベルのものから、企業の億単位の事業計画のような大規模なものまである。個人レベルのものは、この料理は以前食べたときとても美味しかったという経験の蓄積が大きく影響するだろうし、事業計画ではこれまでの事業データが意思決定の材料になる。
自治体や国家の政策決定についても、EBPM(エビデンス・ベースト・ポリシー・メイキング)と呼ばれる「証拠に基づく政策立案」が日本でも後押しされている。行政レベルの意思決定ではより信頼性の高いデータが必要となり、その実行は容易ではない。
本書では、そうしたさまざまな意思決定に対して応用可能な分析例を素材に、いくつかのデータ分析手法を解説している。ピックアップして紹介しよう。
まずは、自治体などが公開しているオープンデータの活用についてだ。
アニメや映画、漫画の物語の舞台やゆかりのある場所である「聖地」に赴く「聖地巡礼」は、「オタク層」を中心として流行している。滋賀県大津市は23カ所の「聖地」を抱えており、その魅力がいかに観光客の呼び込みにつながるか、オープンデータを使って考えたい。
先行研究によると、「聖地巡礼」は一度で終わるわけではなく、二度、三度と繰り返される、すなわちリピーターになる傾向が強いことが示されている。そうして同じ土地を複数回訪れるのであれば、聖地以外の魅力も不可欠の要素だ。
巡礼以外に地域で行うことについて調べたアンケート調査では、観光名所の観光が最も多かった。大津市には延暦寺や琵琶湖などがあり、世界的な観光地である京都も在来線で10分で行ける。
また、大津市は東京、大阪、名古屋からアクセスしやすいという点も大きい。日本国内で「聖地」の数が最多の岐阜市と比較すると、大津市に宿泊した延べ人数は4倍以上であり、各都市圏からまんべんなく宿泊客が来ていることもデータからわかる。
このように、誰もが簡単に無償で利用できるオープンデータからいろいろなことが見える。官民データ活用推進基本法では「国民参加・官民協働の推進を通じた諸課題の解決、経済活性化、行政の高度化、効率化等への期待」がうたわれており、政府や地方公共団体の持つデータの活用が目指されている。
複数のブランドが乱立する化粧水市場でどのような製品が上位を占めているかの分析を通して、基本的なデータの扱い方を見てみよう。
市場シェア向上につながる要素をできるだけ正確に知るには、個体の一つひとつに関する明示的な変数が得られる「個票データ」を得るのが本筋だが、その収集には莫大な時間的・経済的コストがかかる。仮説発見の段階では、ネットで公表されている「集計データ」からの分析が効率的だ。平均値のような「集団としての計測対象者全体に関する値」であるため、個票データに比べると情報量は劣るが、データの概略はつかめる。この集計データをグラフ化してデータの特徴を捉えるとともに、領域知識によって仮説発見へと導く。領域知識とは、対象物そのもの、あるいはその関連の知識を指し、データのグルーピングや関連性の把握などにおいて重要となる。
性別、年齢、価格、リピート率という指標で化粧水市場シェア率トップ10の製品を見てみると、売り伸ばしについてたとえば以下のような仮説と示唆が得られた。
3,400冊以上の要約が楽しめる