Amazonなどが採用しているレコメンドアルゴリズムのような技術は、アイテム間の購買傾向の類似性を利用したものであり、相関はその一種だ。この場合の相関とは、「アイテム間の併売の起こりやすさ」を示す。
ここで注意したいのは、同時に購入されやすいことと、片方の購買がほかの商品のニーズを生み出していることは違うということだ。プリンターの購入がインクの購入を促すのは補完材として因果の関係にあるが、おむつとビールが併売されやすいという現象は相関の関係にすぎない。この違いを認識しておくことはマーケターにとって重要となる。
「相関している」とは「対応している相異なる2つの変数の値が関連して動く傾向にある」状態を指す。因果関係を少しカジュアルに定義するなら、「一方の変数を変化させる(その変数以外は動かさない)と他方の変数の値も変わる」2変数の関係だ。広告出稿額を増やしたら広告表示回数も増える、というようなことである。多くの例では「因果関係があれば相関関係がある」。
逆に、「相関関係があれば因果関係がある」とは必ずしもいえない。アイスクリームの生産量が高い時期に水難事故が増えているからといって、アイスクリームの生産を止めたら水難事故がなくなるわけではない。このように、暑い季節といった共通の要素が2変数間に相関関係をもたらしているとき、これを疑似相関と呼ぶ。
データを見ただけでは、それが疑似相関なのか原因・結果の関係にあるかを判断するのは難しい。また、サンプルサイズが小さすぎると、たまたま相関しているように見えることがある。
アメリカでは、アメフトの勝敗が株式市場の動きと連動して見える現象について、そこに「科学的な因果関係を仮定することは現実的ではない」という捉え方が主流である。相関関係を持つデータにもとづいてこのように仮説を立てることは、ビジネスの意思決定において、思わぬ落とし穴となる可能性もある。
次のようなケースを考えてみよう。A社は、関東と関西で、新規顧客獲得のための地域別の広告キャンペーンを展開することになった。もともと関西は主要な市場であり、商品浸透率やブランド知名度は非常に高い一方で、関東では改善の余地があったため、関東での広告出稿を増やした。そして、広告を見た人と見ていない人とで商品の購買割合にどのような変化が生じたか、効果測定を行なった。
その結果、関東と関西のいずれも、広告を見た人のほうがそうでない人よりも購買割合が高くなった。しかし、関西と関東を合わせた全体の数値で見ると、広告を見ていない人のほうが高いという結果になってしまった。
このように、関西と関東のような変数で切り出した集計と、全体の集計データとで整合性がとれなくなる現象を、シンプソンのパラドックスと呼ぶ。
データだけを眺めても正解は判断できない。その解釈は、「データの生成過程に深く依存している」のだ。そこで因果の仮説を立てて考えてみる必要がある。
3,400冊以上の要約が楽しめる