データから因果関係を導くのは難しい。なぜなら「他の要因が影響していた可能性」を排除できないからである。
たとえばあるアイスクリーム会社で、ウェブ広告を出した2010年と出さなかった2009年の売り上げを比較し、2010年には売り上げが40%上がっていたとする。この場合「広告を出した影響により2010年の売り上げは2009年に比べて上がった」という結論を出すと、どんなまちがいをする危険性があるだろうか。
ここで問題となるのは、「広告→売り上げ上昇」という因果関係が、データ分析結果から導けるかどうかである。仮に2010年の夏が2009年の夏よりも猛暑だった場合、40%の売り上げ増は広告の影響ではなく、単に気温が高くなったために消費者がアイスクリームを求めたからと考えることもできてしまう。
「広告費」と「アイスクリームの売上高」のように、2つのデータの動きに関係性があることを、統計学では「相関関係がある」という。
データさえ手元にあれば、相関関係があるかないかを導くことは容易だ。だが厄介なことに、XとYに相関関係があることがわかっても、それで因果関係があるとはいえないのである。
ビジネスや政策決定においては、因果関係を正確に見極めることが大切だ。もし過去に売り上げが伸びたのが広告の影響ではなく、気温や経済活動の変化といった他の影響だった場合、多額の費用を投じて広告を打っても、売り上げは上がらないことになる。つまり投資がまったくのムダになってしまうおそれがあるのだ。
因果関係によってもたらされる効果のことを「介入効果」と呼ぶ。介入効果とは、介入により影響を受けた場合と、受けなかった場合との差である。たとえば電気料金の値上げがあった場合、価格上昇が消費者の電力消費に与えた影響(=介入効果)は、価格の上昇がなかった場合との差ということになる。
介入を受ける「介入グループ」と受けない「比較グループ」に分けて実験を行ない、両者の結果を比較すれば、「平均介入効果」として測定が可能だ。ただしその際に必要となる仮定がある。それは「もしも介入が存在しなかったとしたら、介入グループの平均消費量と比較グループの平均消費量は等しくなる」ということである。残念ながらこの仮定を立証することはできない。というのも「価格変化がなかった場合」の介入グループの消費量データは、現実には存在しないためだ。
ただし例外的にこの仮定を立証できるケースがある。それは「ランダム化比較試験(RCT)」により、介入グループと比較グループのグループ分けを行なった場合である。
ここでカギとなるのが、消費者のグループ分けをランダム(無作為)に行なうことだ。ランダムなグループ分けの利点は、ある程度多くのサンプル数が存在すれば、2つのグループは統計的に同質の集団とみなせることである。
これはグループ分けの悪い例を考えるとわかりやすい。たとえば「電力価格の上昇を経験してみたい」と申し出てきた消費者だけを介入グループに振り分け、それ以外の消費者を比較グループに振り分けた場合はどうだろうか。電力価格の上昇を経験してみたいという消費者とそれ以外の消費者とでは、特性が異なる可能性が高い。ゆえにランダムに分けることが求められるのだ。
データ分析を行なう際は、分析や結果の透明性が重要になる。分析者以外にも説得力のある説明をしなければならないからだ。統計的手法のなかには、分析方法が複雑なあまり、分析者以外への透明性が低いものも少なくない。
RCTの強みは、「介入グループと比較グループを比較して平均介入効果を示す」という、非常にシンプルな統計分析であることだ。要するに専門家でない人にも伝わりやすいのである。
3,400冊以上の要約が楽しめる