あるあるビッグデータ in Digital Marketingシリーズ – SEASON 2:デジマ用語辞典(ビッグデータ分析編) – 第5話「回帰分析ってなんだ」
こんにちは。金澤です。
みなさん、なんとなく誤解されていますが、僕はド文系の人間です。インディー・ジョーンズに憧れ、考古学科のある大学受験に失敗し、結果的に経済学部卒になりました。数学はしょっちゅう赤点でしたが、何故か代数幾何だけは好きでした。一方で方程式の暗記は大嫌いです(笑)。
何気に純文学を愛し、太宰治やヘッセみたいな陰鬱なやつを愛読していました。ちなみに、大学時代のゼミは人類生態学でして、一歩間違えればパプア・ニューギニアで原始人類文化の調査をしていたかもしれません。
縁あって東工大の社会人大学院にお邪魔したり、データ分析の事業なんぞをやっておったので勘違いされる方も多いと思いますが、超が付くぐらい文系です。そんな私がデータ分析の世界にいることは、さほど奇妙ではないぜ、ということをこのブログを通して感じていただければなあと思っております。
前説が長くなりましたが、回帰分析の説明に突入します。ちゃんと書くと数式にまみれてしまうので、基本的な考え方やこの分析の意義について、物語調に説明していきたいと思います。
1. 「回帰」ってなんやねん
おそらく、回帰分析を理解するにあたり、文系な人はその名前の意味不明さに引っかかるのではないでしょうか?
ましてや「重」回帰分析ってなんやねん、と。
残念ながら、日本の典型的な教育システムでは、言葉の意味をあんまり教えません。学術用語の多くは、えらい昔に無理やり和訳した結果、意味不明な日本語になっているものが多いのです。どうやら理系タイプの人は「物の名前=識別記号」という考え方ができるので問題無いみたいですが、文系ってラベルに意味を求めたくなるんですよね(笑)。ちなみにこの文系本能が分析の世界で役にたつと僕は思っていますが、これはまた別の話題で。
で、「回帰」ですが文字通り、戻ってくる、つまり、元の状態に戻る、という意味です。実はこの言葉、いろんな理系学問で使われる用語なのですが(天文学、統計学、物理学、哲学など)、ここでは、統計学における「回帰」分析すなわちRegression Analysisについて説明していきます。
2. 回帰分析の生みの親、ゴルトンと「回帰」の意味
まず、回帰分析とは、非常にざっくり言うと
「起こった結果から、その原因を数学的に求める試み」
と言えるでしょう。
すなわち、缶コーヒーが売れる場所や時間帯、価格帯という「結果」から、何故ヒトは缶コーヒーを飲むのか、という「原因」データを使って推察して、その法則性を関数式まで落とし込むことです。
「回帰分析じゃなくて要因分析とかの方がわかりやすくね?」という文系本能にお答えするべく、この分析の名付け親である、Francis Galton(1822-1911)のお話から始めたいと思います。
ゴルトンさんは19世紀後半に活躍したイギリスの人類学者で、ダーウィンのいとこで、ナイチンゲール(彼女は実は統計学者)の遠い親戚です。人類学、統計学の世界では超有名な方です。彼は医学を専攻していました。その後、従兄のダーウィンが提唱する進化論に影響を受け、遺伝による種の優劣を統計学的に解明しようという研究を開始。そして、後のナチスが採択した「優生学」という学問を創始します。
「優等な種の能力は遺伝によって継承される」という優生学のコンセプトは、要は人間の品種改良によって世の中を良くしよう、という純粋な科学発想だったのですが、ナチスによって「劣等種は淘汰」という方向に解釈され、人体改造や虐殺の科学的根拠に使われていき、今ではタブーな学問です。
ともあれ、彼は優等種の理由を遺伝に求める手段を統計的に立証するのですが、その有名なレポートが「平均への回帰」に関する研究成果です。(原題:”Regression Toward Mediocrity in Hereditary Stature”「遺伝的身長の平凡への退行(回帰)」)というものです。
彼は、身長の高い人たちを集め、その子供の身長と比較しました。結果として、子供たちは親よりも全体の平均値に近い身長(つまりそれほどでかくない)になるということがわかりました。つまり親の身長=子の身長(Y=X)という正比例の直線より傾斜がかかったグラフができあがります。
このグラフからわかるように、平均より身長の大きい親の子は親より低い傾向があり、身長の低い親の場合は子の方が高い傾向が出ています。これが孫、ひ孫と代重ねをしていくと、平均値に近づく(高身長→低身長)ことが予測できます。そう。regressionという言葉には、退行とか後退といったネガティブな意味合いがあるのです。
彼はこの他にも植物の種子などで同様の実験を行い、これらを通じて遺伝的優位性を見つけたかったのですが、結果として「偶然という変数」の方が強く作用している、ということを証明してしまいました。この時、彼が使った分析手法(関数式)を回帰分析(回帰式)と呼ぶようになりました。つまり、本来的な「回帰」の意味は、「分析してみた結果、退行結果になっちゃった」ということなのです。が、現在一般的に用いられている回帰分析という言葉は、結果から要因の法則性を見つける分析のことを意味するようになりました。実際、回帰分析は、正の相関(ポジティブ)を探すためにやることが多いので、「回帰」という言葉が本来持つネガティブな要素と混乱して「どこに回帰すんの?」と思ってしまいますが、実はこういう妙な歴史が背景にあります。
おまけ:
優生学のくだりだけ見ると、ゴルトンさんはマッド・サイエンティストの父のようなイメージになりますが、彼自身は学派を作らず、世のため人のために黙々と研究を続け、現代にも役立ついろんな成果(指紋による犯人捜査、競馬の血統理論など)を残しており、近代統計学の父とも呼ばれています。
3. 回帰分析の基本的なアプローチ
前段で述べましたが、いわゆる回帰分析は「結果から原因を数学的に推察すること」で、統計学そのものと言ってもいいかもしれません。そのくらい、統計学のベースになっている分析手法です。
そして、その軸となる方程式が、図1からもわかる通り、これです。
Y=aX+b
そう。一次関数です。回帰分析はこの式を求めます。グラフでいうと、比例直線ですね。Yが増えればXも増え、Xが増えればYも増えるアレです。
つまり、Yという結果を説明する変数Xとaとbを求めるのが回帰分析です。
この比例直線(図1の赤い線)のことを、「回帰直線」と言います。
シンプルですね。ちなみにこのシンプルな回帰分析のことを、「単回帰分析」と言って、複雑な方の「重回帰分析」(次回以降に説明します)と区別しています。
次は、YとXって何なのよ、について説明します。
4. 目的変数、説明変数
覚えてますか?前回のブログの「自然科学思考がもたらした、行動分析と関数の融合」の項でこの言葉が出てきました。
さらに言うと、第3話 でお話しした刺激と反応が大いに関係します。
おさらいすると、行動心理学の考え方では、人間は刺激によって行動を規定的しうる、ということになってます。
さて、マーケティングにおいて一番予測したいことは、打ち手にユーザーがどう反応するかということです。即ち、打ち手という刺激によって得られる結果、すなわち反応(行動)です。
なので、多くの場合、先述の一次関数におけるYは結果=反応(行動)を示し、Xは打ち手(刺激)を指します。そして、aとbは打ち手Xの程度を表すと思ってください。
そして、この分析で求めたいもの、すなわちYのことを「目的変数」(Objective Variable)と呼びます。
一方、このYがどういう法則性で起こりうるかを説明できる変数aX+bのことを「説明変数」(Explanatory Variable)と呼びます。
まとめると、マーケティング施策の反応を予測したい場合、
Y(結果)=aX+b(打ち手とその程度)
がどういう形で成立するかを探すのが回帰分析の目的になります。
そして、データマイニングで未来の事象予測をする場合の多くは、この回帰分析及びその変形版を用いています。
5. 目的の定義がないと回帰分析は始まらない
上記の関数Y=aX+bに具体的な数値を代入できるようにすることが回帰分析の目的ですが、ではどうやって求めるのでしょうか?
この場合、まず分析目的であるYを定義します。例えば、「平均50,000/月購買の顧客」でも「10,000クリックスルー/週の出稿広告」でも、なんでもいいです。とにかく、決めます。決めないと始まりません。
そして、大抵ここで引っかかります。
「KPIいっぱいあるから全部いっぺんに分析して」
「やるべき打ち手を決めたいから、効きそうなの、とりあえず出して」
わかります。そうですよね。わかります。
それでも、言わせてください。決めましょう、目的変数を。
行動心理学的アプローチは先に目的を決めて、これに影響を与えたであろう、幾多の施策を逆引きします。徹底的結果主義です。既に起こった結果を説明する履歴を根掘り葉掘り探していくという作業が回帰分析ですので、先に目的、すなわち「期待する結果」をYとして定義しないと始まらないのです。
私は分析事業責任者時代、ほとんどのセミナーで「まず目標を定義しましょう」とお話ししてきました。逆に言うと、多くの企業において、目標定義があやふやだったということです。つまり、KPIがあやふやなのです。個人的な見解でいうと、KPIは全てメジャラブル(測定可能)な物であるべきで、いわゆるコンセプトっぽい目標はKSF(主要成功要因)と考えるようにしています。つまり、KSFの内容(e.g. ブランドの顧客認知を向上するなど)を数値目標化したものがKPIと考えています。
(少し乱暴な指標解釈ですが、ご容赦ください。)
回帰分析に当てはめると、まずKPIをY、すなわち目的変数として縦軸を作り、この増加と比例関係になりそうな施策反応のデータを探してaX+b、すなわち説明変数に代入するのです。
実はこのXを探すのが一番大変であり、分析の肝でもあり、アナリストが飯を食える理由でもあります。
次回は、実際に簡単な回帰分析をやりながら進めていきます。

ストラテジック・フェロー 金澤 一央(記事一覧)
・I-COM Data Creativity Awards 審査員
・ニューヨーク大学大学院、School of Professional Study, M.S. Integrated Marketing在籍中
・主な講演・セミナー・寄稿等:日本経済新聞社、JADMA、インプレス、ビジネスブレークスルー大学など
ネットイヤーグループ、オンラインメディア測定に関する国際団体「I-COM」が主催する国際コンペティションの審査員に弊社金澤、コストフが就任(2015年4月17日)