あるあるビッグデータ in Digital Marketingシリーズ – SEASON 2:デジマ用語辞典(ビッグデータ分析編) – 第7話「重回帰分析をやってみる」
こんにちは。金澤です。
先日、滞在中のニューヨークで使っている携帯電話のSIMをT-Mobileに変更しました。
スマホのSIMは空港でも売っているのですが、やはり街で売ってる一般キャリアの方が割安だったりお得なプランが多かったりします。市外局番が選べたり、カナダとメキシコへの通話が無制限だったりとアメリカならではの付帯サービスがあってなかなか興味深いです。
さて、前回のブログでは重回帰分析のさわりをお話ししましたが、実際に簡単なものをやってみたいと思います。ここではエクセルでの一発ポンの方法と表の見方、重回帰分析をやる意味、気をつけなければいけない点についてフォーカスします。そして、何より用語集ですから、専門用語の意味についてですね。数式や難解な用語による説明は大学のサイトに売るほどありますが、それを読んで書いてあることがわかるようになることを趣旨とします。
1. 重回帰分析は多変量解析の一種類
前回までのお話のように、回帰分析は結果(目的変数)を引き起こす刺激(説明変数)との関係を数式で表すことですが、説明変数が一つだけで引き起こされる結果は、実際の世の中にほとんどありません。なので、複数の変数を用いて分析することが一般的です。前回の「居酒屋りきまる」の話の場合、話を分かりやすくするために、地元チームの勝利数と来店顧客数の関係を単回帰分析で行いましたが、実際は他にも来店が増減する理由があります。サッカーに関係なく、宴会シーズンや週末は混むでしょうし、寒日の月曜日は空いているでしょう。こういった様々な変数を複合させて分析するので、「単」回帰に対して複数の意味を持つ「重」回帰となります。また、重回帰分析の他にも複数の変数を使って解を導く分析は他にもいっぱいある(クラスター分析や成分分析など)ので、これらをひっくるめて「多変量解析」(Multi Variable Analytics)と呼び、一方、変数が一つだけのもの(単回帰分析、相関分析など)を「単変量分析」(Single Variable Analytics)と呼びます。
2. 単変量分析(単回帰分析)は何のためにある?
先述のように、世の中で起こる出来事は一つの刺激だけが作用するものではないので、説明変数が一つだけの単変量分析はナンセンスとも考えられます。しかし、これがないと多変量解析はできません。その理由は幾つかありますが主なものを。
直感的な関係性を数値化する
例えば、「りきまる」の例のように、サポーターが集う居酒屋ならチームの勝利数に来店数にある程度影響することは分析をしなくてもわかります。しかし、その「程度」(具体的な数)を把握することは長年務めるスタッフや店長しか解りません。回帰分析に限りませんが、多少乱暴な仮説であってもデータを分析して数値化するということは、専門家以外が同じ認識を共有するために非常に大切なことは言うまでもありません。
使える変数かどうかわかる
多変量解析は、単変量を複合させるものですから、単変量がベースになります。仮に、考えうる刺激(説明変数)が20個あっても、意味のない変数が多く混じっていれば、導かれた数式は無意味なものになります。例えば、地元チームの勝利数に加えて、荒川の平均水位やバンクーバーの積雪量を加えても明らかに意味がありません。こんな極端なことはまずしませんが、思い込みや閃きのみで変数を足してしまう場合は要注意です。円ドルの為替レートやライバルチームの勝利数などは、ひょっとすると関係がありそうなので足してみたくなりますね。これらが本当に関係あるのかを試験分析してみる意味で、単変量解析は非常に重要なものになります。
3. 重回帰分析をエクセルポン
さて、実際の重回帰分析をやってみましょう。デジタル万歳のこの時代、エクセルを使えば一発で出せます。Windowsは何の問題もありませんが、Excel 2011 for Macまでの場合は別プログラムが必要です。が、直近のExcel 2015 for Mac(Office365とセット)ではアドインを組み込めばすぐに使えるようになりました。ここでは、Excel 2015 for Macを使ったケースでやってみましょう。
ちなみにアドインは、ツール>アドインをクリックすると下記のダイアログが出てきますので、「分析ツール」にチェックボックスを入れればさくっとインストールされます。
※Windowでプログラムが表示されない場合
「ファイル」タブ>「オプション」>「アドイン」カテゴリをクリックします。
「管理」の [Excel アドイン] を選択し、[設定] をクリックするとダイアログが出てきます。
まず、変数を2つ以上作ります。ここで再び「りきまる」のケースとして、下記の3つの説明変数が、見込みがあると仮定して進めます。
Y (目的変数):来店顧客数
X1(説明変数1):チーム勝利数
X2(説明変数2):土日祝祭日
X3(説明変数3):気温
*本来はチーム勝利数0の日もあり、X勝している時の営業日数は複数日存在する(次の試合で勝つまでに1週間あるので)はずですが、ここでは説明をシンプルにするため割愛します。
表1のようなシートを作り、データタブをクリックすると右端に出てくる分析ツールのボタンをクリックして、回帰分析をクリック。ちなみに土日祝祭日は1か0のフラグで指定しています。
すると、下記のようなダイアグラムが出ますので、データの範囲を指定します。
入力Y範囲:目的変数のデータを指定します。
入力X範囲:すべての説明変数のデータを指定します。
その他のチェックボックスについては、用語説明で後ほど説明しますね。
で、OKをポン。
解析完了です。すごいですね。技術の力って。今の世の中、データさえあれば重回帰分析なんてチョチョイのチョイです。私が学生だった頃、統計学の授業は電卓持ち込み可で、数列式Σが出てくる数式にいろいろ代入して二乗して整数化して、という、文系にとっては可能な限りサボりたい講義でしたが、今はこんなに便利です。(ただ機械任せの危険性もすごくありますので、これは追って説明します。)
ともあれ、下記のような意味不明なデータと、変数Xの数の分だけ観測値グラフというものが出てきます。
で、何???
残念ながらエクセルはそこまで優しくないので、専門用語をわかりやすく説明はしてくれません。ここで用語集としての本領発揮になります。
4. 重回帰分析結果を読む
さて、これをどう読むか、ですが、本質的には全部理解して読め、ということになります(苦)。が、回帰分析から何を読んで、どう判断するかという点でお話しすると多少シンプルになります。実際、私がこちらで取る予定の分析のクラス(秋学期からなのでまだ始まっていない)の教授とお話ししたところ、「ビジネスに必要な所で十分。統計学的にディープな所は統計学の学位で勉強すればいい。」とのこと。そしてこうも付け加えました。「どの方面にだって、だからこそ専門家の存在意義があるんだよ。」なるほどなと。
というわけで、アナリストやデータ・サイエンティストではなく、マネジメントやプランナーといった「勘に頼らずデータを読めばもっといい仕事ができるはずの人たち」に必要なポイントに絞ります。実際、MBAなどでも同じような要点に絞って教えて、ケーススタディの方に重きを置くみたいです。
ともあれ、要点だけかいつまみましょう。
上記でオレンジになっているところが、求めたかった変数です。
今回、目的変数Y:来店顧客数を説明する3つの変数Xを設定しましたので、
求められる式は、
Y=aX1+bX2+cX3+d
になります。
切片は+dのことですので、係数の欄の-4.1500…がdの正体です。
X1とした「キッカーズ勝利数」に作用する変数aが5.093…
X2とした「気温」に作用する変数bが-0.077…
X3とした「土日祝祭日」に作用する変数cが2.452…
なので、これらを代入すると、
Y=(5.093 x X1)+(-0.077 x X2)+(2.452 x X3)-4.1500
ということになります
仮に、キッカーズが30勝した日が気温30度で祝祭日だった場合、
Y=(5.093 x 30)+(-0.077 x 30)+(2.452 x 1)-4.1500 =148.782人
の来店が見込まれる、とこの式は読んでいます。
一方で、ちょっと???なところも感じられませんか?
気温が高いとマイナス作用するの?
土日祝祭日のインパクトって2人ちょっと増える程度なの?
本当にこの予測正しいの?
などなど、直感と反する結果に違和感を感じますよね?
というわけで、次回は、先述のエクセルで算出した結果表をもとに、用語解説しながらこの違和感についてご説明していきます。

ストラテジック・フェロー 金澤 一央(記事一覧)
・I-COM Data Creativity Awards 審査員
・ニューヨーク大学大学院、School of Professional Study, M.S. Integrated Marketing在籍中
・主な講演・セミナー・寄稿等:日本経済新聞社、JADMA、インプレス、ビジネスブレークスルー大学など
ネットイヤーグループ、オンラインメディア測定に関する国際団体「I-COM」が主催する国際コンペティションの審査員に弊社金澤、コストフが就任(2015年4月17日)