あるあるビッグデータ in Digital Marketing シリーズ – SEASON 2:デジマ用語辞典(ビッグデータ分析編) – 第11回:エクセル回帰分析結果の表の見方(2)
こんにちは。金澤です。
ニューヨークではThanksgiving Dayをすぎると本格的な冬到来です。なので、その中の金曜日であるBlack Fridayは冬物グッズを買い漁る日でもあります。ちなみに僕はSoHoのPatagoniaでセーターやフリースを買うわけですが$1も負けてくれません。それでもお客さんはいっぱいいます。プロモーションも特にしてません。このように、曜日や天気やイベントの力はマーケティング効果を遥かに凌ぐことがよくあります。ただ、こういった「分析せずともわかる」外部インパクトの相関をデータで見た時、「予想通り」もしくは「なんかおかしい」と直感判断できると思います。これ自体がバイアス(偏り)です。データ分析における検定という行為は「その結果は有意=統計学的に確からしいのか」を検証することでバイアスをなるべく取り除こうという試みです。その方法論の一つが分散分析と言われるものです。
1.分散分析表と有意Fについて
まず、統計学における有意という言葉の意味を知っておく必要があります。まあ、漢字の意味と同じく「意味がある」ということなのですが、統計学上のニュアンスは、「統計分析で出た予測として意味がある」、すなわち「偶然である確率が低い」というものです。
参考: 有意
https://ja.wikipedia.org/wiki/%E6%9C%89%E6%84%8F
Wikiの内容だと、どうにも説明が難解ですね。細かい理屈は端折りますが、エクセル回帰分析の結果に出て来る、「有意F」、「P-値」、「t」という項目は全て、この予測モデルの確からしさを証明するための「仮説検定」と呼ばれる検算のような作業の結果スコアなのです。
統計的に有意である、ということは、平たく言うと、「この統計分析の結果は偶然ではない」ということになります。なので、アナリストは、この分析結果は意味がある=偶然ではないことを証明しなくてはなりません。
この、「もしかしたら偶然なんじゃないか?」と疑ってかかる概念を帰無仮説といって、これを否定するためのいろいろな計算を検定といいます。この検定にはいろいろあって、そのうち主要なものが、このエクセル回帰分析結果表にあらわれている、ということになります。
そして有意Fについて。これはF検定と呼ばれる検定を行った結果です。
ちなみにFとは、分散比による統計分析の大家であるロナルド・フィッシャー博士の名前から来ています。
まず、3つ以上の説明変数を扱う時、フィッシャー検定、すなわちF検定と言うものを行います。F検定は本来、抽出したサンプルの分散(正確には各サンプル群平均値の群間差と郡内差)を比べて、同じ散り方をしているか(等分散という)を検定するものです。同じ散り方であると立証されれば、各サンプル間に見られる特徴の差は偶然ではなく、法則性がありそうだ、つまり有意であるということになります。回帰分析においては、3変数以上をつかったときの回帰係数が0である確率、つまりこの仮説自体意味がない確率を出すために使います。
このF検定は分散分析(ANOVA = Analysis of Variance)という方法論の中で、一番ポピュラーなやり方の一つです。つまり、このエクセル表で言う分散分析表とは、F検定の結果表を指しており、自由度、変動、分散などのそれぞれの項目は、F検定の目的である「有意F」を算出するための途中計算だと思ってください。

この有意Fという数値は「この説明変数の組み合わせに意味はない」すなわち「この分析結果はたまたまである」可能性を表すもので、この数値が小さいほど、偶然の可能性が低い=まともな分析結果=有意っぽいということになります。もっと雑に言うと、有意Fが大きいほど、この分析結果は信頼できない(使っている説明変数のどれかもしくは全てが無意味)ということになります。
ちなみに、なんでネガティブなほうの可能性(〜ではない可能性)を出すのかというと、統計の検定は、常にバイアスの存在を疑うことを目的としているからです。基本的に科学の世界は、より多くの検証や批評に耐えた仮説が強い仮説=真理に近い仮説であると考えられます。統計学も科学の一つですから同様に仮説の優位性を疑うための検証方法がいくつもあります。これを耐え抜くからこそ仮説が法則に近づくのです。
ともあれ、ここでいう分散分析とはF検定のことで、有意FとはF検定の結果導かれる数値の事を指します(※1)。3つ以上の説明変数で重回帰分析を行う場合、各変数の分散を比較して「この変数の組み合わせで導かれた仮説は無意味な可能性」を検定するのがF検定であり、その値が有意Fなのです。
さて、居酒屋りきまるの例で、「有意F」は1.28219E-10という謎の数字になっています。

これは、指数表示と呼ばれるもので、普通に表現できないほど小さい(または大きい)数字を表示する時に使われます。
この場合、1.2829x(0.1)^10(10乗)という意味になります。
少数に直すと、0.00000000012829ですね。つまり、この係数の組み合わせによる回帰式がまともじゃない確率は0.00000001289%ということになります。すなわち、この回帰分析に使われた変数が0である=無意味な確率はかなり低いので、有位性が高いと言えます。
(※1)厳密に言うと、エクセル回帰分析における有意Fの数値は、分散分析の結果求められるF値のことではなく、そのF値に対応するP-値の事を指します。P-値とは各検定の結果を発生確率に置き換える値で、F検定だけでなく後述のt検定でもp値が使われます。おそらく混乱を避けるために違う名前にしているのだと思われます。
2.tとP-値について
「t」と「P-値」とは表裏一体で、tを求めるとP-値が出てきます。
tとはt値をあわらし、t値とは、t検定というもので求められます。なんでtかというと、これを開発したウィリアム・ゴセットという統計学者のペンネームがstudent-“t”だったからだそうです。
参考: t検定
https://ja.wikipedia.org/wiki/T%E6%A4%9C%E5%AE%9A
t検定は2つのサンプルの特性を比較して、その差に意味があるかを判断するための検定で、これまた帰無仮説に立脚します。回帰分析ではF検定と同様に、回帰係数が0である=無意味である確率を算出するために行います。F検定とt検定の違いは、
– F検定=3つ以上の変数につかう検定
– t検定=2以上の変数に使う検定
という点です。
つまり、どちらも目的は同じです。
重回帰分析は1つの目的変数+2つ以上の説明変数 = 3つ以上の変数を使いますので、回帰式全体の確からしさを検証するためにはF検定を行います。
一方、目的変数と各説明変数それぞれの単回帰式の確からしさを検証するためにはt検定を行うのです。
t値は絶対値が0に近いほど、この回帰式には意味がない、ということになります。で、2を超えると95%の確率で大丈夫だろう、ということになります。何で2を超えると95%かというと、「測定データが正規分布の場合、t値±2以内に95%のデータが入る」という統計学の法則がありまして、t検定はこれを前提としているからです。

そして、「かなり」を表現するために使うのがP-値です。P-値はt値に対応していて、t=±2の時、p=0.95つまり95%となります。つまり確率を表現するので、1以上には絶対ならない数値です。そして、P-値は「意味がない確率」を表す数値なので、小さいほど良いことになります。
ここで「『3.5516E-08』って1以上じゃん!」と言う話になりそうですが、先述の指数表示なので、3.5516x(0.1)^8のことなので0.000000035516ですから、「0.0000035516%の確率で意味がない」ということになります。言い換えると「99.9999964484%」の確率で意味があるっぽい、ということです。
ちなみに、何故ここで正規分布が出てくるのかという話について、ざっくりお答えすると、統計学上、データの分布から発生確率を推定する時は、平均値からの距離感で表すことになっており(t値)、その前提がデータが正規分布している(富士山のように±左右対称な放物線のヒストグラムになる)ことになっているからです。なので、確率推定をする場合にはデータが正規分布している必要があるのですが、実際のデータは必ずしもそんなに綺麗に分布せず、歪んでいます。これを何とかするために、何度もサンプル抽出を試行して、その平均を出し、出てきたいくつもの平均のさらに平均を割り出します。するとなんと、そのデータは正規分布するのですねー。(中心極限定理という)
この話をするとのt値3以上、P-値0.0000001以下のかなりの確率で読者が憤死するのでやめておきますが(笑)、ともあれ、t値とP-値はこの目的変数と説明変数が導く相関関係がハズレになる確率を示すもので、t値は平均値からの距離を示し、P-値がハズレ確率を示すものとご理解下さい。
3.上限下限95%とは?
さて終盤です。「上限95%」とか「下限95%」とは何か。
要は、各説明変数の「係数」が±どのくらいの範囲に収まるか、の上限と下限を指しており、95%とは信頼できる確率を指します。
先述のキッカーズ勝利数の場合上限が6.19で下限が3.99ですね。つまり、「キッカーズの係数は5.09だが最低3.99、最大6.19のブレ幅を95%の確率で取りうる」ということです。言い換えると、キッカーズ勝利数の係数は5.09±1.1ということになります。
4.まとめ 自分の回帰式の確からしさを検証する

なんとか謎解きが終わりましたね。
この表は、回帰式がちゃんとしているかを検証した結果の表ということが出来ます。そして、見るべきポイントは、下記の4つです。
補正R2:
– 回帰分析で得られたモデル(Y=aX+b)は変数間の相関関係を表しているかを見る
- 1に近いほど相関が強いモデル
- 0.9を超えていれば問題ない
- 工業製品の検品などは0.99を基準とすることもある
- マーケティングデータなどそもそも説明変数の分布が不安定なものは0.5くらいでOKとする場合もある。
標準誤差:
– このモデルの予測結果のブレ幅。
- ±の絶対値
- 大きいほど予測結果はブレる
有意F:
– このモデルに使った変数の組み合わせに意味があるかの確率を見る
- 数値が小さいほど意味がある
P-値:
– 各説明変数それぞれと目的変数との組み合わせに意味があるかの確率を見る
- 数値が小さいほど意味がある
りきまるの例で考えてみると、まず補正R2は0.94ですから、このモデルは強い相関を示しているといえますね。キッカーズの勝利や気温と居酒屋りきまるへの来客数には相関がありそうです。
一方、標準誤差が±7.48あります。第6話で紹介した目的変数=りきまるの来店者数は、最小値が10、最大値が103ですからこれに±7.48人のブレが考えられます。小さい来店数を予測する時はブレが大きすぎますね。これはちょっと問題です。
有意Fは0.00000000012829ですから極小。この3つの説明変数を使う事自体問題なさそうです。一方で、個別の係数それぞれのP-値をみると、キッカーズ勝利数は0.000000035516で極小ですが、切片が0.72, 気温が0.90、土日祝祭日が0.49と大きな数値をとっています。
つまり、検定の結果、キッカーズ勝利数以外の変数は、実は意味がない変数ということになります。R2補正と有意Fだけみると意味がありそうに見えてしまいますが、各変数を個別に見ると、実はかなりあやしい分析結果だということがわかります。
こうやって、使えそうな変数をみつけ、使えなそうな変数を外していく作業を繰り返すことで、重回帰分析は予測に使えるモデルになっていくのです。
ちなみに、この重回帰式をY=aX1+bX2+cX3+dとした場合、
a: キッカーズ勝利数係数5.09
b: 気温係数 -0.07、
c: 土日祝祭日係数 2.45
d: 切片 -4.15
と読み取れますね。X1を勝利数、X2気温、X3祝祭日フラグとして、キッカーズがまだ1勝で気温がなんと2度でしかも平日だった場合を予測してみましょう。
Y= 5.09*1+-0.07*2+2.45*0 -4.15
= 5.09-0.14+0-4.15
= 1.08
つまり1.08人しかこない計算になります。第6話の表にある実績で、キッカーズ1勝時の実績は12人で、最小値ですらありませんね。いくら気温が2度まで下がったとは言え、ちょっと考えにくい数字です。また、仮に気温がマイナスだった場合、気温の係数bX2はプラスの値を取りますね。-30度だった場合は+2.1人となってしまいます。
これらのことは、気温や土日祝祭日の変数が回帰分析には使えない、というわけではなく、りきまるのデータからは相関関係が説明できないということを表します。もし、データのレンジがもっと幅広く、サンプルの分母が十分に大きければP-値は十分に小さくなるかもしれません。
このように、幾度も検定を繰り返すことで、分析結果にサンプルや思い込みのバイアスをはずしていくことで、将来を予測するに足るモデルが作られていくのです。

・I-COM Data Creativity Awards 審査員
・ニューヨーク大学大学院、School of Professional Study, M.S. Integrated Marketing在籍中
・主な講演・セミナー・寄稿等:日本経済新聞社、JADMA、インプレス、ビジネスブレークスルー大学など