あるあるビッグデータ in Digital Marketingシリーズ – SEASON 2:デジマ用語辞典(ビッグデータ分析編) – 第9話「バイアスを取り除く」
こんにちは。金澤です。
ニューヨークの夏は思っていたより暑いですね。日本ほどの湿度はありませんが、しっかり蒸し暑い感はありますし、蚊もいます。まあ、僕のアパートがボロなので空調がしょぼいという点もありますが。ちなみに蚊取り線香があまり売ってないのでインドのお香を焚いていますが、全然効きません。
今回はバイアス除去のお話です。
1. 認知バイアスとヒューリスティック
前回でも述べましたが、人間である以上、思考には必ず偏りが存在します。自分の経験や知識、常識に基づいて人間は自動的に仮設を脳内で立てます。これをバイアスと言います。たとえ、客観的なデータに基づく分析であっても、分析者が人間である以上、必ずバイアスがかかるものです。そして、バイアスには良い面も悪い面もあります。
まず、悪い面からお話ししましょう。
いわゆる、「思い込み」や「偏見」と同義に捉えられるバイアスは、一般的に「認知バイアス」と呼ばれます。特に客観的根拠はないが、自らの過去の経験や他人からのアドバイス、文化や宗教、習慣などに基づいて物事を判断する考え方です。例を挙げると、
- アメリカ人は繊細な味が判らない
- ムスリムは過激な思考である
- 北国の人間は塩辛い味が好きだ
- ニューヨークは街が汚い
と言った感じでしょうか。一瞬、そうかも、と思えるかもしれませんが、少なくとも一部にしか当てはまらないですよね。(4つ目はだいたい正しい。笑)一部のグループが持つ特徴的な情報を見て全体がそうだ、と考えることを「認知バイアス」と呼びます。もう少し実務的な話に例えてみましょう。前回のブログの「居酒屋りきまる」のケースでは、地元サッカーチームの勝ち数と来客数に相関があるという仮説で分析していました。これを数字で検証し、法則性の有無を探すことが、認知バイアス除去の試みです。つまり、データ分析という行為は、仮説から認知バイアスを取り除く試み、とも言えます。データ検証によって説明できれば、その仮説は、より確からしい仮説であると言えるわけです。ちなみに、認知バイアスという言葉は、往々にして、事実に反した偏見のことを指し、ネガティブな意味で使われます。
一方で、時にバイアスは有用です。例えば、客観性を担保するために、ありとあらゆるデータを考えうる全ての分析手法で分析するとなると、それはもうとんでもない労力です。この場合、信頼できそうな認知バイアスに乗っかってしまうことが良い場合もあります。例えば、経験豊かなプロの知見や判断に委ねることで、無意味かもしれない分析工程を省き、労力を必要な部分にだけ集約することができます。このような、過去の知見のことをヒューリスティック(経験則)と呼び、知見のある専門家のレビューや分析のことをヒューリスティック分析といいます。プロの世界ではわかりきったことを基準値として分析をしていくので、無駄な労力を省き、ある程度の精度を持った仮説をスピーディに出せるという利点があります。心理学の世界では、ヒューリティックによって覚えた認識を認知バイアスと呼んでおり、この2つはコインの表と裏のような存在なのです。

2. バイアス除去:データで説明できない仮説を取り除く
ここまで読むとお気づきかもしれませんが、戦略コンサルなどで使われるフレームワークを使って経営戦略を立てることも、去年データで立証した法則性を今年の収益予測に使うことも、知見に基づいたヒューリスティック分析であるとも言え、認知バイアスに基づいているとも言えます。人間が未来を予測するという行為は、常に少なからずバイアスが存在します。これが少ない(もしくは無害なバイアスである)ことを説明出来ることで、その仮説の信憑性は上がっていきます。
データ分析とは、可能な限り無根拠な思い込みのバイアスを下げ、より「確からしい」未来予測を確率論で考えるために、データで仮説を説明することです。これによって、仮説は数字で説明出来るようになるので、信ぴょう性や確率を数字で評価することができます。ただし、その数値は100%には絶対になりません。「りきまる」のケースで言うと、地元チームが10勝した時よりも20勝した時の方が来店する確率は高いかもしれませんが、100%ではないですよね。天気や交通規制、チームのスキャンダルなどの不測事態で変わる可能性があります。このように想定される変数をなるべく取り込むために多変量解析を行うわけですが、それでも全条件を網羅はできないので100%の予測にはなり得ません。それでも、データのない根拠は外され、数字で立証できる変数のみ残していくことになるので、仮説の信憑性は上昇します。バイアス除去とは、データで説明できない仮説を取り除いていく作業と言えます。
3. バイアス除去:再現性の検証
もう一つ、データ分析のバイアス除去で重要なポイントは、再現性の検証です。つまり、分析の結果、幸運なことに当初仮説がデータで説明できて、信憑性の高い素晴らしい予測モデルが導けたとします。実はここからがデータ分析の本番で、違う分母でこのモデルを試すのです。この行為をバリデーション(Validation:検証という意味)といいます。
このバリデーション、すなわち再現性の検証は、ざっくり言うとサンプルデータの分母を変えることで行われます。基本的に統計分析を行うとき、アナリストは必ず母集団と呼ばれる大きなデータ群(例えば全ての顧客購買履歴)から一部を抽出して、これをベースに仮説検証を行います。なぜかというと、母集団は非常に巨大すぎて全てを対象とすると処理的にしんどいからです。(ビッグデータ時代の現在、ソフトもハードもかなり大規模データ処理能力は上がっていますが、それよりもデータは増える一方なので、今でも日時やセグメント別などのサンプル抽出が分析データソースの基本です。)下記の図のように、同じ母集団からまずAというサンプルでモデルを作ります。バリデーションは、そこから導かれた仮説モデルをBやCというサンプルで試す行為です。これで、どのサンプルからでも同じような分析結果が出れば、再現性が高い、すなわち確からしいという事になります。

このように、違う分母で数回比較するわけですが、どういう状態なら再現性が高いと言えるのでしょうか?次の図を見てください。
最初に抽出したサンプルAのデータでY=aX+bという予測モデルの仮説となる回帰直線が出来たとします。これにサンプルBで同じ分析をした結果を出してみます。かなりモデルに近いところに分析結果が集まっていますね。一方でサンプルCで検証した場合、結果が分散しています。
つまり、この仮説モデルは、全体論で考えるにはちょっと怪しいかも、となり、変数の変更や当初仮説そのものの変更を試みます。逆に数回のバリデーションで、近しい結果が出続ければ、そのモデルは全体論で考えても再現性が高い、つまり確からしいと言えます。
4. バイアス除去は科学的思考
この様に、バイアス除去とは、仮説から思い込みや偏見を取り除くことです。別の言い方でいうと、主観的な考えを客観的に説明できるようにすることです。そのためには、データという無機質なもので考えの裏付けを説明できるかということが重要で、これがデータ分析という行為に求められる根源的な本質と言えるでしょう。堅い書き方をしてしまいましたが、要はこういうことです。サンプルは僕の幼少期の実話です。
僕:”ファミコン買いたい。だって「みんな」持ってるもん。”
親:”「みんな」って誰で何人だ?近所のことか?学校でか?北海道でか?日本でか?”
僕:”うぐぐ・・・”
実はデータ分析って、こういうケチな親にファミコン買ってもらうための裏取りと同じです。
冒頭で述べたように、人間がものを考え、発信する以上、必ずそこにバイアスがあります。決してなくなることはありません。たとえ客観的なデータに基づいていても、何らかのメッセージの確からしさを補強している時点で、そのメッセージを通そうとするバイアスがかかっています。そして、完全除去は不可能です。つまり、データに基づいていてもバイアスは存在しており、バイアスには良い面もある。大切なことは、「自分の考えには必ずバイアスがある」、ということを自覚して、フェアな視点で見つめるという姿勢であり、それを極力排除するために事実に基づいたデータで検証することがバイアス除去なのです。そして、こうしてバイアスが可能な限り除去された状態で説明出来る分析結果が「再現性が高い」や「確からしい」、すなわち「真理に近づいている」と言えるのです。この考え方が科学的思考です。
最後に小話を。バイアスと科学的思考の戦いとしては、天動説と地動説の論争が有名ですが、この論争きっかけは、大航海時代に突入した当時の時代背景があると言われています。羅針盤が実用化されたことで欧州各国は遠洋航海に乗り出せたのですが、当時の遠洋航海には、方位がわかる羅針盤の他に、正確な星図(星の位置を示すもの)、そして星の位置を測量する象限儀というものが必要でした。しかし、それまでの天動説ベースのユリウス暦には誤差があって、1000年誤差が蓄積された結果、実際の星の位置と暦が10日ぐらいずれてしまうようになり、天動説だといろいろ辻褄が合わず、当時正しい暦を考えることは学術界で一種のトレンドとも言えるものだったそうです。つまり、「最近怪しい暦の根拠である天動説を疑う」という仮説が地動説発生の原動力であり、そこから可能な限りバイアスを取り除くために様々な観察と実験を行い、数値検証したのがガリレオです。そして、彼が説明しきれなかった内容はケプラー、ニュートンに引き継がれ、地動説は定説になります。ちなみにガリレオが提唱したのは西暦1600年ごろですが、ローマ・カトリック教会が地動説を正式に認めたのは1992年(結構最近!)だったりします。
ガリレオは実験結果を数的に説明した最初の人とも言われています。正確には「バリデーションの父」と言えるかもしれませんね。
次回は、バイアスを判断する指標(相関係数など)についてお話します。

ストラテジック・フェロー 金澤 一央(記事一覧)
・I-COM Data Creativity Awards 審査員
・ニューヨーク大学大学院、School of Professional Study, M.S. Integrated Marketing在籍中
・主な講演・セミナー・寄稿等:日本経済新聞社、JADMA、インプレス、ビジネスブレークスルー大学など
ネットイヤーグループ、オンラインメディア測定に関する国際団体「I-COM」が主催する国際コンペティションの審査員に弊社金澤、コストフが就任(2015年4月17日)