ビジネス課題解決のためのデータサイエンス予測モデル例
デジタルマーケティングプロデュース事業部のコストフです。
前回のブログでは、統計モデルの誤用もしくは数理統計を理解しないまま利用することによる危険性についてお話ししました。
おそらく、もっとも一般的な統計モデルの誤用は、「相関=因果」という関係式を誤って当てはめてしまうことです。また、Big Dataを扱うにあたってのコンピュータ処理とストレージの問題、そしてデータサイエンス・プロセスの概要について議論しました。
最後となるこの3回目のブログでは、ビジネス価値を恒常的に高めるデータサイエンスの活用について、もう一歩深く踏み込んだお話しをします。まず、データサイエンス予測モデルによって解決出来る、具体的なビジネス課題について。次に、2つのポピュラーな予測モデル、決定木モデルとロジスティクス回帰モデルと、ビジネス課題解決に際してのそれぞれのモデルの特徴をレビューしていきます。
1. データサイエンス予測モデルが解決出来る、具体的なビジネス課題
まず、幾つかの典型的な課題解決例を見てみましょう。ちなみに、これらは事例であって、網羅性を担保するものではありません。
- ターゲット・キャンペーン最適化を活用したコンバージョン率(CVR)の改善
▶ お客様のビジネスモデルにもよりますが、CVRは色々な意味を持ちます。購買率、契約締結率、顧客獲得率などです。キャンペーンにおけるターゲティングは、シングル、マルチ、時にオムニチャネルといった範囲で、eメールやディスプレイ広告、ダイレクトメール、コールセンター(インバウンド、アウトバウンド)などの接触媒体を使って構成されます。この課題解決の場合、個人識別や反応履歴データなどを用いたキャンペーン反応予測モデルが組み上げられ、これを未来のキャンペーンに適用する、というのが典型的な例です。まず初期のユーザーリストは、”most likely”(9割方反応する)から”least likely”(ほぼ見込みなし)までのいくつかのグループに分類されます。こうして出来たリストにカットオフ・ポイント(有効ターゲットを定める境界線)を定めることで最適化を試みます。各施策はカットオフ・ポイントより上位のリストに対してのみ配信され、下位のリストには配信しません。つまり、もっとも反応しそうな人の上位にのみターゲッティングすることで、無駄な配信を減らし、CVRを向上させるわけです。 - ターゲット・キャンペーンの活用による利益/売上の向上やコスト削減
▶ これは先述の話に似ていますが、キャンペーン反応者は、キャンペーン反応予測よりも、利益/売上/コスト貢献スコアでランク付けされています。 - クロスセル/アップセルの最適化
▶ これは、類似購買行動に基づいた、典型的な追加購買リコメンデーションのことです。 - 顧客減少の低減、顧客の再活性化
- 重要ビジネス期間(会計期、キャンペンクールなど)ごとの利益/売上/コストの超過予測、製品の需要予測
- 在庫回転率の最適化
- 不正(保険詐欺など)の発見
- マルチ/オムニチャネルのマーケティングコスト最適化
- 顧客のアトリビューションモデル構築
これらの例からわかるように、データサイエンス予測モデルは極めて広範なビジネス課題解決に対応することができます。次に、幾つかの典型的な予測モデルと、そのモデルをどうやって課題解決に適用するか、について見ていきましょう。
2. 決定木による予測モデルについて
このモデルは、ターゲットキャンペーンにおいて、主にCVRや、売上、利益、コスト効率の改善に用いられます。過去のキャンペーン反応履歴に関する各種詳細データ:購買行動履歴(オンライン/オフライン)やWEBアクセス、デモグラフィック、キャンペーン内容(インセンティブや接触プランなど)、製品情報、イベント情報、営業情報などのデータに基づいて、顧客は2つ以上のカテゴリーに分類されます。
仮に、ビジネス課題がキャンペーンのCVR最適化であったとすると、まず顧客グループは2つのカテゴリ、つまり、「過去のキャンペーンに反応した/しなかった」、に大別されます。
一方で、ビジネス課題が売上の最適化だったなら、顧客グループは少なくとも3つのカテゴリ、つまり「低顧客単価(このカテゴリには無反応顧客も含みます)」、「中顧客単価」、「高顧客単価」に分けられます。
ここで、キャンペーンCVR向上の仮説例として、下記を紹介します。(売上向上仮説ではありません。)ちなみにモデルの基本構造は同じなので、ビジネスにおけるCVR=顧客転換率の向上仮説もこれと似ています。
このモデル構築の目的は、履歴データに基づいた、未来に予定されている類似キャンペーンの効果予測となります。
CVRの相違によって分類された顧客リストから、コンバージョンに寄与する統計的意義の深い因子(説明変数)の組み合わせを見極める、というのがこのモデルの特徴です。
”高CVRの顧客グループ”と”低CVRの顧客グループ”を思い浮かべてみて下さい。この顧客グループをCVRの高低順に並べ、これをターゲット・キャンペーンの最適化戦略に活用します。
このターゲット・キャンペーン最適化戦略とは、どんなものになるでしょうか?
まずカットオフ・ポイントを定め、未来に予定されたキャンペーンにおいて、これより上位のリストに配信をすることになります。この上位顧客グループを「ベスト・グループ」と呼ぶことにしましょう。ここで留意すべきなのは、この分類をした時点で、我々はCVRに対する貢献因子の組み合わせを認識出来ている、という点です。つまり、より詳細の顧客グループを定義することが出来るわけですから、顧客のキャンペーンニーズがさらに施策とフィットするように、各グループに施策をパーソナライズすることが出来ます。
一方で、カットオフ・ポイントより下位の顧客グループについて、彼らを”ワースト・グループ”と呼ぶことにしましょう。彼らに対して、たとえ何の施策も打たないとしても、彼らのCVRが低い理由を発見するために、データを深掘りする必要があります。
ここに、ターゲット・キャンペーンに用いられた、CVR最適化の決定木予測モデルの仮説例があります。

お客様(クライアント)は100,000の顧客リストを保有していると仮定して、過去データによると、ノンターゲット・キャンペーンで獲得した顧客は10,000顧客のみとします。よって、同キャンペーンの平均CVRは10%となります。
まず、2つの強い統計的意義を持ったコンバージョン貢献因子で決定木をつくります。
(1)昨年に購買したことのある顧客(リセンシー(最新性)指標)
(2)(1)のうち、購買頻度が高い顧客(フリークエンシー(頻発性)変数)
この2つの強力な貢献因子に従って、決定木は自動的にすべてのユーザーを3つのターゲットに分類することができます。
(1)グループ1:CVR 50%、ユーザー数8,000
(2)グループ2:CVR 4%、 ユーザー数1,000
(3)グループ3:CVR 2%、 ユーザー数1,000
この、直近キャンペーン結果を未来に当てはめて、最適化戦略を立ててみましょう。
どこがカットオフ・ポイントになると思いますか? 考えるまでもなく、素晴らしいCVRのグループ1は次のキャンペーン・リストに採用です。でも平均の10%CVRよりも低い値の、グループ2はどうでしょう?
もしグループ2を次のキャンペーンに適用したら、さらに1,000ユーザーを獲得できるので、より顧客を獲得することが出来ます。もし、率(CVR)だけでなく絶対数を求めたいならば、グループ2を次のリストに加えるのが良いビジネス感覚と言えるでしょう。したがって、グループ1と2のデータから算出すると、
グループ1+グループ2:(8,000+1,000)/ (16,000+24,000) = 0.23
ですから、カットオフ・ポイントは23%の線になります。
同時に、配信対象は40,000ユーザーですから、前回の全配信対象に対して60%減となり、単純計算すると4掛けの配信コストで済みます。(実際はそううまくいきませんが)
このモデルでキャンペーンを実行すると、前回の40%のコストで90%の顧客を獲得できるのです!
しかしながら、効率の悪いグループ3は除外推奨しなければなりません。その一方で、直近のキャンペーンにフィットしなかった彼らのインサイトについては、深く掘り下げる必要があります。ユーザーエクスペリエンスの観点から見ても、このグループ3の除外決定はパーフェクトです。何故なら、グループ3ユーザーは、興味のないノイズ・キャンペーンから解放されるのですから。
決定木予測モデルから発見されたインサイトをお客様に説明する場合、下記のような、直感的で、シンプルで、理解しやすいターゲット・キャンペーンの最適化戦略を、推奨することが出来ます。
「我々は、直近のキャンペーン分析結果から、下記のルールに基づいた意思決定を次回キャンペーンに採用することを推奨します。」
(1)昨年2回以上購買した顧客(グループ1)がいたなら、キャンペーン配信をすべきです。さらなる成果のために、可能ならば、このグループのためにキャンペーンをカスタマイズすることをお勧めします。
(2)昨年1回のみ購買した顧客(グループ2)にも、キャンペーンを配信しましょう。これも可能なら、内容をカスタマイズすることをお勧めします。
(3)昨年1度も購買しなかった顧客(グループ3)は、配信対象から除外しましょう。期待CVRはわずか2%であり、前回のノン・ターゲティングの平均CVRである10%に遠く及びません。一方で、この顧客グループをよく分析する必要が有ります。何故なら、直近のキャンペーンは彼らにとって適切なものではなかったからです。ユーザーエクスペリエンスの観点からも、配信除外は正しい選択です。
上記の戦略を実行することで、次回キャンペーンは前回と比較すると、平均CVRが10%から23%に向上するわけですから、前回比125%の効率向上が期待できます。付け加えるなら、全転換顧客の90%を、40%のコストで獲得できます。
さて、決定木モデルの詳細についてご紹介してきました。
次に、データサイエンスにおいて非常にポピュラーな別のモデルについてご説明しましょう。
3. ロジスティクス回帰予測モデル
活用できるビジネス課題や、モデルのアウトプット、意思決定プロセス、得られる示唆という点において、ロジスティクス回帰分析は非常に決定木分析と似ています。従って、ロジスティクス回帰モデルの構築プロセス詳細には言及せず、決定木分析との違いにフォーカスして説明します。
この2つのモデルにおける最も顕著な違いは、決定木は複数顧客から成るターゲットグループを作るのに対し、ロジスティクス回帰は各顧客個人のコンバージョン・スコア(確率)を求めるという点です。個々の顧客が、それぞれ最小の”ターゲット・グループ”であると想像してみてください。そして、それぞれが、ノンターゲット施策にと比較した顧客転換見込みを表すコンバージョン・スコアを持っています。モデルのアウトプットは、お客さまが考えている見込み客リストを、次回キャンペーンで配信すべき対象のみに絞り込んだ顧客リストです。
まず、決定木と同じように、過去の顧客行動履歴データを用いて、すべての見込み客はコンバージョン・スコアの高い順に並べられます。
そして、ノンターゲット時のCVRと比較したカットオフ・ポイントを定め、上位のリストは未来のキャンペーンにおける優良見込み客となります。
データサイエンティストは新しい潜在見込客のデータを受け取り、過去データで作られたロジスティクス回帰モデルによって新リストの見込み客個別にスコアを付け、カットオフ・ポイントより上の見込み客へのキャンペーン配信を推奨するのです。
さて、次の仮説例を見てみましょう。
まず、ロジスティクス回帰モデルを組むにあたり、ノン・ターゲット時の平均CVRは40%、つまりスコアは0.4であると仮定しましょう。
右端の列を除けば、この表は、新規に入手した潜在顧客のリストデータ(新リスト)であることがわかります。そして、この新リストにおける顧客属性データと、ロジスティクス回帰モデルの作成時に使われた顧客属性データ(過去リスト)が比較可能なものである、と仮定します。
新リストのデータをモデルに投入し、図にあるような新しい列を作成して、スコアをつけます。さて、次のキャンペーンの最適化戦略のために、どこにカットオフ・ポイントを置くのが良いでしょう?
今回、少なくとも前回の平均CVR以上のスコアを持つユーザーに配信したいので、カットオフ・ポイントは0.4が妥当です。これによると、上記図においては1行目から3行目までのユーザーが配信推奨の対象となります。
結論
▶ このモデルにおいて、ユーザーは過去の履歴に基づいた「類似グループ」に分類されます。
▶ 高CVRの期待値が高いグループのみが、未来のキャンペーンにおけるポテンシャルとして選別されます。
▶ 同モデルは、ユーザーの個別データにスコア_付けを行うことで、次回キャンペーン用の配信リストを生成します。
▶ カットオフ・ポイントよりも高いスコアを持つユーザーは、次回キャンペーンの優良ポテンシャルとなります。

デジタルマーケティングプロデュース事業部
アナリスト Krassimir Kostov(コストフ クラシミル)
(記事一覧)
2011年、ネットイヤーグループ株式会社に入社。
前職は銀行の顧客データ分析に従事。ネットイヤーグループではアナリストとして、 ファッションブランド・生命保険会社・中古車販売店・製薬会社などの顧客データ分析を手掛ける。
I-COMのデータサイエンスボードの会員、データサイエンスハッカソンの審査員も務め、社内でのI-COM、グローバルマーケティング業界の教育も進めている。
ネットイヤーグループ、オンラインメディア測定に関する国際団体「I-COM」が主催する国際コンペティションの審査員に弊社金澤、コストフが就任(2015年4月17日)