あるあるビッグデータ in Digital Marketingシリーズ – SEASON 1:あなたのデータは宝かゴミか? – 第3話「データの断捨離をしよう」
こんにちは。金澤です。
私事ですが、先日、渡米に向けて本棚の整理をしました。読書量はさほどではないと思っていたのですが、処分を決定した本だけでダンボール3箱になってしまいました。基本的に、影響を受けた文学小説やマーケティングのバイブルのような原論(コトラーさまとか)などは永久保存枠として残留決定ですが、一番判断に困ったのがビジネス読本系です。そして、ほとんど捨てました。なぜかといえば、今読んでも多分意味がないと思われるからです。
今回のテーマは、少しこれに関連してきます。そう。デジタルデータの断捨離についてのお話です。
データは、あればあるほどありがたい、というのが分析やの本音です。その一方で、費用対効果も考慮しなければなりません。昨今、ストレージ領域は無限に近く、かなり格安です。処理速度も速い。でも、これを分析する人間の労力は基本的に変わりません。ですので、分析しなくても良いデータは可能な限り対象から外すことが必要になります。これがデータにおける断捨離の考え方です。
基本的に、マーケティング活動の履歴は、その時の「今」に大きく影響を受けています。つまり、その瞬間以外では説明できないノイズがいっぱい含まれています。これはビジネス読本系の書籍に似ています。例えば私は今回、数年前のSEOの本やWEB2.0なんとかや、シリコンバレー最前線なんとかといった本を段ボール箱に詰めこみました。これらの本は、今も新解釈やバージョンが出ていますね。そして、あるといつか役に立つ気がしても、読み返したことは一度もなく、今後も役に立つことはないでしょう。
基本的に、マーケッターがビッグデータ時代に直面するデータの正体は、巨大なトレンドの集合体です。陳腐化した瞬間にゴミになるといっていいでしょう。つまり、古いものはバサバサ捨てていくべきで、少なくとも分析という労力をかける対象から外すことをお勧めします。
もちろん、残さなければならないデータもあります。契約継続中の既存顧客や補償対象者などの個人情報と履歴がそれにあたるでしょう。これらのデータは、僕が残したコトラーのマーケティング原論のようなもので、いつか重要な示唆を与えてくれ、何より所持することに責任が発生する大事なデータです。これらのデータは別枠でしっかり管理しましょう。それでも、古すぎるデータの場合、分析対象となることはかなり稀です。なんらかの時に引き当てられる状態は維持しつつ、日々の分析対象からは外すのが良いと思います。
25ヶ月保存の原則
前回までのお話で述べてきたように、大体の過去データは、基本的にゴミと言わざるを得ません。
まず、分析可能な状態じゃないから、というのが前回の主論点でした。これに加えて、既に時代遅れである、という点を今回加えたいと思います。こと、マーケティングにおいて、マーケッターがすべき仕事は、直近もしくは未来の売上にポジティブなインパクトを与えることです。仕掛け、と言ったり、仕込み、と呼んだりします。(ちなみに、後者のほうが暗躍してる感じがあるのは何故でしょう?)
それはさておき、期待効果の時間軸の差はあれど、売上に貢献せねばなりません。
そこで、過去のデータから未来を予測する、というのが、マーケッターがデータに期待することですが、じゃあ、どのくらい過去?というお話です。基本的に、少なくとも現代において、データ保存の基準を25ヶ月とすべき、というのが私の持論です。これは、アクセス履歴でも、購買履歴でも、広告反応履歴でも同じです。
主だったSaaS系のシステムをご利用の皆様ならお分かりの通り、基本的にSaaS系のデータサービスは、大抵13ヶ月ぐらい遡れるはずです。つまり、前年同月比を比較測定できるようにできています。これは、サービス提供側のストレージキャパを抑える都合でもありますが、実際、マーケティングの現場において必要にして十分なサイズであろうと思います。弊社でも、基本的に定点観測用のレポートフォーマットは13ヶ月表示を基準としています。なぜなら、定例会などで問われる報告は、基本的に年度内の達成進捗であり、対前年同月だからです。
一方、日々の運用ではOKだとしても、分析となるともうすこし欲しいところです。少なくとも、前年同期比(四半期・半期単位・会計年度)は節目で必要な比較対象ですし、何より、季節要因などの俯瞰トレンドはマストでしょう。なので、基本的に25ヶ月分は、できればデータソースの状態(表組みされる前のCSVなどの集合体という意味で)で持っておきたいところです。
一昨年のデータはいらないのか?
一方で、1年以上前の古いデータも気になります。例えば、中期経営計画進捗を求められたときなど。特に、直近の会計年度の途中で「前々年度」からの進捗を問われたりする場合ですね。この場合、25ヶ月分では足りません。最大32ヶ月必要になります。でも、それは定点レポートの累積で十分であって、少なくとも、マーケティングの現場において、2年前のローデータは必要ないでしょう。(経営分析や商品開発に使う場合はこの限りではないですが)その理由は、過去のデジタルビヘイビアを考えてみればわかります。
例えば、2013年には、何が注目されていたでしょうか?
Google Trendsで調べてみると、この年の急上昇ワードは、「台風」「パズドラ」「あまちゃん」「半沢直樹」「iphone5s」です。ソチオリンピックの前年であり、進撃の巨人がブレイクし、富士山が世界遺産に認定され、NISAがデビューしました。
「2013年ランキング」Google Trends
これが2014年も継続して上位に入るのは、開催当年であるソチオリンピックと、自然現象である台風のみ。アニメのトレンドは「アナ雪」「妖怪ウォッチ」であり、スポーツはサッカーの「ワールドカップ」、話題の人は「小保方晴子」と「錦織圭」であり、「堺雅人」も「能年玲奈」も上位には入りません。
「2014年ランキング」Google Trends
2015年の集計はまだですが、おそらく、2013年のトレンドデータが上位に入ることはほぼないでしょう。これだけではなく、この当時ブレイクすると言われたサービスは今どうなっているでしょうか?
ちなみに私も今やヘビーユーザーであるLINEは、2013年開始時点では1億ユーザーですが、2014年7月末には4.9億人に達しています。
LINE 2014年10月-2015年3月媒体資料
これは、一つのサービスのブレイクが読みづらい事実と同時に、これに関連するユーザーの行動傾向もまた、わずか1、2年で大きく変化しうると言うことを示唆しています。実際、会社を定年退職した叔父と先日LINEで画像交換したのですが、2013年の段階では夢にも思いませんでした。
検索結果というのは、特定期間の「トレンドバイアス」を明確に表しています。直接的か間接的かはさておき、2013年にはその年のバイアスが各自に存在し、それは2014年にはかなり希薄化し、2015年にはほぼ消滅していることでしょう。この手のバイアスを、分析の世界ではノイズと呼んだりします。そして、このノイズを除去することは極めて難しい。
何を申し上げたいのかというと、少なくとも1年度以上前のデータ比較は、同環境での比較、すなわちApple to Appleにはほぼなり得ないということです。
つまり、2013年の行動傾向(アクセス、購買、広告反応)は、2015年のマーケティング分析において、ほぼ参考にならないと考えてよいでしょう。もちろん、こういった突発的なノイズに左右されづらい定番商品やコンテンツも存在しますが、逆に言うとそれらは、仕掛けても変わらないか、何も仕掛けていないかのどちらかです。この理由を探るためには、長期トレンドデータに解を求めるよりも、デプス・インタビューなどの定性調査のほうが効率的でしょう。一方、先述の期の途中で求められる中期経営計画に対する報告は、基本的に進捗報告ですから、定点レポートの累積で十分ことは足ります。データソースからの分析が求められるような報告は、大抵年度が変わった初月のレビューですから、25ヶ月で1年度+αは十分遡れるという考え方です。
ともあれ、マーケティングにおけるデータ分析の分母は基本的に25ヶ月分もあれば十分であり、これ以上過去のデータはノイズでこそあれ、コストをかけて分析するほどではない、というのが私の持論です。
25ヶ月の法則を適用すれば、かなりの数のデータ、そして、顧客リストをも分析対象から外すことができます。当月から2年以上前から休眠しているユーザーは、ほぼ確実に興味を失っており、すでに見込み客ではありません。もしこれを疑う方がいらっしゃるなら、別れてから2年の間メールに返信をくれず、LINEも既読にならない彼女とよりを戻す難しさを考えてみてください。
エラー値や欠損値はゴミか?
欠損値やエラー値についてはどうすればいいでしょう?
例えば、滞在時間が1秒に満たないサイトアクセス。これは人間ではありません。クローラーかもしれないし、アタックかもしれません。アクセス解析上で、大抵フィルターされていると思います。
また、届かなくてエラーが返ってきたメールアドレスについて。基本的にメールの未達エラーはバウンスと呼ばれますが、これはハードバウンスとソフトバウンスに分けられます。
ハードバウンスとはメールアドレスそのものが存在しないときに帰ってくるエラーで、ユーザーがメールアドレスを変えたか、登録時のタイプミスが考えられます。ただ、大抵は登録時にコンファーム(到達確認メールを送って本登録させる一連の行程)をしているはずなので、スペルミスのメールアドレスが顧客リストに残っていることは稀です。基本的にユーザーはアドレス変更をしていますので、このリストでは不必要。すなわち除外です。
一方、ソフトバウンスは受信箱がパンクしているかメールサーバーが一時的に落ちているということなので、基本的には残します。このバウンス属性、大抵はメール送信ツール側で判別・フィルターできるはずです。
一方で、欠損値をどう扱いましょう?ここでいう欠損値とは主に、属性の抜け、を指します。例えば、顧客リストにメールアドレスしか存在せず、ほとんどの属性項目が真っ白な状態です。
結論から言うと、残しましょう。もちろん、このデータは分析にはほとんど使えません。データ分析の際に困ることの一つが、欠損値が多すぎて分析対象データの分母がやたらと小さくなってしまう、つまり「統計的確からしさ」を担保できなくなることです。
その一方で、欠損値が多いという事実も重要なファインディングです。つまり、自社データが分析に耐えうる状態ではない、という現状を正面から捉えるということで、なぜそうなったかを省みる重要な材料です。そして、今後、欠損値を減らすということは重要なアクションアイテムになっていきます。
結論:まずは時間軸でデータを断捨離しよう
至極普通な答えで恐縮ですが、まずは古いデータをバサバサ捨てるところから始めてください。基準は25ヶ月です。もちろん、古いデータを残しておいても全然構いませんが、分析の対象とする必要はありません。私の主論点は、そこに労力をかける必要はないということです。何より、2年前から全く変わらぬシステムを使っていることは稀です。
少なくとも、2年前とDSP広告比率は上がっているでしょうし、Google AnalyticsもUniversal Analyticsではありません。このことだけでも、直近のデータと符合させる労力はかなりのものです。だったら、その分直近のデータを深く掘り、欠損値を減らす作戦を考えましょう。
そして、こんな当たり前の答えでも、実行するのは案外難しいのです。私が本棚の整理で悩んだように。
でも、ご安心ください。今のところ、捨てた本をまた読みたくなったことは一度もありません。それどころか新しい本が増え続けています。

ストラテジック・フェロー 金澤 一央(記事一覧)
・I-COM Data Creativity Awards 審査員
・ニューヨーク大学大学院、School of Professional Study, M.S. Integrated Marketing在籍中
・主な講演・セミナー・寄稿等:日本経済新聞社、JADMA、インプレス、ビジネスブレークスルー大学など
ネットイヤーグループ、オンラインメディア測定に関する国際団体「I-COM」が主催する国際コンペティションの審査員に弊社金澤、コストフが就任(2015年4月17日)