Service 仕事の合間に! 3分間データマイニング入門第4回 データマイニングを行なう上で重要なこと1 [データの用意]

  • Home
  • Services
  • 仕事の合間に! 3分間データマイニング入門第4回 データマイニングを行なう上で重要なこと1 [データの用意]

データマイニングには、さまざまなアプローチ方法があることを前回までにお伝えしました。では、データマイニングに適したデータとは、どのようなデータなのでしょうか。今回は、必要なデータの種類と条件について、お話します。

課題解決に必要なデータを、10万レコード以上揃えることが必要

ダイレクトマーケティングをデータマイニングに用いるのなら、ダイレクトマーケティングに関するデータが必要だし、営業の業務改善に用いるのなら、営業データが必要です。

例えば、「どういうお客様がウチの商品を購入しているのか知りたい」のであれば、以下のデータが必要となります。

  • 住所、性別、年齢、通算購入回数、通算購入金額などの「顧客属性データ」
  • 商品番号、商品名、色、サイズなどの「商品データ」
  • 購入日、購入場所、購入商品、購入個数、購入金額などの「取引データ」

「営業先の成約率を予め算出したい」のであれば、以下のデータが必要となります。

  • 住所、規模、業種、TDB評点、資本金、IR情報などの「クライアントデータ」
  • 訪問日、訪問回数、訪問内容、提案日、見積もり提示金額、担当者職位、前回購入金額などの「営業活動データ」

つまり、課題解決に必要だと思われるデータであれば、なんでもOKとも言えます。では、どのくらいのデータ量が必要なのでしょうか。

目的にもよりますが、推奨値は10万レコード以上です。10万レコード以下でもデータマイニングはできますが、レコード数が多ければ多いほど、データマイニング結果を精緻に検証できます。結果を安心して業務に展開することを考えると、やはり10万レコードのデータ量は必要でしょう。

以前お伝えしたように、データマイニングと統計解析は違います。人間の目では発見することが難しい大量データの中から、新たな仮説やルールを見つけることに適しているのがデータマイニングです。その仮説やルールは、投入されたデータ項目の範疇を超えることはありません。

欠損・異常値が少なく、ダブルミーニングがないのが、キレイなデータ

きれいなデータ

では、業務に関連する大量のデータをデータマイニングに掛ければ、素晴らしい結果が出てくるのでしょうか。そう簡単にはいきません。
英語には“Garbage in, garbage out. ”(ガラクタを入れれば、ガラクタが出てくる)という慣用句があります。キレイなデータを入れないとキレイな結果は出てこないし、大量のガラクタのようなデータを、どんなマイニングにかけても、業務に使える結果は出てきません。

キレイなデータには、3つの条件があります。

その1.欠損が少ない。

大量のレコード数があっても、項目に値が入力されていなければ、意味はありません。多くの項目が欠損であった場合、その行のデータは使えないデータとなってしまいます。

その2.異常値が少ない。

きっちりデータが入力されていても、その値が間違っていてはだめ。例えば、「顧客_生年月日」という項目に入力されている値が「1900年1月1日」だったり、「2018年6月20日」だったり。ものすごく長寿なお客様はいるかもしれませんが、未来人がタイムマシーンに乗って買い物に来るはずありません。こうした異常値がたくさんあると、その項目は使えないデータとなります。

その3.項目のダブルミーニングがない。

ダブルミーニングは“二重”という意味。各項目に設定している意味が、1つだけであることが大切です。 例えば、「顧客_地域」という項目があり、「東京店」「大宮店」「札幌店」「仙台店」と店名が入力されているとします。これら入力された店名が、「初めて商品を購入した店舗」と「会員登録をした店舗」の両方を指していたらどうでしょう。
初めて商品を購入したと同時に、会員登録もしたお客様ならいいですが、商品を購入しなくても会員登録ができるとなると問題です。このお客様が商品購入時に会員登録をしたのか、商品を購入せずに会員登録をしたのか、データからはわかりません。意味がわからないデータを使用し、マイニングを行なうと、出てきた結果も意味がわからないものとなります。

[まとめ] データマイニングに適しているデータ

  • 業務に関連するデータ
  • 10万レコード以上の大量データ
  • 欠損値・異常値が少なく、項目のダブルミーニングがない、キレイなデータ

スペシャリスト

カスタマーエクスペリエンス事業部 デジタルテクノロジーグループ
シニアディレクター
神田卓哉

神田卓哉

弊社スペシャリストが登壇するセミナーはこちら

ネットイヤーグループについて

ネットイヤーグループは、徹底したユーザー目線とデジタルテクノロジーを駆使し、デジタルマーケティングに関するコンサルティング、デジタルコンテンツの企画制作、システム開発、マーケティングツールの企画販売などを通じ、企業経営の進化とエンドユーザーとのエンゲージメント強化のご支援をしています。

SERVICE LINE UP

お問い合わせはこちら