分析したら何か分かるでしょ?という人にこそ読んで欲しい「データ分析プロジェクトの手引」

松本 健太郎

 

今回は以下の本の紹介をいたします。

 

 

原著は「Commercial Data Mining: Processing, Analysis and Modeling for Predictive Analytics Projects」という題で、直訳すると「商用データマイニング:予測分析プロジェクトの処理、分析、モデリング」となります。

著者のDavid Nettleton氏は、訳者の紹介によると「人工知能の分野で博士号を取得しており、IBMでビジネスインテリジェンス関連の業務に従事した後、自身の会社を立ち上げ、様々な分析プロジェクトに関与してきた」そうです。

分析一辺倒の先生というよりは、現場も客先も知っているバランス型なのだと思います。だからこその「Commercial Data Mining」なのでしょう。自信の表れですよね。

今回は、この本で着目すべき3つの注目点を簡単に纏めてみました。

 

その1:とにかく分厚い

この本とにかく分厚いです。400ページ超あります。

そこに注目なの?という声も聞こえてきそうですが、この本の分厚さこそ真っ先に注目すべき点だと訴えたい。

 

本を読み終えた後に、そもそもこの本は誰に向けて書かれた本なのか?とふと考えたのです。

もちろん私のような分析者のために書かれていると最初は思いました。

ですが、もしかしたら、David Nettleton氏は私たちの声を代弁してくれているのではないか?という仮説が浮かびました。

再現性はあるのか?疑似相関ではないのか?こんなに変数多くてマルチコ起きないか?この結果を受けてどんなアクションが考えられるか?等々、様々な前提条件と制約条件に知恵を絞らせている中で「人口知能で何か分かんないんすか?」と言う人が結構おられます。

そのこと自体の是非はともかく、「いや、そんな簡単に言うけどデータの準備するだけでも、これぐらいの労力かかるんやで!」と言える1冊になると感じたのです。

 

この本では、データソースの確認(第3章)、データの表現方法・格納方法(第4章)、データの登録方法と質の担保(第5章)、データの選定と推定(第6章)と、なかなか分析まで進んでくれません。

しかし、私たちデータサイエンティストも同様に、自分のリソースの100%を「分析」に当てていません

どんなデータがあるのか?そのデータは数値型なのか文字型なのか?どこに保存されているのか?欠落していないか?どのデータを使って説明すべきか?…分析する前からやることはいっぱいです。

まるで私たちの仕事の段取りをDavid Nettleton氏が説明してくれているかのような章立てに、私は少しばかり興奮しました。

「そうそう、そうなんだよ!」と何度も声をあげました。

この本がビジネスの現場で実践できるという真の意味で「Commercial Data Mining」です。

同時に、この本を「分析に期待と夢を膨らませている人」に知って貰うことで「ちゃんとやるには、こういう段取りがいるんだよ!」という防御壁になるだろうなぁ、と感じました。

 

その2:分析のプロセスに沿って解説されるので自分の仕事に置き換えやすい

この本は20章で構成されますが、前半の10章は分析プロジェクトのプロセスに沿った話です。

少し触れましたが、この本が貴重だと感じた点はプロセスに沿って章立てされていること、そしてそのプロセスは普段注目を集めない分析の前工程についても詳細が記されていることです。

 

章は「ビジネス課題」から始まります。

文中に「ビジネスデータ分析プロジェクトは、その開始時点で目的の定義に十分な時間を費やすべきである」とある通り、何が課題なのか?何を達成すれば解決なのか?という課題発見と課題解決に焦点をまず充てよ!と書かれています。

手法自体の研究を行う学術領域はともかくとして、やはりビジネスの現場では「何かわかりませんか?」ではなく「何が課題なんですか?」「どう在れば解決なんですか?」という疑問を常に持たないといけないなぁと感じます

 

本の中では、考慮すべき指針として幾つか紹介されています。その中で印象的だった2つをピックアップします。

 

・現状よりも改善する余地があるか

 

これは当たり前の話ですね。分析した結果、高い精度のモデルが見つかったけど売上インパクト低かったら意味なし男ちゃんですよね。

 

・データは分析目的に沿ったものであるか

 

これは最近注目を集めてきた考え方かもしれません。

何を解決したいのか?そのための手法はあるのか?と考えてから、手法に沿うデータを用意します。このとき、手法に沿ったデータの持たせ方でなければいけません。

料理に例えて考えると「今日は辛いものが食べたいな」というのが課題であれば、解決方法としては「インド風カレーを食べて満足しよう」となります。

インド風カレーを作るには「野菜、肉の順に炒め、カレーフレークを途中混ぜ、香辛料を加えつつ、最後に水を加えて完成させる」という調理の仕方が最適です。これが手法です。

そして、ここでいう野菜や肉、カレーフレーク、香辛料、水こそデータですね。

このとき、ジャガイモを丸々入れるのも、肉だったら何でも良いというのも間違いです。

ごろっとしたジャガイモがいいのか?細かくしたほうがいいのか?と考えたり、肉は牛ミンチにしたり、あえて豚バラにすることを考えるのが、分析者の腕だと思います。

この食材の加工の仕方が、まさに「データの持たせ方」と同義です。

もっとも、ほとんどの場合は冷蔵庫の中のアリもので済ませますし、冷蔵庫の中が空っぽで「まずはジャガイモを育てましょう!」というDASH島のような展開もありますが

 

回帰分析、生存期間分析、異常検知、系列パターンマイニング、様々な「調理方法」はありますが、導き出せる「料理」も決まっています。

自然と必要なデータの「加工」「持ち方」も決まってきます。

ですが、データの持ち方、それに合う分析手法、そしてこの組み合わせを無数に持ちあわせ、課題に合わせて手法を提示できる人はそんなにいないのではないか?と考えています

今、現場で最も不足しているのは分析者の中でも「顧客の欲する課題を聞いて、分析手法のアウトプットを考え出し、かつそこから逆算して必要なインプットデータが何か答えられる人」だと思ったのです。

その意味において「データは分析目的に沿ったものであるか」という指針は非常に奥が深いと思いました。

 

その3:分析事例が独特で興味深い

後半の10章は分析プロジェクトの実例?の話が取り上げられています。

恐らく著者自身の経験によるものではないかと推測します。

私自身は第11章のテキストマイニングの事例と、第17章の検索トレンドの時系列変化の事例が生々しくて好きです。

ビジネスの現場では扱うデータは殆どが時系列データなので、こうしたマーケティングへの応用がし易い事例が載るのはありがたいですね。

「一般論としてはそうかもしんねーけど、実際の現場ではそんなことねーわ!」という神話がビジネスデータ分析本にはよく書かれているのですが、この本にはそんなことも無く、そうだよなぁと相槌をうちながら読み進められます。

 

また、第18章ではデータ分析をする上で絶対に向き合わなければならない「データにおけるプライバシーと匿名化技術」についてまるまる1章割かれています。

特に匿名化技術について詳細に書かれており、k-匿名化の基本的な考え方と簡単な実装方法が書かれているので、参考になります。

 

まとめ

間違いなく良書です

もうすぐ新入社員が入社する時期ですし、もしからしたら新しく部署に来る人にこそ読んでも欲しいかも…。