2012年2月 のアーカイブ

分析対象の考え方とデータ取得

2012年2月23日 木曜日
このエントリーをはてなブックマークに追加

以前、「オリジナルデータの信憑性を評価する事から分析が始まる」
ということを書きました(コチラ)。
マーケティングリサーチに関わる方は、ある種”クセ”でデータの出所を
執拗なくらい気にますが、一般的には数値そのものを疑ってかかる人は
稀だと思われます。数字は”感覚”でなく”絶対的”なイメージが
そうさせているようです。

昨年11月にネットレイティングス社発表したデータに基づくコチラの記事でも、
集計方法が変わったで時系列データとしての意味がないにも関わらず、
何事も無かったかのようにグラフを提示してしまったことで、
「ええっ、mixi大変!!」などと一瞬業界騒然になったのは
記憶に新しいですね。
ここでいう利用者数の意味、単純な母集団の大きさ、
極端すぎる減り幅からして、数字に慣れているものならば、
”集計方法が変わった”なんて情報を聞く前にも
「ああ、なんかやっちゃったな。で、今回だけかな? 
いつからおかしいんだろうか? 他は大丈夫か? 
そもそもちゃんと定義あったんかな?」などと考え、
少なくともこのデータを使って分析/解釈することを一旦やめるでしょう。

元データの評価は意外と盲点になっているようなので、
数値分析の第一歩「分析対象の考え方とデータ取得」について
書きたいと思います。

統計学の教科書の最初には必ず「母集団と標本」という章がありますね。
決して難しいことではないのですが、とても重要で、この「母集団」および「標本」
という”考え方”をちゃんと意識して、理解した上で分析しているかどうか、
分析のセンスはここに如実に現れます。

「母集団」とは分析対象のことです。なんの分析をするのかの定義といっても過言ではありません。

母集団をきっちり定義するためには分析の目的が明確になっているということに他なりません。
目的によって、調べたい人の定義が決まりますし、逆に言うと調べなくてもいい人が決まります。
マーケティング目的ならば、下記のようなケースが特に多いです。

・CS調査なら ー> ユーザー(元ユーザーを含む場合も)
・ブランドスイッチや最後のひと押しとか ー> ユーザーになりそうな方(カテゴリユーザー/競合ユーザーなど)
・需要喚起とか ー> もうちょっと広く、ゆるい感じ(デモグラ、エリアなど)
・購入者とユーザーが違うなど、特殊な事情がある場合 ー> ユーザー周辺(コストorベネフィットの影響を受ける人まで含む)
・社会情勢、トレンドなどの基礎情報として ー> 社会調査系

規模や対象にかなりバリエーションがありますし、1票の重み/意味が違いそうですよね。

例えば、ブランドXを”好き”と答えた方が
 日本人全体の20%
 ネットユーザーの20%
 PCブラウザの20%
 ポテンシャルユーザーの20%
 サイトユーザー(訪問者)の20%
 トライアルユーザーの20%
 リピートユーザーの20%
 いいね!押したユーザーの20%
 平日夜の新橋SL広場でインタビューした20%

このような結果があったとして、
これらそれぞれの20%は重みが全く違うのはご理解いただけると思います。

しかし、
「20%が好きと言った」
というだけで、どんな母集団なのかも意識せず(記載も無く。。。)
解釈をしている例を何度か見た事があります。母集団の定義無く分析を進める事の
無意味を感じていただけたでしょうか。

さて、次に「標本」についてです。
データを所得する際に偏り無く、定義した母集団を表現できているかがポイントです。

近くに座っている同僚5人くらいに
「貯金いくらある?」って聞いて、
日本人の貯蓄額は平均○○円です!なんて言う方はいらっしゃらないと思いますが、
社内の30人くらいの20代女性にアンケートに答えてもらって
それをあたかも20代OLの代表的な意見であるかのごとくレポートされているのは
何度も見た事があります。それほど重要な意思決定でなく、かつ納得感があればそれでもいいんですけど。

答えてもらう人を選ぶ(サンプリング)というのも重要ですが、
どう聞くかというのも、結果に大きな影響を与えます。

この手の話に良く出てくる例をご紹介します。

1)自分や家族が死んだり、人を殺すこともある戦争。過去の戦争によって、大けがや後遺症で悩んでいる方もたくさんいらっしゃいます。全財産を失って生活ががらっとかわってしまうこともあります。どんな理由があろうともそんな戦争には反対すべきですよね

2)自分の国や財産や家族を守るためには多少の犠牲があったとしても戦争はさけられないこともありますよね

この2つの質問に戦争賛成/反対だけの回答を求めれば、回答比が大きく異なります。もちろん1の方が反対が増えます。これさすがにやり過ぎの例ですが、ニュートラルな生データを取得する事は意外と難しいです。正確性を求められる場合には、データ取得のところまで遡ってチェックする必要があります。

以上のように、
”どんな人”を、”どんな方法”で調査した結果なのか、”それが知りたかったことなのか”を確認/評価することの重要性がわかっていただけたのではと思います。元データが100%信憑性がないと全てが始まらないわけではありませんが、「多少ぶれはあってもだいたいは合ってる」とか「±10%の範囲内は保証できる」とか「○○の場合以外はOK」など、どこまで担保できているかを確認するのでも場合によってはアリでしょう。
分析力を身につける訓練にもなるので、最初にデータを見る時は、疑ってみるくらいでちょうどいいかもしれません。

もちろん、アンケートだけでなく、我々が扱っているWeb系のデータでも同じ事が言えます。
分析課題をできるだけ明確にする事でどの範囲を分析するのか、そしてどのように取得されたデータなのかを確認することが分析の第一歩です。広告系ならば、取得できている媒体範囲、配信条件、タグの入れ方、ダイレクト/リダイレクト、重複、ボットやクローラーのいたずら、サーバーの不具合、セッションやユーザーの定義、タイムゾーン(←昔ミスった事ありますorz)、などデータ取得の背景などチェックしてから分析を始めましょう。