今回のお題は、ビッグデータに関する「誤解」を解くことです。
多くの人がビッグデータに期待し、ビッグデータがあれば何か分かると注目しています。
「(ビッグ)データがあるから分析して下さい。何か分かるでしょ?」
いいえ、それでは分かっていることが分かるだけです。とマメ研所長は強く訴えたい。
嘘、大嘘、そして統計―数字は「ロジック」を補強する存在である
「トム・ソーヤーの冒険」著者であるマーク・トウェインは自身の自叙伝の中で、英国首相ベンジャミン・ディズレーリの言葉として以下のように記しています。
アメリカの数学者であるエリック・テンプル・ベルは、次のような言葉を残しています。
アメリカに「Figures will not lie,but liars figure」という諺があるように、弱いロジックも数字を使えば補強されます。
しかし、数字はそこいらに無造作に転がっているわけがなく、作られ、加工され、そして用いられます。人はその過程を「分析」と呼ぶと私は思っています。
したがって誰が、何の目的で、その数字を作ったのか?という洞察までなければ分析とは呼べません。データを無条件に信じてはいけないのです。
分析で最も大事なことの1つに「データを見る目」をあげたいくらいです。そのための事例をマメ研ではいくつかご紹介してきました。
「日本の生産性は先進国に比べて低い」という数字を疑って見る~1人あたりという罠~
大阪都構想はなぜ否決されたのか?をデータジャーナリズムする
「データを見る目」が無ければ、どんな罠に陥るか。もっと分かりやすい簡単な事例を3つ紹介します。
例題1:よく使うソーシャルアプリ、facebook人気急降下
デジタルネイティブなミレニアル世代でも、スマホネイティブか否かで使いこなすソーシャルアプリに違いがあるか、新大学1年生と仕事にも慣れてきた社会人5年目に調査した。その結果、スマホネイティブな新大学1年生は総じてfacebookよりもtwitterを使っていることが分かった。10代~20代前半のワカモノに商品をPRしたい広告担当にとっても見逃せない数字だ。
よく使うソーシャルアプリとして大学生78%、社会人65%がtwitterと答えた。facebookは2番目に上がったが、傾向は逆転し大学生23%、社会人35%がよく使うと答えた。
さらに1番使っているアプリとしては大学生と社会人で差が出る結果となった。社会人の約33%がfacebookを1番使うと答えたのに対して、大学生は約1%しかない。ワカモノのfacebook離れは顕著だと言えるだろう。
※街角でアンケートを行い、大学1年生140人、社会人5年目92人から回答を得ている。
…さて、大事なことは「データを見る目」と申し上げました。何が変でしょうか。私は5つ気になりました。
①アンケート解答者が1.5倍も違います。なぜ均一じゃないのでしょうか。単純な%の比較ができません。
ちなみに、街角アンケートで「大学1年生ですか?社会人5年目ですか?」「違います」「じゃあアンケートはいいです」というやり取りをしたのか純粋に気になります。
②したがって、どこで質問したのかも気になります。標本調査で最も重要なことは、母集団全体の性質を的確に代表できる”偏りの小さい標本”を作ることです。果たしてこの大学1年生140人、社会人5年目92人がそれぞれ母集団を代表するのでしょうか?
例えば大学生を相手にするにしても渋谷と埼玉で聞くのでは結果が違いそうですし、社会人を相手にするにしても新橋と六本木で聞くのでは結果が違いそうです。
③大前提として、ミレニアル世代とは1980年以降に生まれた世代の総称ですが、社会人5年目はミレニアル世代として適切なのでしょうか。社会人10年目ではなぜいけないでしょうか。
④加えて、この結果だけで「ワカモノのfacebook離れは顕著」と言えるのでしょうか。
1番に使っていなければfacebook離れなのでしょうか。「2番目に頻繁に使っているアプリが無い」「最近facebookアプリを開いていない」という数字や、昨年比の数字があれば分かります。
⑤最後に、このデータを作った人は誰でしょう。何の目的も無く街頭で232人のアンケートをとる人はいないでしょう。もしtwitter広告を取り扱う関係者や、ワカモノ向けセールスプロモーション代理店だったら、一気にデータの信憑度が下がります。
例題2:野党議員が地元で調査、政権批判相次ぐ
当選回数9回を数える野党A党のZ議員が、地元で政権に対するアンケートを行ったところ、現政権は「よくやっているか?」という質問に対して「そうは思わない」と回答した数が79%だったという。「マスコミの世論調査とは違う。私には声無き声という民意がある。仕事をしていない現政権は一刻も早く倒すべきだ」と述べた。また、もし野党が政権を奪還すれば力を入れて対応して欲しい政策は、社会保障65%、景気対策58%、雇用問題45%、財政再建20%、少子化対策13%、安保防衛5%という結果だった。「現政権は国民の期待していない安保防衛ばかり力を入れている。我々は国民に選んで貰った存在。真っ先に社会保障を最重要課題にする」と述べた。
…さて、大事なことは「データを見る目」と申し上げました。何が変でしょうか。私は3つ気になりました。
①まず当選9回も数える大物野党議員の地元でのアンケートに政権を支持する人たちは答えるのか?という素朴な疑問があります。
どうやって、誰に、アンケートをとったのでしょう?地元後援会参加者か、野党議員に声を掛けられてアンケートに答えようとする人たちって、そもそも政権に批判的な人たちじゃないでしょうか。
②さらに「よくやっている」という聞き方も曖昧です。政権支持派の中にも「もうちょっと頑張れよ」と答える人もいるでしょうから、世論調査(支持率調査)と違うと言われても「そらそうよ」となります。
③加えて、力を入れて欲しい政策の内容を見ると「高齢者の回答割合が高くないか?」と感じます。
確かに社会保証も重要ですが、少子化対策も重要です。誰に聞いたかで比重が変わるような結果だけでコメントをする、この政治家には「重み」が感じられないと思うのは私だけでしょうか。
ま、あくまで架空のデータですけどね。
例題3:ビッグデータで人間の健康問題を解決
大量の健康情報を集め、人間の寿命の限界に挑戦するー。ヘルスケア・ビッグデータカンパニーA社は、アプリを経由してあらゆる人間の健康データを収集している。体重計のデータを蓄積するアプリの利用者は現在300万人を越える。「300万人ものビッグデータから色んな傾向が出ている。それ以外の情報も集めれば、アプリを利用するだけで健康状態を知らせる予防医療の一歩を踏み出せる」とA社長は話す。
A社は、ウェアラブルデバイスも開発、リリースした。同社のアプリと連携すれば、ジョギングのペース配分を教えてくれるなどユーザーに多くのメリットが出る。A社はデバイスを通じて、ユーザーの健康情報を入手する仕組みだ。(略)
…さて、大事なことは「データを見る目」と申し上げました。何が変でしょうか。私は2つ気になりました。
①まず、この300万人全てがアプリを平均どれくらいの期間に利用しているのか分かりません。また、そのユーザーを層別に区切った時に予防医療が必要な世代は十分な標本数を獲得できているのでしょうか。
②体重計のデータであれば偶然誤差や系統誤差の問題があります。値の高い体重計があるのは、それなりの理由があります。特に体脂肪率や筋力の測定においては、大きな差が開きます。
ジムの体重計と自宅の体重計で体脂肪率が3%程度開くこともありますよね。
体重をいつ量ったのか、朝であれば起きて直ぐかご飯を食べた後かで体脂肪率は変化します。もちろん体重を量っている部屋の湿度・温度も影響します。
昨日の夜何を食べたかでも体重は変化しますし、なるべく同じ時間帯でなければ誤差の比較は難しい。ユーザーがそこまで考慮してデータを登録しているとは思えないので、使えないデータは意外と多いはずです。
なぜこんなに詳しいかと言えば、過去に何度か松本1人で分析しているからですね。誤差の調整に苦労しました。
本当に痩せてるの?重回帰分析でダイエットの成功を予測する
ライザップで11kg痩せた!ダイエット成功の理由を分析する
内容そのものには批判的では無いのですが、こうしたコンテンツを「ビッグデータすげー。うちでも何かしたい!」とシェアする人を、ちょっと懐疑的な目で見てしまうのです。
ちなみに大量のデータを集めて傾向が出るなら、小さいデータを集めても傾向は出るのではないでしょうか。
モデルの精度を高めるには有効だとは思いますが、大量に集めないと傾向が出ないデータはかなり限られていると思います。
シグナル&ノイズ
データがいくらあったとしても、分析する人間がデータの生まれる過程を理解できていばければ、単なる「数字弄り」になってしまいます。
デミング賞の生みの親でもあるエドワード・デミングが師事したウォルター・A・シューハートは、データを理解するための原則として以下2点を挙げています。
つまり採取目的、環境、測り方、機器などから切り離されたデータは単なる「数字」で意味が無いとシューハートは主張します。よく会議で「数字が独り歩きしている」と表現されますが、まさにアレです。
さらにデータの中にあるノイズ(雑音)、もっと言えば「ゴミ」は、魚の小骨のようなもので、喉に刺さらないようできるだけ取り除くことが望ましいのです。ゴミは、どれだけ集めてもゴミですから。
したがって、ビッグデータというのはビッグなゴミが混ざったビッグなデータとも言えます。
目的があって集められたデータから丁寧にゴミを取り除いた場合には、非常に価値があるかもしれません。
しかし現状は、こうしたゴミを含んだデータを全て渡して「何か分かるでしょ?」とデータサイエンティストに問うているのです。
どれがゴミで、どれがデータか?
どうやってこのデータは生まれたのか?
それも分からず「数字」だけで皆が驚くような結果を生めとは、わしは現場に行かずとも解決に導く安楽椅子探偵か、と心の中で突っ込みたくもなります。
先の例題3つを見てください。ゴミと宝の区分をしなかった結果、どうやってデータが生まれたか分からない結果、非常に偏った結論に導かれようとしています。
果たして、これで「分析」と言えるでしょうか。言えないですよね。
しかし今の「何か分かるでしょ?」というスタンスでは、この状況が延々と繰り返されるだけです。
今こそ仮説を持って分析する「確証的データ解析」に立ち返ろう
昨今は、ジョン・ワイルダー・テューキーが啓蒙した「探索型データ解析」まで持ち出して「あれこれ考えずにデータの海を航海して宝を見つけ出そう!」と啓蒙するビジネスマンもいますが、テューキーは本の中で1度も「探索型のみで分析できる」なんて一言も言っていません。
海外のサイトですが、テューキーの「探索型データ解析」原著を保存するサイトがあったので、ここで紹介します。
https://projecteuclid.org/euclid.aoms/1177704711
テューキーは当時の統計的分析の手法が確証的データ分析という「モデルありきで分析すること」に反発し、「モデルではなくデータありき」だと主張しました。そして、そのデータを注意深く見て適応させるモデルを考えなさいと言っているのです。
今、データサイエンティストに分析の相談をしている少なくない人が、仮説を持っていないし、データから仮説が導けると勘違いしています。確かにそういう時もあるでしょうが、そうじゃない時の方が多いと言いたいのです。
仮説を証明する(或いは棄却する)ための手法は私たちデータサイエンティストの方が詳しいでしょうが、仮説を発見するのはデータサイエンティストだけではなく、現場で活躍する皆さんの協力が必要です。
今こそ「確証型データ解析」に立ち戻ろう。そのためにも、まずは「仮説」を発見しよう。しかもできるだけ筋の良い。
この叫びと共に本稿を〆たいと思います。ご清聴ありがとうございました。