みんな分析に使ってる「オープンデータ」って何?10分でざっくり把握する


2013年に話題を搔っ攫った「ビッグデータ」が「新語・流行語大賞」候補にノミネートされました。残念ながら対象を受賞するには至りませんでしたが、ビジネス部門では文句無しの大賞だったのではないでしょうか。

後は「メタボ」や「イクメン」「女子会」などと同様に市民権を得るか、「そんなの関係ねぇ」「なんでだろう〜」などと同様に消え去る運命なのかは、私を含めたマーケッターの仕事ぶりに依るのかなと勝手に力んでおります。


2014年も同じように話題を搔っ攫いそうな単語が、さっそく世間を賑わせております。それは「オープンデータ」です。

日本国政府は昨年の2013年12月20日に、オープンデータ施策の一環として、国が保有するデータを無償で入手できるポータルサイトの運用を試験的に開始しました(※1)。すでに1週間で20万PV以上のアクセスがあるなど期待度も高く(※2)、オープンデータの先進国である米英を2015年度末までに体制・情報量で追い抜くと、政府の鼻息は荒いです。

既に一部の新聞や雑誌で特集が組まれ、性質上からか行政や議会などで議論が始まっています。日経では、オープンデータ情報ポータル(http://opendata.nikkei.co.jp/)なるものを開設しています。

今年の年末には、知識人代表が「オープンデータ」で流行語大賞を受賞して、喜びの声をあげていてもおかしくないような下地は着々と出来上がっているのです。


劇的に浸透していない今のうちに概要だけでも理解しておけば、「○○さんは時代を先取るニューパワー!」と周囲から賞賛され、上司から激賞されるに違いありません!保証はしません!!

そこで、「オープンデータ」とは何かについて要点を3つに絞って纏めてみました。

その1:オープンデータとは何か?

オープンデータとは、広義の意味で「特定のデータを著作権、特許などの制限を一切設けず、全ての人が望むように利用・再掲載できるような形で入手できるようにすること」を指します。

オープンデータの「オープン」とは、オープンソースやクリエイティブコモンズ(オープンコンテント)などの「オープン」と同義だとも言われています。


2013年6月にG8首脳会合において首脳間で「オープンデータ憲章」(※3)が合意されて以降、環境面の整備も急ピッチで進んでいますが、それ以前は全く無かった概念かと言えば、そうでもありません。

例えば1950年代には実験や観測の結果を積極的に公表し、研究の進歩に役立てようとする「オープン・アクセス」という行動が広がりましたが、その延長線上にオープンデータがあると言われています。


つまりは官民問わず、保有するデータを公に公開して、クローズドでは出せなかった成果をあげることがオープンデータの目的になります。それがインターネットの時代になって急速に規模が大きくなったのです。

例えば、過去の気象情報と位置情報をもとにすれば、防災マップを作成することが可能になります。それは、アプリ開発が得意な人間の手に掛かれば、防災アプリに変身します。実際、そのようなハッカソンイベント(http://ec-award.com/)が開催されていました。

他にも、全国6000ある図書館にアクセスして貸し出し状況を把握する「カーリル」(http://calil.jp/)や、税金の使い道を知る「税金はどこへ行った?(http://spending.jp/)」など、様々な実例が報告されています。


また、公開されるデータの形式についても、このような形が望ましい、というランク付けされた提案がインターネットの生みの親であるティム・バーナーズ=リーからなされる(※4)など、単純にデータを公開すればいいのではなく、いかに「再利用・再掲載しやすい形で提供されるか」についての議論も始まっています。


最近、特に注目を浴びているのは行政の取り組みです。(福井県鯖江市の取り組みなんかは特に有名ですよね)

行政機関が保有する政府統計(公共データ)は、信頼性・透明性が高い一次統計として元々知られていましたが、それをもっと使い易い形で提供される取り組みを、狭義の意味でオープンデータ(或いはオープンガバメントデータ)と言うようになっています。

例えば、経団連は具体的な利用目的やそのニーズまで明らかにして、公共データをより利用できる環境の推進を政府に働き掛けるなどしています。(※5)

その2:なぜオープンデータが注目を浴びるのか?

ビッグデータの誕生が、オープンデータの時代を招いたと言われています。

なぜなら、相関関係を描くのに有効であればどんなデータでも収集するにこしたことはありません(参考記事:今さら人に聞けない「相関関係」と「因果関係」の違い)。分析に掛かるコストも、hadoopなどの誕生により格段に安くなりました。

もっとも、オープンデータから何が解るのだと疑問に思われている方もいらっしゃるかもしれません。そこで政府統計の側面に絞って、注目を浴びる理由を考えてみましょう。


実は、最も古い政府統計は、なんと大化の改新にまで遡ります。戸籍と計帳を目的に670年から実施された「班田収授法」がそれに該当すると言われています。

以降、豊臣政権の「人掃令」や「宗門人別改」など、主に戸籍管理が目的にデータが作られてきました。

1871(明治4)年には、国勢を統計することに主眼を置いた、総務省統計局の前身である「政表課」が誕生しています。初代は旧静岡藩の杉亨二が、第二代は参議大蔵卿として財政整理にあたるうちに正確な統計情報の必要性を感じた大隈重信が就任しています。


では、なぜ、そこまでして為政者は正確な統計情報を欲するのか。

その理由は、GHQらと渡り歩いた吉田茂首相が、マッカーサーに「もし戦前にわが国の統計が完備していたならば、あんな無謀な戦争はやらなかった」と言った言葉に凝縮されます。

例えば学校1つ建てるにしても、どのくらいの需要で、どの程度の規模の施設が必要か、周辺地域の人口や世帯数が解らなければ計画の立てようがありません。況んや、戦争をや、ということなのです。


そもそも、データを集計し、見えなかったものを見ることを「統計」と言いますが、英語では「Statistics」と言います。

「Statistics」の由来はラテン語で国家という意味もあった「status」だと言われており、国家と統計は同根だと言われています。統計が統治を支えていると言ってもいいでしょう。

課税も事業も、正確な情報が無ければ成り立ちません。それを下支えしているのが政府統計なのです。


もちろん、そのデータが民間で活用できないわけがありません。

コンビニや住居の建設、電車やバスの遅延状況、天候の推移ーもっとも正確と言われる政府統計が活用し易い形で提供されれば、国が正確な統計情報によって発展したように、民間も発展していく。これがオープンデータが注目を浴びる第一の理由だと言われています。

その3:リスクは考えられないのか?

バラ色の将来が約束されているかのようなオープンデータですが、1つ大きなリスクがあると言われています。それは「プライバシー問題」です。

2006年、DVDレンタル会社であるNetflix社が顧客の嗜好にあった映画をお薦めするアルゴリズムのコンテストを実施した際、ユーザーの視聴履歴データは匿名化して参加者に提供されましたが、テキサス大学から参加したグループが一部の個人を特定してしまい、FTC(連邦取引委員会)が「プライバシーに関する懸念」を発表して第2回のコンテストは中止になりました。

最近でも、スタンフォード大学の研究者が、匿名化された無作為なデータ群のうち約3割は個人を特定することができたという研究結果を発表しています(※6)。


単体では「個人情報」と解らないデータを、オープンデータとして解放した場合に憂慮されるのが、こうした「プライバシー」の問題なのです。

たとえ単体では個人を特定できないよう匿名化されていたとしても、膨大なデータ群にすることで個人を特定することは可能であることは既に証明されているので、いくら「匿名化されているから大丈夫」だと言っても、反論としては有効になり得ません。

実際、政府主導で開催された、個人情報とプライバシーの取り扱いについて協議する「パーソナルデータに関する検討会」(※7)では、「個人特定困難なデータについては本人の同意無く第三者提供を可能とする」としたものの、「どこまで匿名化すれば第三者提供となるかは解らない。汎用的な匿名化方法など存在しない」というオチがつきました。


ちなみに、欧米は「法規制で強化する欧州」と「自主規制で強化する米国」という分かれ方をしています。

欧州はEUデータ保護規則を公表し、2014年夏の締結を目指しています。

その中では、「本人の事前同意無くしてデータを取得してはならない」と定義、「勝手にデータを突き合わせて自身を特定されない権利」「忘却される権利」などを謳っています。

もはや欧州では、パーソナルデータは「基本的人権」の1つになっています。個人が実際に不利益を被っていなくても、パーソナルデータ保護の権利は主張できます。


米国は、個人が実際に不利益を被らなければ何も問題ないというスタンスのようです。

実際、医療、金融、教育など独自に法規制されている分野を除けば、業界の自主規制に任されているのが現状です。

一方で、何らかの不正が明らかになれば「消費者保護」の観点からFTCにより厳しく罰せられます。最近では2012年8月に、Googleに対し閲覧履歴収集に関して虚偽説明があったことを理由に制裁金2,250万ドルを課しています。

日本はまだ欧州ほど厳しい権利保護は謳っておらず、同時に米国ほど事後に取り締まれるほど厳しい刑罰も無い状況にあります。

今後、日本がどちらの路線で行くのかは決まっておらず、今秋の国会に提出される予定の「個人情報保護法改正」までに道筋が決まると言われています。


以上、「オープンデータ」とは何かに関する3つの要点でした。

【参考文献】
※1 データカタログサイト:http://www.data.go.jp/
※2 オープンデータは大きなビジネスチャンス、地域の課題解決にも有用–OKFJ:http://japan.zdnet.com/cio/analysis/35043483/
※3 外務省:http://www.mofa.go.jp/mofaj/gaiko/page23_000044.html
※4 5★オープンデータ:http://5stardata.info/ja/
※5 公共データの産業利用に関する調査結果 概要:https://www.keidanren.or.jp/policy/2013/020_gaiyo.pdf
※6 電話番号から個人を特定するのは非常に簡単──スタンフォード大学:http://www.itmedia.co.jp/news/articles/1312/25/news070.html
※7 パーソナルデータに関する検討会:http://www.kantei.go.jp/jp/singi/it2/pd/

マーケティングメトリックス研究所では、共同研究や寄稿記事を募集中です。
ご興味のある方は、是非、お問い合わせください。