今年こそデータサイエンティストになると決意したあなたが読むべき10冊

松本 健太郎

 

今回は、今年こそデータサイエンティストになる!と決意したあなたにこそ読んで欲しい10冊の本を紹介します。

決意目標が揺るがない間に、真っ先にamazonでポチって欲しいと思います。

 

まずは基本統計量をしっかり理解する

統計学を記述統計学と推測統計学に分け、まずは前者をしっかり理解するなら、お勧めする本はこの2冊です。

 

 

photo

統計学入門 (基礎統計学Ⅰ)
東京大学教養学部統計学教室
東京大学出版会 1991-07-09

 

東大本で理論をしっかり学びながら、菅さんの本でExcelを使って実際に操作してみるのが良いかもしれません。

最初は、東大本については第1章「統計学の基礎」、第2章「1次元のデータ」、第3章「2次元のデータ」を学ぶだけで良いと思います。

以降で紹介する本についても消化した後に、第4章以降について改めて読み進めると、より理解度が進むのではないでしょうか。(松本はそうでした)

 

とりあえずRを触ってみよう

データサイエンティストと言えばやっぱRでしょ!と私は勝手に思っているのですが、プログラム言語と聞いて顔を顰める人も多い様です。

そこで、そんな拒否反応を和らげてくれる本はこの3冊です。

 

photo

みんなのR -データ分析と統計解析の新しい教科書-
Jared P. Lander Tokyo.R(協力) 高柳慎一
マイナビ 2015-06-30

 

 

photo

データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)
酒巻 隆治 里 洋平 市川 太祐 福島 真太朗 安部 晃生 和田 計也 久本 空海 西薗 良太
技術評論社 2014-12-12

 

「みんなのR」では、Rのインストール方法から紹介されています。

松本は、R+Rstudioを使ってデータマイニングに取り組んでいますが、こうした開発環境から紹介してくれる本は稀有だと思います。

ただし「みんなのR」はコマンドの使い方事例のような扱いで、なんかよう分からんけどとりあえずR使ってみたい!という人には向いていません。

 

そこでお勧めなのが「楽しいR」です。前マメ研所長の本ですね。

データの背景から説明があるので、とりあえず本の通りに進めていくと自分の環境でも一通り分析ができるので、やったった感を味わえます。

さらに、「養成読本」で世間で活躍しているデータサイエンティストたちの手法を学ぶと良いと思います。

Rを使った集計方法や、基礎的な知識を改めてRで学べるので重宝するのではないでしょうか。

 

データサイエンスな事例に触れておこう

ある程度の基礎が整うと、基礎を用いた応用に誰しも挑戦したくなるものです。

しかし、この応用事例のハードルは高く、このあたりがデータサイエンティストへの道が険しいことを感じさせるのかな、と思います。

そこで「橋渡し」をするように、難易度「中の下」レベルの統計学を用いた分析事例満載の本を紹介します。

 

 

マメ研がセイバーメトリクスに熱心なのも、この本の影響です。

セイバーメトリクスと言っても、そんなに難しい統計的手法を用いていないので、野球を知っていれば、楽しく読めます。

 

野球よりサッカーという場合は、この本をお勧めします。

 

photo

サッカー データ革命 ロングボールは時代遅れか
クリス・アンダーゼン デイビッド・サリー 児島 修
辰巳出版 2014-06-30

 

データを読むのではなく、データが発生した事象の本質を理解することが大事なんですよね。

スポーツとデータは、切っても切り離せない関係にあります。皆さんも参加する、あるいはよく見るスポーツをベースに、データサイエンスに挑戦してみてはいかがでしょう?

 

データマイニングに挑戦するならこの2冊

データマイニングとディープラーニングがトレンド化しています。

私もやってみたい!という場合にお勧めするのが、この2冊です。

 

photo

データマイニング入門
豊田 秀樹
東京図書 2008-12-05

 

photo

Rによるデータマイニング入門
山本義郎 藤野友和 久保田貴文
オーム社 2015-11-21

 

松本的に間違いない豊田秀樹先生本です。なかでもデータマイニングを基礎から勉強するのであれば、この本は外せないでしょう。

ニューラルネット、ディシジョンツリーからサポートベクターマシンまで、いわゆる機械学習系を一通り網羅していると思います。

この本に載っている事例はR言語で書かれている下りもあるので、自身の開発環境で試しにやってみるのも良いかもしれません。

 

一方、こうしたデータマイニング系をRでしっかりやりたい場合にお勧めなのが「Rによるデータマイニング入門」です。

松本の通う大学院でも講師をされている久保田先生が共著です。手法、事例が掲載されているので、活用イメージまで湧くと思います。

 

分析は手法であることを理解する1冊

最後に少し毛並みの違う本を紹介します。

ここまでデータサイエンティストになるための9冊を取り上げてきましたが、データ分析とはあくまで手法であることを書き留める必要があります。

課題をデータで解決する(発見する)のがデータサイエンティストなんです。

したがって、課題とは何か?何ができれば解決するのか?を把握し、その理由を述べる力がデータサイエンティストには必要です。

そのための力を養うための1冊がこちらです。

 

 

松本の通う大学院でも講師をされている柏木先生が著書です。手法ではなく考え方が掲載されているので、「何を、どのように分析すればいいんだっけ?」と悩んでいる方にうってつけだと思います。

特に、手法がいつの間にか目的になっていて「決定木できれいに分類できました!」と報告すると「だから何?」と言われたことのある人にはピッタリではないでしょうか(おれか)。

 

最後にマメ研所長の本

データサイエンスは結局最後は見せ方だよね!というわけで、最後にマメ研所長が書いた本を紹介します。

 

 

メインのお題は「グラフの書き方、作り方、読み方」です。

グラフの装飾方法などのテクニック論じゃなく、グラフという本質に迫った1冊です。この本さえあれば、テクニック論の本はそんなに要らないと思います。

付録として、グラフの書き方、作り方、読み方にそってデータジャーナリズムについて挑戦しています。

良かったらお近くの書店にて手にとってみてください!

 

まとめ

本を読んだから万全であるとは限りません。独習と実践の繰り返しが必要だと思います。

ただ、私自身が「どこから手を付ければいいのか解んない!」と何度も悩んだことがあったので、まずは始めるならここからだよ!という10冊をご紹介させて頂きました。