「統計学」って何?歴史を10分でざっくり把握する


みなさん、こんにちは。なにわの池上彰こと、アドエビス開発ユニット所属マーケティングメトリックス研究所主任研究員の松本健太郎です。

簡単、正確、解り易いをモットーに、本日も色んなことを「解説」していきたいと思います。

さて本日のテーマは「統計学が最強の学問である」がブームになって以降、統計学というものがバズワード化していますが、「そもそも統計学って何なのか?」について「解説」したいと思います。

統計学とは数字と国語である

「人生を100%狂わせる」と言われている、悪魔のような飲み物がこの世には存在します。

本当かよ、と最初は思いましたが、どうやら「数字」を見てみると嘘では無いというのが解ります。その飲み物を日常的に飲んでいる、ある特定地域を調査した結果を私は知っています。せっかくですから紹介させて下さい。


  1. その飲み物を日常的に飲んで育っていた中学生のうち、約半数は期末テストにおいて平均以下の得点しかあげることができませんでした。知育に影響があることが窺い知れます。
  2. さらに、調査対象の地域内で発生した傷害事件のうち、被疑者のうち100%、すなわち全員が48時間以内にこの飲み物を摂取していたことが解りました。感情に影響を与えることが窺い知れます。
  3. そして、その飲み物には中毒性があることも認められています。被験者にその飲み物を500mlだけ与えて、あとはフランスパンのみを与えていたところ、3日目ほどで異常にその飲み物を欲することが解りました。


とても恐ろしい飲み物で、人生を100%狂わせるという表現が間違っていないことがお解り頂けるかと思います。

本来なら、直ぐにでも発売禁止の行政処分を下さなければならないのですが、何かしらの圧力でも掛かっているのか、最近では街中でも見かけるようになりました。

恐らく、こうした調査結果を知らない人が、何かの誘惑に負けるかのように手を出しているのだと思われます。このままでは、大変なことになるのではないでしょうか。とくに子供への影響が心配でなりません。

もしかしたら、あなたも誘惑に負けていませんか。人生を100%狂わせる飲み物—「水」に。

ただし、水は「人生を100%幸せにする」とも言われていて、なんでも「婚姻届を提出したカップルのうち100%が48時間以内に水を摂取している」「水を日常的に飲んで育っていた中学生のうち、約半数は期末テストにおいて平均以上の得点をあげる」「難関試験に合格した人を対象にアンケートを取ったところ、ほぼ全員が24時間以内に水を摂取している」と言われており、果たして同じ「水」なのか調査が待たれるところです。


…バカバカしいと思っているあなた。これに近い話は、日常に飛び交っていませんか。騙されていませんか。本当にその器具で劇的に痩せてムキムキマッチョになれますか?本当にそのツールを入れたら他社と同じようにCTRが劇的に上がりますか?

「統計学」と聞いて難しい数学の方程式が浮かんでいる方が大勢いらっしゃると思います。それは、半分正解で、半分間違いなのです。

確かに「統計学」は数式で成り立ちます。しかし、その数式を活かすのは国語です。国語力が無ければ、上記のような「人生を100%狂わせる飲み物」にコロリと騙されてしまいます

「統計学」を学ぶということは、数学力を鍛えることであると同時に、国語力を鍛えることでもあります。

統計学の始まり~「統計」の始まりはいつか?~

ではそもそも、統計学という学問は、いつ頃誕生したのでしょうか。いや、そもそも、統計はいつ誕生したのでしょうか。


統計とは「現象を調査することによって数量で把握すること」を意味しています。例えば5年に1回訪れる国勢調査や総務省が毎年発表している経済センサスは統計の1つですし、当研究所が発表しているエビスINDEXやキーワード検索ランキングなんかも統計の1つと言えます。

では、いつ頃から「統計」が登場したのかと言いますと、なんとその起源は約5000年前、紀元前3000年頃、ピラミッド建設のために人口調査が行われたことまで遡ります。

そもそもの統計の出発点は、建造物建設のための人手調査や、兵役や徴税など、国家統治のための基礎資料にあるとされています。実際、統計を英語で 「statistics」と言いますが、語源はラテン語の「status」であり、意味は国家をさします。人口調査や土地調査など、統計という手段を通じて「国の形」を浮かび上がらせていたのです。

日本の場合は、646年に発表された「班田収授法」に基づき、670年に実施された全国的な戸籍調査が統計の始まりと言えます。


統計は当初、こうした「国家の姿・形」を浮き彫りにする手段として使われていましたが、やがて民間や個人でも使われるようになります。「人間やその社会・組織における物事を測る手法」として発達するようになったのです。

歴史上、記録として残っている最古の民間主導の制作物として、1662年にジョン・グラントの手によって編纂された「生命表」が例に挙げられます。教会に保存された死亡記録からデータをまとめ、個々でみると偶然としか思えない社会現象も大量に観察することで、一定の法則・秩序が存在することを明らかにしました。

つまり、ミクロ に見れば「神の意志」であったとしても、マクロに見れば「神の意志に規則性がある」ということになります。

ジョン・グラントという人物は、こうした観察力に特段優れていたのか、当時200万人都市と見られていたロンドンの人口を様々なデータや観察を通じて38万4千人と見積もることにも成功しました。


その他にも、「テーブルゲームをベースにした確率論」や「天文観測時で生じる誤差の理論」「生物や植物に見られる相関関係の理論」など、様々な事象に対する手法が発表されるようになります。

何れも1650年以降に発表されていますが、それは世界史という観点で見て、30年戦争を終えヴェストファーレン条約を締結したヨーロッパにおける近世から近代に掛ける萌芽の1つだった、という観点もあるでしょう。

ただ、こうした疫病の研究や、天文学の研究、生物学や植物学の研究は、その学問の領域の中で全てが完結していました。つまり疫病の研究の結果、明らかになった法則性が、生物学にも流用ができるといったことに気付くまで、さらに時間を要することになります。

その学問内でのみ見られる規則性だと勘違いしていたのか、或いは、横展開できるなんて考えてもいなかったのか、何れかは解りません。しかし、統計そのものがあまりにも普遍的な存在であることを理解している今日の私達私から見れば常識と言えることも、それが発見される前までは常識でないことを歴史が教えてくれます。


こうして、統計が登場してから約4500年経って、ようやく現在の2つの形に近付こうとするのです。

1つは、全てを丹念に調べて規則性を見つけ、法則を導く手法。これはやがて、記述統計学として大成します。一方で、全てを丹念に見るには時間が掛かり過ぎるとした場合に、一部を観察して、論理的な推測を行い、それを全体と紐付け、全体そのものの法則を導く方法。これはやがて、推計統計学として大成します。

つまり統計学とは、学問として成り立ったというよりも、様々な現場において観察眼が優れた人物により法則として導き出された手法を、後世の人間が体型立てた結果として誕生したものなのです。

では、いったいそれは誰の手によってなされたのでしょうか?

統計学の始まり~「学問」の始まりはいつか?~

数学者であり天文学者でもあったケトレーは、犯罪、出生、結婚、死亡などの人間に関する現象に関する様々なデータを検証し、「正規分布」に従うかどうかを調べ、社会には最大多数を占める、平均的属性を備えた人間である「平均人」が存在し、社会の重心に相当することを発見、1835年にそのことを発表しました。

つまり、個人には個人差というバラツキがあったとしても最も観察されるのは「平均」であり、大量観察はある一定の普遍性をもった法則をもたらす、という発見です。

こうして「実際には存在していない」ながら、あたかも「物事の中心である」かのように振る舞う「平均」は誕生しました。

ちなみにケトレーの研究対象は、社会的データに留まらず、身体的データにも及び、人の身長に対する理想的な体重と実際の体重を比較する指数を発表しました。これは現在でも用いられており、BMI(Body Mass Index)あるいは、ケトレー指数 (Quetelet Index)と言われています。

ケトレーのこうした研究は、自由意志による人間の行動は全くバラバラに見えて、実は社会全体で見れば法則に従っていることを明らかにしました。つまり、人間は自らの意思で生きていながら、それ自体に傾向があることが解ったのです。

こうした研究に、神学者が猛反発したことは有名です。しかし、彼の発見こそ「統計学」の始まりの鐘の音でした。


同じ頃、ダーヴィンの進化論が発表され、神学論争が各地で勃発するようになりました。彼の研究を、従弟にあたるゴルトンは、進化論の研究を数量的側面から明らかにしようとしました。

例えば、彼は身長と上腕の長さのデータをクロス集計に落とし込み、そこに相関があることを明らかにしました。その他に、スイートピーの種子の直径の測定を行い、そこに回帰(※平均に戻る、退行する)が見られることを明らかにしました。

法則性の表現として回帰や相関が意識的に用いられた生物測定(Biometry)は、やがて弟子のピアソンによって相関係数という数式によって落とし込まれ、歴史上初めて傾向という曖昧な表現ではなく、数式という明確な表現をすることが可能になりました。

さらに、ピアソンは生物測定の領域を数学的に発展させ、19世紀から20世紀にかけて記述統計学として大成させるのに成功させます。つまり、氏の手によって統計は学問に昇華されたと言っていい、と私は思っています。


一方で、こうした神学論争に発展した故なのか、人間は数字に落とし込めると考えたのか、ゴルトンもピアソンも優生学者の側面を覗かせています。まるで家畜の品種改良のように、人間も「改良」すれば、素晴らしい平均が生まれ、より良い世の中になるという考えを持ってしまったのです。

統計学が「神の領域を明らかにする手法」として広まろうとするなかで、自らが神に成り代われると考えた人がいてもおかしくないとも言えます。いつの世も研究に欠かせないのは理性と知性と自制心だと知らせてくれる良い例です。


さて、記述統計学が進化していくなかで、標本と母集団という概念が浮かび上がってきます。

記述統計学の前提は「全貌が明らかなこと」ですが、例えば日本の全人口を対象にする、或いは広大な農場における作物を対象にするには、膨大な労力と時間を必要とし、事実上不可能でした。

そこで、確率論を用いて、統計的推測を行い、「全体」という母集団の中で、目の前にあるデータは「部分」である標本という概念がロナルド・フィッシャーによって成立させました。

つまり、「部分」(=標本)は全体の一部であり、「全体」(=母集団)を反映していると考えるわけです。これを推計統計学と言います。

推計統計学の中でも、標本を元に母集団を求める「推定」と、想定される母集団と実際の差分が偶然か意味ある事象かを導き出す「検定」は、「統計学の王道」と言われており、実際、様々な分野に応用されました。


例えば視聴率です。最近の例で言えば、日本対コロンビア戦の関東視聴率が37.4%でしたが、これは関東全域約1800万世帯のうちテレビを見ている視聴者の37.4%がサッカーを見ていたという意味ではなく、600世帯という標本をもとに導き出しています。そして、その標本を元にした結論が母集団と同じ傾向どうかについては検定によって立証されます。

詳しい説明は省きますが、約380世帯について調査すれば、母集団の視聴率は、95%の確率で標本から算出された視聴率の±5%の範囲内に収まると統計的に導き出されており、600世帯は少ないように見えて十分に多いのです。

誤差については、視聴率20%の場合は±3.3%もあります。母集団を4倍の2,400世帯に増やしても誤差は±1.7%にまでしか縮まりません。ですから私はテレビ局の人に「視聴率を気にし過ぎるな!」と訴えたいと思います。


話がそれました。

推計統計学の誕生は、1925年にロナルド・フィッシャーの手によって刊行された「研究者のための統計学的方法」が出発点だという声が多いとされます。つまり、まだこうした世間一般に言われる統計学が生まれて100年も経っていないわけです。

1925 年と言えば、お椀が頭にガンとぶつかって湾岸戦争でおなじみの夢路いとし先生が生まれた年でもあります。つい最近のことなのです。たった80年の間の出来事を知るだけで、世間は「セクスィーデータサイエンティストや」と持て囃してくれるのです。こんなに美味しい職業はないと思いませんか?


もっとも統計学は日進月歩の進化を遂げていまして、1950年代にはベイズ統計学の登場により一段と進化しています。

そもそも推計統計学は「母集団」を前提にしていますが、ベイズ統計学は「標本」のみで計算をするという前提に立ちます。つまり「母集団」は配慮しなくていい、という考え方です。

例えば、「月にウサギがいる確率」を求める場合、今までの統計学(古典統計学)の答えは「不明」だし「1回ロケットで飛ばしてみて見ないと解らない」ですが、ベイズ統計学の答えは「いるかいないかの2分の1」になります。つまり、古典統計学は「何回かやってみた結果を馴らしたものの起こる確率」を求めるのに対して、ベイズ統計学は「その時点の情報をもとにした一回限りの確率」を求めます。

かなりの違いがあることにお気付きでしょうか。ですから、お互いの学派は口も利きかないという笑い話もあるぐらいです。


要はお互い、ライバルなのです。

ベイズ統計学が出始めた同じころ、1952年には中島みゆき、1954年には松任谷由実が誕生しており、2人も同じようにライバルとして切磋琢磨し、日本の歌謡界を盛り上げました。同じように古典統計学もベイズ統計学も、分析手法としてそれぞれ発展しているだけで、状況に合わせて使い分ければいいだけです。

辛い時には中島みゆき、恋した時に松任谷由美を聞き分けるように。


少し長くなりましたが、こうして統計学について学んでみると、まだまだ知らないことがある一方で、学ぶ前よりも「面白そうだ」と思えてきませんか?ちなみに、これをベイズ確率で言うと、統計学が面白いと感じている人の確率は、読む前と読んだ後で…。


【参考文献】

統計学入門 (基礎統計学) 著:東京大学教養学部統計学教室


マーケティングメトリックス研究所では、共同研究や寄稿記事を募集中です。
ご興味のある方は、是非、お問い合わせください。