難しいベイズ統計学は551の豚まんがあるとき・ないときで考える

 

メールのフィルタリングからレコメンドエンジン、画像解析まで、ビッグデータの申し子のような存在ですが、難しいと感じている人も大勢いるベイズ統計学。

モンティ・ホール問題(参照:Wikipedia)など、人間の感覚と異なる確率を扱っているように見えますが、実はあらゆる分野に応用が利く便利な存在でもあります。

今回はベイズ統計学について、数式を使わずに絵と具体例(551の豚まんがあるとき・ないとき)だけで説明するので、その雰囲気を感じてもらおうと思います。

551の豚まんって何?という人はまずこのYoutubeにアップされているこのCMを見て下さい。

 

なぜベイズ統計学は革命的と評されるのか?

ベイズ真っ盛りの昨今。そこまで世界を席巻するにはちゃんとした理由が主に3つあります。

 

1つに、経験や信念など数値化できないものを数値にして計算できる点が挙げられます。

「サイコロを振って1が出る確率」を客観確率と言います。カイジの世界でもない限り、6分の1でしょう。一方で「月にウサギがいる確率」「あの子が俺を好きな確率」など測れないもの見たことがないものを主観確率と言います。

特定個人に依存せず誰が見ても共通であれば客観確率、評価する主体によって異なれば主観確率と理解してください。

測れないものが測れる。これこそがベイズ統計学を「革命」と評する所以です。

 

次に、少ないデータ量であっても推測ができて、データ量が増えるほど正確になる点(自動的に結果がアップデートされる学習機能要素)が挙げられます。

統計学は推測統計学の検定や推定に見られるように量が重要です。量が少ないほど、その結果は曖昧さが増します。

ベイズ統計学の場合、量が少なくてもその段階での結論を出すことができます。量が少ない故に諦めなくてもよい点に「価値」があります。

 

最後に、原因と結果という因果関係に対して、その関係性を計算から明らかにできる点が挙げられます。

以前の福角の記事や、バタフライ・エフェクトという言葉があるように、物事には必ず原因があります。ベイズ統計学は「条件付確率」という確率論を発展させた「事前確率と事後確率」に立脚しており、これはそれぞれ因果関係を示唆しています。

簡単にいうと、結果から原因が起こる確率を予測できます。因果性を考える上で、この手頃感が「魅力」です。

 

ザックリしていますが、だからこそ世界中で使われているわけです。

 

家族みんなが笑顔だったら551の豚まんがある確率は?(初級編)

まず初級編です。

年に1回関東の実家に帰省するNさんは、関西の手土産にたまに551の豚まんを選びます。

途中の新幹線で車中が匂いテロ(通称:豚まんテロ)に遭遇しているとか、そういうのは考えないでください。チルドを買ってるんです。新大阪駅構内にございますので、お気軽にお求めください。

チルドは匂いが車内に充満しないので、お母さんもぜひお子様におすすめください。

 

豚まんがあると家族10人全員が100%の確率で必ず満面の笑顔になります。

 

笑顔。
笑顔。

 

豚まんがないと家族10人全員が100%の確率で必ず無表情となります。

 

しょぼーん。
しょぼーん。

 

さて、あなたがNさん宅に偶然お邪魔したとき、Nさんは帰省していて、かつ家族10人全員が満面の笑顔でした。手土産に551の豚まんを買った確率はいくらでしょう?

ちなみに他の手土産で10人全員が満面の笑顔になることは無いし、10人全員揃うのは手土産があるときのみとします。

 

あるときの確率、ないときの確率
あるときの確率、ないときの確率

 

これをベイズ的に考えます。

まず、手土産として551の豚まんを買っている確率。これはわかりません。こんな場合は「理由不十分の原理」という方法を使います

あるときなのか、ないときなのか、その何れの根拠も無いのだから、とりあえず対等と考え、50%ずつと設定します。この数字を事前確率と言います。

 

解らないからとりあえず半々。ここがベイズのいい加減で良いところ。
解らないからとりあえず半々。ここがベイズのいい加減で良いところ。

 

さて、この絵に条件を当てはめます。それは551の豚まんがあるとき100%笑顔、551の豚まんがないとき100%無表情という先ほどの確率です。

これは「原因(551の豚まんがあるとき・ないとき)がわかっている場合の結果(笑顔・無表情)の確率」だと考えてください。

さきほどの想定される2つの世界が、さらに2つに分かれます。ただし片方は0なので実質は2つの世界のままですが…。

 

可能性のある世界に分かれます
可能性のある世界に分かれます

 

さて、ここで10人全員笑顔という結果がわかっていますから、まず無表情な世界を消し去ります。

これが追加情報です。

 

世界が「笑顔」だけになったら。
世界が「笑顔」だけになったら。

 

その結果、1と0の世界のみになりました。追加情報によって確率が変動したわけです。この結果を事後確率と言います。

そして551の豚まんが100%あるという結果が導き出されました。

 

測れないものは「理由不十分の法則」で数値化する。結果から原因を導く。何となくイメージが湧いたでしょうか?

今回は100%と0%としたので、直ぐにイメージができたかもしれません。そこで内容をさらにベイズっぽくしてみます。

 

家族みんなが笑顔だったら551の豚まんがある確率は?(上級編)

そろそろ551の豚まんに食べ慣れてきた10人家族。

そして、そのうちお節介な親戚が「豚まんじゃないときに笑顔じゃないのは失礼だ」と同調圧力をかけてきて、豚まんじゃなくても全員が笑顔にならざるを得ない瞬間ができました。

 

豚まんがあると家族10人全員が80%の確率で必ず満面の笑顔になり、20%の確率で必ず無表情となります。

豚まんがないと家族10人全員が30%の確率で必ず満面の笑顔になり、70%の確率で必ず無表情となります。

さて、あなたがNさん宅に偶然お邪魔したとき、Nさんは帰省していて、かつ家族10人全員が満面の笑顔でした。手土産に551の豚まんを買った確率はいくらでしょう?

ちなみに他の手土産で10人全員が満面の笑顔になることは無いし、10人全員揃うのは手土産があるときのみとします。

 

ちょっとバラけさせてみました。
ちょっとバラけさせてみました。

 

これをベイズ的に考えます。

まず、手土産として551の豚まんを買っている確率。先ほどと同じで「理由不十分の原理」から50%ずつと設定します。

 

解らないからとりあえず半々。ここがベイズのいい加減で良いところ。
解らないからとりあえず半々。ここがベイズのいい加減で良いところ。

 

さて、この絵に条件を当てはめます。さきほどの確率です。

さきほどのあるとき・ないときという2つの世界が、さらに2つに分かれます

 

2つの可能性の世界が、さらに2つの可能性の世界に分岐
2つの可能性の世界が、さらに2つの可能性の世界に分岐

 

これは結果がわからなかった場合の世界です。

さて、ここで10人全員笑顔という結果がわかっていますから、まず無表情な世界を消し去ります。

 

世界は「笑顔」だけになった。
世界は「笑顔」だけになった。

 

その結果、0.5の中の0.8の世界と、0.5の中の0.3の世界だけが残りました

それぞれ0.4と0.15になります。

 

残った世界のそれぞれの割合。足して1なるよう調整する必要がある。
残った世界のそれぞれの割合。足して1なるよう調整する必要がある。

 

足して0.55では元の1と合致しないので、合うように修正をします。

その結果、551の豚まんがあるから笑顔の可能性は73%、551の豚まんがなくて笑顔の可能性は27%になりました。

「全員が笑顔」という情報から、551の豚まんがある可能性が約1.5倍にアップデートされたわけです。

551の豚まんがある可能性はかなり高そうですね。

 

まとめ

かなりザックリしていますが、こうして考えるとベイズ統計学も簡単です。

昨今の主流になっている統計思考なので、ポイントを抑えるだけでも有効です。

ちなみに551の豚まんがあるかどうかは、満面の笑顔だけじゃなく匂いで一発でわかるやろというツッコミを方々からもらいました。

食べたことがない人は、関西に足を運んだらぜひ食べてみてください。