東京永久観光

【2019 輪廻転生】

信頼区間なぜ95%〜正規分布とべき分布がそもそも謎

統計学が最強の学問である』西内啓さんの記事を読んだ。

https://cakes.mu/posts/29802

 

「95%信頼区間」というのが何なのか、初めてよくわかった。この範囲以外の確率になることは「まずありませんよ」ということなのだ。この例では、母集団(東京23区の人全体)における陽性率が1.8%~13.7%以外になることは「まずありませんよ」だ。

「95%信頼区間」というのは、漠然とは知っていたが、はっきりとは知らなかった。それと、両端5%ずつをカットするのかと思っていたが、両端2.5%ずつ合わせて5%をカットするのだと知った。

さてここで興味深いのは、「それ以外の確率になることは、まずありませんよ」というのは気分的な話(定性的)だろうが、「まずありえない(=信頼できない)」を、数字にするとなぜ「5%」なのか、という点だ。

これはたしか、昔からの慣習のようなものでそうなっているのではなかっただろうか。もっと厳しくしても、もっと緩くしても、信頼区間が95%なのか97.5%なのか90%なのかが示されていればよいだろう。でもまあ「5%」くらいを「ハズレ」とみなすのが、私たち人間の気持ちなのだろうか?

AIには、この気持ち、わかるのだろうか?

 

ところで、西内さんのこの本は、私としては、統計学の本質を、基本中の基本のレベルだろうが、初めて本当に実感できた本だった。(以下がそのときの感想)

https://tokyocat.hatenadiary.jp/entry/20130809/p1

 

なお、これも言わずもがなだが、慶応大の67人は、東京の人口からみれば「とても少ない」ので、信頼区間は「1.8%~13.7%」と広くなってしまう。1000人くらいの調査なら、かなり狭くなるはず。

 

さて先に書いた素朴な疑問に戻る――

なぜ95%なのか? 

その問いへの正統的な答えは、「正規分布において標準偏差の2倍以上離れた値になるのが約5%だから」というもののようだ(西内さんの本にもあったはず)

<たとえば以下参照>
【CRAのための医学統計】標準偏差と正規分布の関係を知ろう!95%の確率と5%の確率

 

なるほど。じゃあ正規分布って何? 

そう、それがけっこう難しい。

たとえば人の身長は正規分布するとみなされている。テストの成績も正規分布するとみなされている。しかし正規分布とはまったく違う分布(たとえばべき乗分布)をするとみなされる事象も実は多い。ここまでは私も知っている。

私たちひとりひとりの年収の額の分布、それから友人の数、ツイッターでのフォロー数、月のあらゆるクレーターの大きさ、あらゆる地震マグニチュード、これらはいずれも正規分布はしない。べき乗則に近いとみられていると思う。

べき乗則の分布が正規分布と本質的に異なるのは平均を見いだせない点。年収でも友人数でも地震の規模でも、小さいもの(平々凡々としたもの)が圧倒的に多く、大きいものほど少なくなるが、ものすごく大きいものもごくまれにあるということ。身長などはそうではなく平均に近いものが圧倒的に多い。

これを勉強したとき、「べき乗則って不思議だな」と思ったのだが、だからといって「正規分布は不思議ではない」ということには、まったくならない。そもそも身長が正規分布するのはなぜだ? なぜだ? 宇宙の秘密が背後にあるのか?(まったく見当違いの疑問かもしれないが)

 

さて、とても興味深い問いを思いついた。

新型コロナに感染して発症した人が、苦しむ度合いをグラフにしたら、苦しむ度合いが中くらいの人が最も多くなるのか(正規分布) それとも、ほとんど苦しまない人が圧倒的に多く、大きく苦しむ人ほど少なくなるのか(べき分布

非常に気になる。

 

身長が正規分布する=平均的なサイズが圧倒的に多くなる=のは、ひょっとして、ゲノムがほぼ同じだからという説明が当てはまるのか? かたや、月のクレーターのサイズや地震の規模は、生物の現象ではなく物理の現象だから、それが違いの根本なのか? どうだろう? 

なんだか面白くなってきた!