二項分布について|Excel(エクセル)で学ぶデータ分析ブログ
■二項分布とは?
Wikipedia より(一部編集)
“二項分布(Binomial distribution)は、結果が成功か失敗のいずれかである n 回の独立な試行を行ったときの成功数で表される離散確率分布である。各試行における成功確率 p は一定であり、このような試行を、ベルヌーイ試行と呼ぶ。二項分布に基づく統計的有意性の検定は、二項検定と呼ばれている。”
一様分布の解説でサイコロの目を用いましたが、ちょっと説明がややこしいのでまずは下記のような条件でシミュレーションしたいと思います。
「よく切ったトランプ(ジョーカーを除く)から1枚を抜き、赤だったら1点、黒だったら0点を記録しカードを戻す。これを10回繰り返した合計得点を出力する」
ためしに1回ゲームを行いました。結果は以下のとおり。
赤が出る確率が1/2ということは理解の上で進めますが、もし10回中1/2の確率で赤が出るのであれば
平均得点が5点になることはなんとなく想像がつきませんか?
でもそれはあくまで理論値であり、自身で確認するとわかりますが、毎回5点になるとは限りません。
このように、3点しか取れないときも十分にありえます。
もし100回同様のゲームを繰り返したらどうでしょうか。
なんとなくですが、
0点→まずない
1点→ほぼありえない
2点→ほとんどない
3点→あまりない
4点→ややある
5点→ほとんどがこれ
6点→4点と同じくらい
7点→3点と同じくらい
8点→2点と同じくらい
9点→1点と同じくらい
10点→0点と同じくらい
というようなイメージになりそうです。
可視化すると5点を中心にした山型に得点の結果が分布しそうな気がしてきます。
■二項分布のシミュレーション
本当にそうなのか実験してみましょう。
試行結果の合計得点を10回、100回、1,000回、10,000回と繰り返して度数分布表を作成しました。
上段:左:10回、右:100回
下段:左:1,000回、右:10,000回
いかがでしょうか。ゲームの回数が増すごとに5点を中心に山型となっていくことがグラフからもわかります。
この出現数を比率で換算した相対度数分布を二項分布と呼びます。
確率の計算式は
または
という形で表記されます。xには整数しか入りません。
確率を計算するために必要な情報は
n=試行回数(10回)
p=出現率(1/2=0.5)
x=成功回数(1~10点)
となりますので
エクセルではx=5として
【COMBIN(10,5)*(0.5^5)*(1-0.5)^(10-5)】=0.246となり、
10回の試行であれば4回に1回は5点になります、と考えられます。
■どれくらい繰り返すと理論値に近づくのか
上記は理論値(左側)とそれに近似させるために繰り返した比較図(100回、10,000回)です。
破線は同じ条件での理論的な線ですが、計算回数が増えると理論値に近似してくることがわかります。
逆にいえば100回程度の結果では理論値に近似しているとは言いがたいですね。
下記は理論値と試行回数の分布表です。
試行回数×確率=平均値になることがなんとなく想像できます。
■試行回数を増やすとどうなるのか
それでは、少しだけルールを変更してみます。
「よく切ったトランプ(ジョーカーを除く)から1枚を抜き、赤だったら1点、黒だったら0点を記録しカードを戻す。これを100回繰り返した合計得点を出力する」
下記は理論値の分布です。左は0点から100点まで、右は頻度の高い範囲にグラフを切り取った分布です。
確率を計算するために必要な情報は
n=試行回数(100回)
p=出現率(1/2=0.5)
x=成功回数(1~100点)になります。
目を細くすればするほど左右両端の値が減っていくのが可視化されます。
ほとんどの場合で40点~60点くらいは取れるということですね。
逆に10点以下とか、90点以上の結果になる確率は
「0.000000000000000001.531645」ということで、これは前述の試行を「100,000,000,000,000,000」回繰り返せば1回くらいは出現するんじゃないか、という感じです。そんなにやってらんないですね。
※所有のPCで1,000,000,000個まで乱数を出して実験しましたが、10点以下はおろか、20点以下も得ることができませんでした。
またどこかの折に説明をしますが、二項分布は「離散型」というタイプの分布ですので、下記のように曲線で図示するのは、厳密には適切ではありません。
上記の曲線は二項分布に近似させた正規分布を図示しています。
二項分布の平均値や分散の値は、正規分布と近似すると言われています。