幾何分布について|Excel(エクセル)で学ぶデータ分析ブログ

幾何分布とは?

幾何分布(geometric distribution)は、字面だけ読むととっつきにくい感じですが
二項分布ベルヌーイ分布を理解していればさほど難しい内容ではありません。

二項分布

\[
p(X=x) = {}_nC_x p^x (1-p)^{n-x}
\]

二項分布の考え方では
「1/2の確率のもの(例えばコイン)を10回投げたときにはだいたい5回(5/10)程度の確率で表(または裏)が出る」
と予想を立てることができました。

では、「何回目に表が出るか」という予想を立てる場合、二項分布で予測することが可能でしょうか。
結論からいうとちょっと難しそうです。

なので、確率分布のことは忘れて、単純な確率の計算をしてみましょう。
例として5回目に表が出た場合を考えてみます。

X回目で成功する組み合わせ
 成功回\試行回数 1回目 2回目 3回目 4回目 5回目 6回目 7回目 8回目 9回目 10回目
0回 1
1回 0 1
2回 0 0 1
3回 0 0 0 1
4回 0 0 0 0 1
5回 0 0 0 0 0 1
6回 0 0 0 0 0 0 1
7回 0 0 0 0 0 0 0 1
8回 0 0 0 0 0 0 0 0 1
9回 0 0 0 0 0 0 0 0 0 1
10回 0 0 0 0 0 0 0 0 0 0

上記の表は「何回目で成功をするか」という表です。
コインの場合、2通りの事象しかありえないため、成功も失敗も1/2です。
これを「成功確率:p=1/2」とし、「失敗確率:1-p=1/2」と考えます。
※サイコロで1を成功と定義した場合は「成功確率:p=1/6」とし、「失敗確率:1-p=5/6」と考えます。

5回目で成功する確率(4回連続で失敗する確率)

\[
成功確率*(失敗確率)^{失敗回数} = (1/2)*(1/2)^4 = (1/2)^5=0.03125 \fallingdotseq 3.1\%
\]
だということがわかります。

幾何分布

\[
成功がx回目: p(X=x) = p (1-p)^{x-1} ,x = 1,2,3,4 \cdots \\
失敗がx回続く: p(X=x) = p (1-p)^x ,x = 0,1,2,3 \cdots
\]

幾何分布では
「10回中5回目で成功する確率は3.1%の確率だ」というようなことや
「10回中4回『連続して』失敗する確率は3.1%の確率だ(5回目は成功する)」というようなことが予想できます。
幾何分布を応用すれば過去記事でも紹介した「マーチンゲール理論」でも予算の準備に応用が利きそうです。

乱数からの幾何分布シュミレーション
1回 2回 3回 4回 5回 6回 7回 8回 9回 10回
成功数 50232 24588 12574 6339 3095 1573 790 425 195 88
成功数/試行回数 0.502 0.246 0.126 0.063 0.031 0.016 0.008 0.004 0.002 0.001
確率分布 0.5 0.25 0.125 0.063 0.031 0.016 0.008 0.004 0.002 0.001

エクセルでは下記のようにあらわします。

=B$1*(1-B$1)^($a2)

幾何分布のエクセル関数1

サイコロの場合

乱数からの幾何分布シュミレーション
1回 2回 3回 4回 5回 6回 7回 8回 9回 10回
成功数 16705 13842 11619 9603 8023 6659 5482 4616 3874 3181
成功数/試行回数 0.167 0.138 0.116 0.096 0.08 0.067 0.055 0.046 0.039 0.032
確率分布 0.167 0.139 0.116 0.096 0.08 0.067 0.056 0.047 0.039 0.032

無記憶性

幾何分布の解説では無記憶性に関する解説も一緒されることが多いです。 \[
P(X \geq x_1 + x_2 | X \geq x_1) = P( X \geq x_2) (x_1,x_2 \geq 0)
\]

これは、\(x_1\)回失敗が続いたという情報が\(x_2\)回目の成功や失敗になんら影響を与えることがない、という考え方です。
「負けがこんどるから次は勝てるんや!」といった感じでアツくなっている身内の方がいたら
ぜひ無記憶性について論じてみてください。