06 4月 2016
二項検定について【基本編】|Excel(エクセル)で学ぶデータ分析ブログ
二項分布のおさらい
二項検定(Binome test)は、その名のとおり二項分布をベースに考えられた検定手法です。
検定の手法のなかではもっともわかりやすい手法なので検定をこれから勉強される方には一番とっかかりがいいのではないでしょうか。
この記事では二項検定を利用して検定の考え方について紹介したいと思います。
\[
p(X=x) = {}_nC_x p^x (1-p)^{n-x}
\]
振ったサイコロが偶数なら0点、奇数なら1点という具合に10回振ってみます。
偶数も奇数も\(3/6=1/2\)ずつ発生するのでたくさん試行を繰り返すと5点を中心とした二項分布にしたがいます。
0点 | 1点 | 2点 | 3点 | 4点 | 5点 | 6点 | 7点 | 8点 | 9点 | 10点 | |
---|---|---|---|---|---|---|---|---|---|---|---|
得点 | 9 | 102 | 470 | 1159 | 2064 | 2449 | 2033 | 1149 | 453 | 101 | 11 |
比率 | 0.09% | 1.02% | 4.7% | 11.59% | 20.64% | 24.49% | 20.33% | 11.49% | 4.53% | 1.01% | 0.11% |
理論値 | 0.1% | 0.98% | 4.39% | 11.72% | 20.51% | 24.61% | 20.51% | 11.72% | 4.39% | 0.98% | 0.1% |
エクセルでは
=COMBIN(B$1,$A2)*($A$1^$A2)*(1-$A$1)^(B$1-$A2)
または
=BINOM.DIST($A2,B$1,$A$1,0)
とすれば簡単に計算ができます。
ここから言えることは、
「この試行では4~6点くらいに≒65%くらいはなるだろうな」
といった感じです。これが二項検定の考えかたのベースになります。
二項検定とは
逆を言えば、0点とか10点満点というのは、めったに起きそうにありません。
2点以下の累積確率は0~2点の発生確率を合計した5.5%程度となります。
検定では、このめったにおきない事象に着目していきます。
つまり、同様の試行を繰り返したときの結果が下記のようになれば、そもそも1/2の確率分布にしたがっていないのではないか、と考えられます。
0点 | 1点 | 2点 | 3点 | 4点 | 5点 | 6点 | 7点 | 8点 | 9点 | 10点 | |
---|---|---|---|---|---|---|---|---|---|---|---|
得点 | 1037 | 2646 | 3044 | 2049 | 915 | 235 | 63 | 11 | 0 | 0 | 0 |
比率 | 10.37% | 26.46% | 30.44% | 20.49% | 9.15% | 2.35% | 0.63% | 0.11% | 0% | 0% | 0% |
理論値 | 0.1% | 0.98% | 4.39% | 11.72% | 20.51% | 24.61% | 20.51% | 11.72% | 4.39% | 0.98% | 0.1% |
次の記事では実際に二項検定を使用してとある事象を検証したいと思います。
→実践編へ