一様分布について|Excel(エクセル)で学ぶデータ分析ブログ

■一様分布とは?

Wikipedia より(一部編集)
“一様分布(Uniform distribution)とは、サイコロを振ったときの、それぞれの目の出る確率など、すべての事象の起こる確率が等しい現象のモデルである。”
サイコロは1~6の数字が刻まれた正六面体という形をしています。
イカサマ師の使う「偏りのある」サイコロでないと仮定すれば、1~6の出現する確率は一定であることはなんとなく想像がつきますね。

20150801_itiyo01

やはり、1~6までがだいたい均一で出力されています。

20150801_itiyo02

でも、場合によってはこういったふうに偏るときもあります。
これは「理論値と実測値」の違いで、確率分布の世界ではどれだけ実測値が理論値に近づいていくかを検証するためにたくさんの研究者が涙を流した悲劇の物語。
実生活でもありませんか? 理想と現実。そのギャップを埋めるために我々は日夜努力を←脱線。

こういった、全ての値の出現確率が均一である確率分布を「一様分布」と呼びます。


■エクセルの乱数を出力する関数【rand】

エクセルの関数でrandという関数をご存知でしょうか。

20150801_itiyo03

乱数とは読んで字のごとく、次の数値が読めない値、と考えられます。
しかしながら、数学の世界では「完璧な乱数」を作るのは非常に難しいと言われています。
上記の乱数も一見、複雑で傾向の読めない数値に思えますが、エクセル関数のrandは一様分布にしたがっていますので、厳密には予想が可能な乱数となります。
例えば前述のサイコロシミュレーションもこのrandをコントロールし、1~6の範囲が出力されるようにしました。【rand()*(b-a)+a】
ただ、エクセルでは計算の処理(というより時間)に限界があるので、以後は別のソフトウエアを使用します。
一様分布で乱数を出力するプログラムはほとんど全ての計算ソフトウエアに入っていると考えていいと思います。

20150801_itiyo04

左上から順に、サイコロを100回、1,000回、下段が10,000回、50,000回と地道に振ってみました。嘘です。コンピュータでシミュレーションしました。
回数が増えるごとにばらつきが減っていることが伺えます。
理論値は1/6≒16.66%でそれぞれの目が出ることが予想されます。

20150801_itiyo05

今度は振る回数によって比率が収束していく過程を出力しました。横線はY=1/6です。回数を増やすごとに近づいていくことがわかります。

20150801_itiyo06

一様分布の特殊な点は、関数の中に「変数」が含まれていません。
【Y=2X】とか【Y= X ^2】とか、普通はXの値に合わせてYの値が変動することがほとんどですが、一様分布はXの値でYの値が変わらないところが特徴です。
加えて、範囲の縛りがあることも特徴です。サイコロであれば「1≦X≦6」の範囲外では値が成立しません。当然といえば当然です。サイコロに0や7が出る可能性はありませんので。


■一様分布の乱数の使い方

分析の練習をする際にデモデータを作りたいと考えたことはありませんか?
ないと言われると困るので、あるという前提で話を進めます。

例えば年齢別のこんなデータ

20150801_itiyo07

出現率が一定なので年齢による偏りにリアリティがありません。

でも使い方によっては「偏りがない」という特徴が強みになる場合もあるのです。
ということでその辺りは二項分布で説明したいと思います。