t分布について|Excel(エクセル)で学ぶデータ分析ブログ
t分布とは?
Wikipediaより(一部編集)
t分布(またはスチューデントのt分布、Student’s t-distribution)は、連続確率分布の一つであり、正規分布する母集団の平均と分散が未知で標本サイズが小さい場合に平均を推定する問題に利用される。
t分布の仕組み
\(データ_1,データ_2,\cdots データ_n\)が正規分布(平均\(\mu\)、分散\(\sigma^2\))から得られたとき下記の統計量を考える
\[
統計量T = \frac{標本平均(\bar {データ}_n) – \mu}{標本分散(S^2_{n})/\sqrt{n}}\\
標本平均(\bar {データ}_n) = \frac{データ_1,データ_2,\cdots データ_n}{n}\\
標本分散(S^2_{n}) = \frac{1}{n-1} \sum^n_{i = 1} (データ_{i} – \bar {データ}_n)^2\\
これは
f(t) = \frac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\nu \pi} \Gamma(\frac{\nu}{2})} (1 + \frac{t^2}{\nu})^{-\frac{(\nu + 1)}{2}}\\
\nu = 自由度(n-1)と呼ばれる。
\]
t分布の性質はただ一つのパラメータ\(\nu(自由度)\)のみを扱い 元の正規分布の平均や標準偏差に依存しない点が扱いやすさにつながっています。
乱数を用いたサンプリング
標準正規分布(平均0、標準偏差1)に従うデータ2つ取得しt統計量を計算。 それを50,000回繰り返しヒストグラムを作成し、t分布の理論値のカーブを引きました。
t分布はt分布より裾野が広いと言われていますが自由度30程度で正規分布とほぼ一致します。
感覚的に、裾野が広い=データバラついているからだ、と理解すると覚えやすいかもしれません。
また、t検定では下記のような自由度と有意水準の対応表を作成しておくことで 計算結果を細かく精査せずともおおよその概況が把握できます。
t分布表
分析の際には下記のような表が活用されます。
片側確率と両側確率
片側確率と両側確率の使いどころは下記のイメージです。
ある植物は3ヶ月後に10cmとなることが知られている。サンプルの植物の平均は13cmでした。
・10cmと本質的に異なるかを知りたい=両側検定(短くなっている場合も考えられるため)
・10cmより伸びていることを知りたい=片側検定
という感じで知りたい内容によって使いどころが変わります。
一般的には片側確率より両側確率のほうが厳しい評価となるため
両側検定で良い結果が出ないから片側検定にしました、という考えはダメ!! ゼッタイ!!
エクセル関数
=T.DIST.2T(統計量,自由度)
=T.DIST.2T(3.18,3)
自由度3の両側確率は約0.05となります。 また、片側確率の場合は
=T.DIST(統計量,自由度,[累積分布/確率密度])
=T.DIST(-2.35,3,0)
となり、自由度3の片側確率は約0.05となります。