カイ二乗検定及び残差分析について(青少年のインターネット利用環境実態調査)

カイ二乗検定については過去記事でも触れたことがありますが、
今回は実際の計算も交え、残差分析も加えながら、あらためて紹介したいと思います。

処理の流れ

大まかには
・クロス集計表を作成する
・期待値を算出する
・カイ二乗値(統計量)を算出する
・残差を算出する
・調整済み標準化残差を算出する
・調整済み標準化残差の結果を検定する
・元の集計表に検定結果を図示する
といった手順です。
尚、今回は記事の都合から多重比較の考慮については触れません。

またせっかくなので公開されているデータから、青少年のインターネット利用環境実態調査を利用していきます。


青少年のインターネット利用環境実態調査とは

青少年のインターネット利用環境実態調査は、平成21年度から実施されている内閣府と、現在はこども家庭庁が主管の調査です。
年齢別や学校種別、また性別も掛け合わせてインターネットやスマートフォンの利用状況がわかるため、お子さんに携帯電話をプレゼントする際には、タイミングや使用時間、ルール決めなどの参考になるかもしれません(統計見て判断される親御さんもスゴいですが)。

実際の表を紹介します。今回は「家庭のルールの有無」の表を使用します。

以下は留意点。
・公開データは下1ケタで丸め込みされた比率のため、回答件数の復元に際しては正確な再現にならない
・この記事では性別を考慮しない
・学校種別について、その他と無回答は計算に加えない

といったルールで集計表を簡略化したものが下表です。

わかりやすさのため高い数値を「赤系」低い数値を「青系」で色付けしています。
また縦計を軸にした場合、横計を軸にした場合、総計を母数にした場合と3パターンの比率を計算します。

どれを使うかは、主張したい内容によって変わるとは思いますが、
今回は学校種別の違いに着目したいので、縦計について考えたいと思います。
※といっても以降の計算過程が変わるわけではありません。


クロス集計表にカイ二乗検定を行う手順

この記事の主題は調整済み標準化残差を用いた検定結果と元比率表の図示となります。
カイ二乗検定を行う手順は、様々なサイトで紹介をされているため、
前半の過程はざっくりとした説明になります。

期待値は
\[ 期待値 = \frac{横計 \times 縦計}{全合計} \]
で計算ができます。
※セルの位置によって横計と縦計の参照箇所が変わる点に注意。

例えば小学生のうち、「ルールを決めている」回答の期待値は
「(2,105 × 937) / 3,221 = 612.4」で計算が可能です。

またカイ二乗値(統計量)の算出には
\[ \frac{(観測値 – 期待値)^2}{期待値} \]
という計算をします(2つ目の表)。

同様に小学生のうち、「ルールを決めている」回答の計算では
\[ (774 – 612.4)^2 / 612.4 = 42.7 \]
となります。
※小数点が丸め込まれているため、表記通りの計算では「42.64」になります。

そして表の全ての値を合計した結果「418.95」が
このクロス集計表におけるカイ二乗値(統計量)となります。

また、今回の表は3行 × 3列のため、自由度は「(3 – 1) × (3 – 1)=4」で、
エクセルで「=CHISQ.DIST.RT(418.95,4)」とすれば
検定結果は限りなく「0」と、いわゆる有意差が得られました(P < 0.05)。


結果表に残差分析を行う手順

まず先に残差の計算について紹介します。
残差は
\[ \frac{(観測値 – 期待値)}{\sqrt{期待値}} \]
という計算をします。

同様に計算すると
\[ (774 – 612.4) / \sqrt{612.4} = 6.53 \]
となります。
結果は下表です。

もちろん「残差で評価する」という点においては上表でも問題ありません。
高校生で「ルールを決めていない」回答が明らかに多く、
小学生、中学生で「ルールを決めている」回答が多いことが確認できます。
ただそれを「統計学的に有効か」を示すには、標準化された指標に再整理をする必要があります。

調整済み標準化残差は
\[ Z = \frac{観測値 – 期待値}{\sqrt{期待値 (1 – \frac{横計}{全合計})(1 – \frac{縦計}{全合計})}} \]
という計算をします。
※セルの位置によって横計と縦計の参照箇所が変わる点に注意。
同様に計算すると、やや複雑になりますが
\[ Z = \frac{774 – 612.4}{\sqrt{612.4 \times (1 – \frac{2105}{3221}) \times (1 – \frac{937}{3221})}} = 13.17 \]
となります。
結果は下表です。

これが調整済み標準化残差表となります。
これはいわゆる標準正規分布(平均:0、標準偏差:1)に従うとされているため、
|z|>3.29ならばP<0.001(***)
|z|>2.58ならばP<0.01(**)
|z|>1.96ならばP<0.05(*)
といったかたちでP値の計算ができます。

検定は両側を考慮する必要があるため、エクセルであれば
「2*(1-NORM.DIST(ABS(調整済み標準化残差),0,1,TRUE))」
または標準正規分布の関数で
「2*(1-NORM.S.DIST(ABS(調整済み標準化残差),TRUE))」
で結果を得ることができます。

P値の結果だけでは何を示しているかわからないため、
最初に紹介した縦表のクロス集計表に「*~***」を加えることで

上表のような結果を示すことができます。

考察は途中で触れてしまったのですが
小学生、中学生で「ルールを決めている」回答が有意に多く、
高校生で「ルールを決めていない」回答が有意に多く、
また高校生で「わからない」の回答が有意に多かった。

つまり、学年が低いほど家庭のルールはしっかり取り決められる傾向にあり
学年が高くなるほど自由度が高くなる(またはルールってなに? となる)傾向になるようです。

たった1つのクロス集計表でも、統計的な分析手法を取り込むと、
手順が多くなることがわかりました。
その代わり、得られた結果に意味があるのか否か、それを客観的に評価することができたため
考察に訴求力が追加されました。

今後の分析の一助になれば幸いです。
次回は更に深堀りしたカイ二乗検定を紹介します。