複数選択式設問に行うカイ二乗検定及び残差分析について(青少年のインターネット利用環境実態調査)
随分とタイトルが長くなってしまいましたが、
前回記事に引き続き、もう少し発展的なクロス集計とカイ二乗検定及び残差分析について紹介をします。
また、こちらの記事では多重比較についても触れていきます。
インターネット上の経験について
今回も青少年のインターネット利用環境実態調査の設問を扱います。
対象とする設問は「Q5 インターネット上の経験」です。
また、学校種別×性別を扱うため、クロス集計表は実質「三元クロス表」となります。
使用する元データはこちらです。

項目が多くやや見づらいことはご容赦ください。
また、「Q5 インターネット上の経験」はインターネットを利用している方を対象とするため
「Q1-1 インターネットの利用状況」が「はい」の方を対象としています。
そのため、下部の「あてはまるものがある(計)」「あてはまるものはない」
「わからない」「無回答」を合計した人数が「Q1-1 インターネットの利用状況」が
「はい」の回答者数と一致します。
分析に際しては下記表のように加工しました。

分析しやすいように
・学校種別について、その他と無回答は計算に加えない
・選択肢の内、「その他に困ったことがある」「あてはまるものがある(計)」「わからない」「無回答」は使用しない
としております。
また、上部に回答N数を入れておりますが、これは「Q1-1 インターネットの利用状況」が「はい」の回答比率から復元したものなので、必ずしも正確ではありません。
合計が元表と合わないのはそれが理由です。
複数選択式設問に行うカイ二乗検定及び残差分析について
各選択肢を比率でまとめたものが下表です。

こちらの表に対してカイ二乗検定と残差分析を掛けていきますが、
複数選択式の設問についても前記事と同じ手順で行って良いのでしょうか。
複数選択式の設問のポイントは、縦列の合計が「必ずしも回答N数と一致しない」点にあります。
複数選択式設問の注意点
過去記事でも触れておりますが、複数選択式の設問は縦列の合計が基本的には一致しません。
これは選択肢を「任意に、好きなだけ」選ぶことができるため、
1回答者が無回答を考慮しなければ1以上の回答ができ、回答N数を超える可能性が高くなるからです。
例えば上の表では小学校男子回答N数:482名に対して、回答数の合計:520件となります。
比率については107.9%になり、100%を超えてしまいます。
つまり回答者数=回答数である単一選択式設問に対して、
回答者数≠回答数である複数選択式設問のクロス集計表については
果たしてそのままカイ二乗検定を掛けて問題がないか、という疑問が生じます。
考えられる方法
方法としては
・複数選択であることを考慮せずカイ二乗検定を行う
・1つの選択肢ごとに「別のクロス集計表」を作成しカイ二乗検定を行う
この2つが考えられます。
複数選択であることを考慮せずカイ二乗検定を行う
全ての選択肢をまとめて1つの表として扱い、カイ二乗検定を掛けることは
計算ロジック上は問題ありません。
しかしながら、それは複数選択式であることと単一選択式であることの区別がなくなり
合計回答数が、実質合計回答者数として計算される、ということになります。
したがって、各選択肢の残差分析は他の選択肢の影響を受けることになることが想像できます。
前置きが長くなるので、まずは表を紹介します。
カイ二乗値(統計量)は「1,117.4」で自由度は「65」p値は限りなく「0」になりました。
残差分析の結果は、見やすさを考慮して
・有意差がある(0.05<P)且つ
・全体の合計比率より『高い』項目
については着色しています。

とくに中学生、高校生で残差が有意となっている箇所が確認できます。
また「あてはまるものはない」では小学生が有意となりました。
カイ二乗検定は「観測値 – 期待値」に着目する分析法ですが
期待値は「縦計、横計、全合計」を元に割り出します。
今回の集計表のように「あてはまるものはない」だけ回答数が多い場合
「あてはまるものはない」の期待値は他選択肢の相対的に少ない回答数の影響を受け
低い値になることが想定されます。
結果、それが有意差として算出される可能性があります。
1つの選択肢ごとに「別のクロス集計表」を作成する
もう1つの方法は、個々の選択肢でクロス集計表を作成し、
それぞれにカイ二乗検定を掛けるという方法です。
つまり下記のような表を、今回であれば14選択肢毎に作成しカイ二乗検定を行います。

そして「該当する=選択した」なので、そちらの結果のみを元の表に反映したものが下表です。

全体を1つの表として行った場合と大きな変化はありませんが若干結果が変わっています。
結論としてはどちらも「可」
複数選択であることを考慮せず全体の表にカイ二乗検定を行う場合は、
別の選択肢の回答数の影響を受ける可能性がありますが、
裏を返せば「他の選択肢の影響を考慮して考察ができる」ということですので
使い方によってはこちらが正しいと言えます。
また計算が1回で済むため楽と言えば楽です。
1つの選択肢ごとに「別のクロス集計表」を作成しカイ二乗検定を行う場合は
それぞれの選択肢の「影響を受けないかたちで結果を示す」ことができるため
個々の選択肢に着目することが可能です。
但し、今回であれば14回カイ二乗検定を行うことになり、手間は多くなります。
個人的にどちらを用いるかというと、個々にカイ二乗検定をした方が良いかな、と感じています。
それぞれにカイ二乗検定そのもののp値も示せるので、説明がしやすいと考えています。
ただ、多重比較についての考慮が必要なシーンがあります。
多重比較について
カイ二乗検定における残差分析の検定は、1セルそれぞれに検定を行い、結果を示すことになります。
今回の表で、1選択肢ごとに「該当、非該当」でクロス集計をした場合は2行×6列=12回の検定を行います。
通常、0.05未満を「有意」とすることが多いですが、
これは「乱数(デタラメ)でも20回やれば1回は出る結果」ということですので、
12回の検定についても「結構な割合」で有意差を得ることができてしまいます。
これは有意である⇒正しいという視点のなかで、
20回に1回はデタラメなものでも「正しい」と主張できてしまう
=第1種の過誤として注意が必要と考えられています。
多重比較とは、この検定回数が増加することで、
第1種の過誤(偽陽性)を増やすリスクについて考慮しましょう、という考え方です。
多重比較を具体的に解決する方法
こちらはまた別記事で掘り下げる予定のため、一旦は簡易的な説明でご容赦。
今回はボンフェローニの補正を行います。
処理の方法は非常に簡単で
・得られたp値にペナルティを掛ける
・具体的には行×列の分だけ倍数する(今回は×12)
たったこれだけです。
例えば検定結果が0.04で有意だったとしても、
×12のペナルティを掛けるので0.48で有意差は認めない、という方法です。
また別の考え方として有意差0.05を12で割って
範囲を厳しくする(p < 0.0042)、という方法もありますが
結果は同じなのと、説明がややこしくなるだけなので
一般的には掛ける方が多いと思います。
尚、例えばもとの結果が0.1だった場合は、×12で1.2と100%を超える場合が往々にしてありますが
その場合は1として扱うのが通例です。
先ほどの表にボンフェローニの補正を掛けたものが下表です。
グレーの箇所は補正前は有意だったけれど、補正を掛けた結果有意と認められなかった箇所です。
大きく変わったかどうかについては、なかなか考察が難しいところです。

考察としては
高校生男子で
「悪口やいやがらせのメッセージやメールを送ったり、書き込みをしたことがある」や
「親に話しにくいサイト(アダルトサイト、犯罪行為やその方法を掲載しているサイト等)を見たことがある」や
「インターネットにのめりこんで勉強に集中できなかったり、睡眠不足になったりしたことがある」が
有意に多く、
中学生男子も含め
「ゲームやアプリで、お金を使いすぎたことがある」が
有意に多いです。
高校生女子で
「他人が見ることのできるSNS等で、自分の情報(名前や写真、メールアドレス、IDなど)を書き込んだことがある」や
「インターネットで知り合った人とメッセージやメールなどのやりとりをしたことがある」や
「インターネットで知り合った人との人間関係で悩んだことがある」が
有意に多く、中学生女子でもいくつかの傾向が高校生女子と似ています。
一方、小学生男女は「あてはまるものがない」が有意に多い傾向となりました。
全体的にぼんやりと描いていたイメージと合致する心象です。
多重比較の補正は絶対に掛けるべきか
この点についてはいくつかの視点が考えられます。
・傾向を見て、大まかに説明したい
→この場合は考慮する必要はないと考えます。
・真理をついた、確信的なことを述べたい
→この場合は掛けた方が反論が生じにくいでしょう。
つまり、アカデミックに論文出す、などのシーンであれば、補正は掛けた方が良いと思います。
ただ、私がざっとカイ二乗検定+残差分析を行った論文を見た限り、
掛けていないものも論文として世に出ておりますので
これは査読者がどこまで指摘するか、によるのかな、と感じました。
とくにボンフェローニの補正は「やや厳しい補正」と言われており、
本来は傾向があるのに有意差が認められないため述べることができない
=第2種の過誤を生むケースも考えられます。
したがって、先行的な研究に則って、適宜判断するのが良いのではないでしょうか。
次回は多重比較について、掘り下げた記事を紹介します。