【コラム】有意差が出ないデータをなんとかする?方法

ごく稀に、こんな相談を受けることがあります。
「ある分析で思うような結果が出ないのでなんとかしてほしい」

分析する過程でこういった悩みが出ること自体は珍しくありませんが
中にはこんな相談も。
「5%有意で7%だった。5%以下にならないか」

…やり方がない、わけではないのですが、やるべきではない、という回答をしていますが
その「やり方がない、わけではない」方法のご紹介です。
(悪用厳禁!)

どうにもならないデータはどうすると、どうにかなるか

ややこしい命題ですが、例えば下記のデータをカイ2乗検定してみましょう。

統計量0.23、P値は0.631と有意水準を0.05とした場合、とても納得のいく結果とはいえません。
カイ2乗検定は回答結果の合計値を掛け合わせることで理論値(期待値)を算出し、その期待値との差を積み重ねて統計量を計算します。
統計量は表から得た自由度、今回は(2-1)行×(2-1)列=自由度1のカイ2乗分布に従います。
つまり、ズレが大きくなれば自然と有意な差というものが出てくるのですが、ズレはどのように増やせるのでしょうか。

上の図は先の表の理論値(期待値)です。「男性」且つ「はい」の数値は10-10.7=0.7のズレがあります(正しくは0.69)。
ズレを大きくしたいので、例えば10倍してみると、下記のようにズレが大きくなります。

統計量も増加し、P値が良い感じに下がってきています。

サンプル数をどの程度倍加すると有意差0.05となるか100回ほどシミュレーションしました。
おおよそX16-17あたりで赤い線を下回っていることがわかります。

これで目的は達成しました。

どうにもならないデータはどうにかしてよいのか

今回は有意差の出ないデータをなんとかする方法を紹介しました。
今回の記事の主旨は、「サンプル数をカサ増しすればなんとかなります」という話ではありません!
有意差というものは上記のようなカラクリでなんとかなってしまう、ということをお伝えしたうえで
収集される前の時点でどのように設計をすれば良いか、を考えていくためのアンチテーゼのようなご紹介です。
こちらの記事でもう少し説明を掘り下げています

事実として、昨今の大規模調査では数千件のデータ収集はさほど珍しいことではなくなっており
一見して差がないような事象でも有意であると評価されるケースが増えていると感じています。

重要なのは「有意差」ではなく仮説であり、有意差があるデータから傾向を読む、というロジックは
望ましい分析手順とは言えません。

どういった仮説を立て、どういった結果を想定し論点の骨子を組み立てるかは調査前に十分準備が可能ですので
分析ありきにならない調査を支援してまいります(宣伝)。