共分散について|Excel(エクセル)で学ぶデータ分析ブログ

■共分散とは?

Wikipedia より(一部編集)
共分散(covariance)とは、2 組の対応するデータ間での、平均からの標準偏差の積の平均値である。

相関係数の記事も参考にしていただければと思いますが、2データ間(変数間)の関連性を読むための数学的な指標では共分散を使用する機会も非常に多いです。
しかしながら、この共分散の値はデータの単位によって数値が変動するため
共分散(A,B)=70の時に共分散(A,C)=700だったとしても、共分散(A,C)の方が関連性が高い、という読み方ができるとは限りません。
多群間の相関を読むためには、やはり相関係数の方が使い勝手が良いのですが、とはいえ使う機会の多い指標なので記憶に留めていただければと思います。


■エクセルでの導きかた

相関係数と同じデータを使います。

20150713_sg_01

関数【COVARIANCE.P($B$2:$B$31,C$2:C$31)】を使います。(2007以前はCOVAR。他にもCOVARIANCE.Sなどがありますが別記事にて)
下記の計算結果も相関係数と同様の手順ですが、差の積の平均が上記の値と同じになっているのが確認できるかと思います。

20150713_sg_02

共分散=差の積の平均
(差の積までの計算過程は相関係数にて紹介)


■共分散の使い方

前述のとおり、共分散の値は単体ではイメージのつきづらい値です。符号だけは正負がそのままですが、その値が大きいのか、小さいのか。やはり使い勝手の良い相関係数を使いたくなります。
(この点は分散の値にも言えることですね)

もし、統計ソフトSPSSのAMOSなどを活用して「共分散構造分析」のモデルを作りたい! という場合には、きっと共分散と向き合う必要が出て来るのかもしれません。