加重平均について|Excel(エクセル)で学ぶデータ分析ブログ
加重平均とは
加重平均とは例えばこんなデータ(達成度)があったとして
達成度回答結果
項目名 | 回答数 | 比率(%) |
---|---|---|
大変良くできた | 5 | 16.7 |
良くできた | 15 | 50.0 |
あまりできない | 6 | 20.0 |
できない | 4 | 13.3 |
それぞれの値、「大変良くできた」「良くできた」「あまりできない」「できない」について、
何らかの「配点」を与えることで平均値で表現ができないか、という手法です。
加点を加えた表
項目名 | 回答数 | 比率(%) |
---|---|---|
【3】大変良くできた | 5 | 16.7 |
【2】良くできた | 15 | 50.0 |
【1】あまりできない | 6 | 20.0 |
【0】できない | 4 | 13.3 |
例えばこのように配点をした場合、3点の回答者が3名、2点の回答者が14名、1点の回答者が10名、0点の回答者が3名となります。
これをベクトルで整理すると
\[
回答 = [3,3,3,3,3,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,1,1,1,1,1,1,0,0,0,0]
\]
となるので、平均(全部足して30で割る)すると1.7になります。
上のようにデータが限られていればエクセルに全て入れて平均を取る、ということも可能ですが
これは下記のような表で計算もできます。
\[ \begin{array}{c} 3点 & \times & 5名 & = & 15点\\ 2点 & \times & 15名 & = & 30点\\ 1点 & \times & 6名 & = & 6点\\ 0点 & \times & 4名 & = & 0点\\ &&合計& = & 51点\\ \\ 51点& \div &30名& = & 1.7点\\ \end{array} \] また、仮に回答数や回答N数がわからないというケースでも
達成度回答結果(%)
項目名 | 比率(%) |
---|---|
【3】大変良くできた | 16.7 |
【2】良くできた | 50.0 |
【1】あまりできない | 20.0 |
【0】できない | 13.3 |
\[ \begin{array}{c} 3点 & \times & 16.7\% & = & 0.5点\\ 2点 & \times & 50.0\% & = & 1点\\ 1点 & \times & 20.0\% & = & 0.2点\\ 0点 & \times & 13.3\% & = & 0点\\ &&合計& = & 1.7点\\ \end{array} \]
と比率から直接計算も可能です。
エクセルでする場合
SUMPRODUCT関数がよく使われます。
合計点を出して割る方法と
比率から直接処理する場合、どちらも対応しています。
加重平均をすると何がわかる?
一つは「比べる」ことが容易になります。
例えば先ほどのデータ(グループA)と、グループBがあったとします。
グループA、Bの比較
項目名 | 回答数 | 比率(%) | 項目名 | 回答数 | 比率(%) |
---|---|---|---|---|---|
【3】大変良くできた | 5 | 16.7 | 【3】大変良くできた | 4 | 13.3 |
【2】良くできた | 15 | 50.0 | 【2】良くできた | 11 | 36.7 |
【1】あまりできない | 6 | 20.0 | 【1】あまりできない | 8 | 26.7 |
【0】できない | 4 | 13.3 | 【0】できない | 7 | 23.3 |
一見した比較では「どちらが達成したか」判断がつきにくいですが
それぞれ加重平均した結果を比較すると
グループA:1.7
グループB:1.4
と、グループAの方がグループBより達成度が高いことが確認できます。
加点するときに注意してほしいこと
加重平均は「重み付けする得点」によって結果の平均は変わってしまいます。
例えば達成度の加点を逆にしてしまった場合
加重値を逆転化した場合
項目名 | 回答数 | 比率(%) |
---|---|---|
【0】大変良くできた | 5 | 16.7 |
【1】良くできた | 15 | 50.0 |
【2】あまりできない | 6 | 20.0 |
【3】できない | 4 | 13.3 |
先ほどとはまったく違う値になってしまいます。
平均値化する目的は「情報を圧縮し、例えば他のグループと比較する」などが考えられますが
このように逆転化した値で比べて数値が高いグループは「達成が進んでいる」というよりは「達成が進んでいない」と読み取れてしまうため注意が必要です。
先ほどの2グループについて、配点を逆転化した状態で加重平均を計算しました。
グループA:1.3
グループB:1.6
今度はグループBの方が高い数値となり、不達成度としては勝っていることが確認できます。
公開情報で処理をしてみる
今回は「青少年のインターネット利用環境実態調査」の令和5年度版から
スマートフォンの利用時間(第19表)を使ってみようと思います。
元データはこちらから取得できます。
項目は下記表の通りのため、恣意的ではありますが、右のように分数を対応させます。
項目名 | 分数 |
---|---|
1時間未満 | 45分 |
1時間以上2時間未満 | 90分 |
2時間以上3時間未満 | 150分 |
3時間以上4時間未満 | 210分 |
4時間以上5時間未満 | 270分 |
5時間以上 | 330分 |
わからない | 0 |
無回答 | 0 |
これで先ほどの表に加重平均を加えると下のような結果になりました。
実は元の統計結果には元々「平均(分)」、という項目があって、これは質問がもともと数値で聞いていたからだと思います。
なので本来、わざわざ計算する必要はないのですが、今回は加重平均の精度のため、元の分数と加重平均した分数を比較します。
相関係数は0.9937とほぼ同じと言っていい(?)結果が得られました。
正確な値にならない理由は各項目の分数をやや適当に設定したからかもしれません。
※相関係数についてはこちらの過去記事も参考ください。
しかし高校生は平均で4時間も毎日使用しているんですね。個人的には多いなと思ってしまいました。
加重平均と算術平均の違い
算術平均については過去記事も参考ください。
加重平均は算術平均に重みを付けた処理と理解してもらえばいいと思います。
紹介した達成度のように回答の項目によって与えられる加点が異なる情報があって
それらを平均値化したらある特定の指標として読むことができる、といったイメージです。
心理的なアプローチの分析などでは多用される手法なので是非活用ください。