いくつかの数値の集まりをデータと言いますが、データの”真ん中”を表す言葉である「平均値」と「中央値」をご存知ですか?
身近な例で言うと、テストの平均点やクラスの順位などがこれらに関係しています。
ところで「平均値」と「中央値」は一体どう違うのでしょうか。今回は、「平均値」と「中央値」についてそれぞれの特徴と求め方を解説していきます。
結論:「平均値」は数量的な真ん中、「中央値」は順序的な真ん中
「平均値」をもっと詳しく
「平均値」は、集団内のデータをすべて足し合わせ、データの個数で割ると求められます。いったん全データの数量を1つにまとめてから均等に配分するというイメージをしてください。数量的な意味での「真ん中」の値が「平均値」になります。
「平均値」は必ずしも集団内にある数値のどれかになるとは限りません。新たに生み出された値になることもあります。
すべてのデータからの影響がしっかり反映されるというメリットがある一方で、外れ値(集団の中で際立って他の値と違う値)の影響を受けやすいというデメリットもあります。
たとえば、学校のテストでクラスの平均点を出す場合、ほとんどの人が70点代であったとしても、30点代を取った人が1人でもいれば平均点は70点代に及ばない、というわけです。
「平均値」の求め方の例
とあるクラスでは、Aさんが71点、Bさんが75点、Cさんが77点、Dさんが74点、Eさんが76点を取ったとします。この場合の「平均値」は以下のように求められます。
では、仮にEさんが36点だった場合はどうでしょうか。
「中央値」をもっと詳しく
「中央値」は、集団内のすべてのデータを小さい順もしくは大きい順に並べたときに中央にくる値です。
データの個数が奇数の場合は、「中央値」は必ず集団内にあるデータのどれかになります。偶数の場合は、真ん中の2つの数を足して2で割ったものが「中央値」になります。
「中央値」は「平均値」と違って、外れ値の影響をほとんど受けないというメリットがあります。一方で、単に順序的な意味での「真ん中」を求めているだけなので、データの比較にはあまり向かないというデメリットがあります。
「中央値」の求め方の例
先ほどと同じように、とあるクラスでは、Aさんが71点、Bさんが75点、Cさんが77点、Dさんが74点、Eさんが76点を取ったとします。この場合の「中央値」は以下のように求められます。
では、Eさんが36点だった場合も同じように求めてみましょう。
70点台から大きく離れている 36点(外れ値)は、中央値を考える時には影響を与えないことがわかりますね。
その他の代表値
上記に説明した2つ以外にも、ポピュラーな代表値をご紹介します。
- 偏差値:ある数値が、データ全体のなかでどの位置にあるかを表したもの
- 最頻値:集団内のデータに最もたくさん出てくる値
まとめ
以上、この記事では、「平均値」と「中央値」の違いについて解説しました。
- 平均値:全データの総和をデータの個数で割った値。数量的な意味での真ん中。
- 中央値:全データを大きさの順に並べて中央にくる値。順序的な意味での真ん中。
どちらも「真ん中」を意味する言葉ですが、それぞれ表すものが違っていましたね。データを活用する場面に応じて上手に使い分けしていきましょう。