こんにちは。相城です。箱ひげ図について書いておこうと思います。
ヒストグラムは分布の形が分かりやすいが, 中央値などが分かりにくいのに対して, 箱ひげ図は, 中央値などが視覚的にわかるように工夫されており, 分布の広がりをわかりやすく表しています。
![](https://www.mathtext.info/blog/wordpress/wp-content/uploads/2021/06/hisutohikakuchuo2.png)
したがって, 箱ひげ図は2つ以上のデータを比べるに役立ちます。途中四分位偏差が出てきますが, 高校生の内容ですので, 中学生の方は飛ばしてくださって大丈夫です。
![](https://www.mathtext.info/blog/wordpress/wp-content/uploads/2021/06/hakohigezuuu.png)
データの範囲は(最大値)-(最小値)で求まります。
四分位範囲は
![Rendered by QuickLaTeX.com Q_3](https://mathtext.info/blog/wordpress/wp-content/ql-cache/quicklatex.com-7a39b839d3d0f8837323a497a15f4483_l3.png)
![Rendered by QuickLaTeX.com Q_1](https://mathtext.info/blog/wordpress/wp-content/ql-cache/quicklatex.com-988ccb2741027f0c51f5c494c082b8ec_l3.png)
四分位偏差は
![Rendered by QuickLaTeX.com \dfrac{Q_3-Q_1}{2}](https://mathtext.info/blog/wordpress/wp-content/ql-cache/quicklatex.com-e91c83e4dc489e9c1b41be70c8a98f8a_l3.png)
![Rendered by QuickLaTeX.com \div](https://mathtext.info/blog/wordpress/wp-content/ql-cache/quicklatex.com-fe431faf3242ab5aadfdba1414edab0d_l3.png)
各部を以下のようによぶこともあります。
![](https://www.mathtext.info/blog/wordpress/wp-content/uploads/2021/06/hakohigee1.png)
②まず中央値
![Rendered by QuickLaTeX.com Q_2](https://mathtext.info/blog/wordpress/wp-content/ql-cache/quicklatex.com-40234e7920477fd109f12f8d46ee42d7_l3.png)
③中央値を境にデータを前半と後半に分けて, 第1四分位数
![Rendered by QuickLaTeX.com Q_1](https://mathtext.info/blog/wordpress/wp-content/ql-cache/quicklatex.com-988ccb2741027f0c51f5c494c082b8ec_l3.png)
![Rendered by QuickLaTeX.com Q_3](https://mathtext.info/blog/wordpress/wp-content/ql-cache/quicklatex.com-7a39b839d3d0f8837323a497a15f4483_l3.png)
四分位範囲とは
データの中に外れ値(極端に大きな値や極端に小さい値)があると, 範囲は影響を受けますが, 四分位範囲は影響をほとんど受けないので, そういった外れ値に強いのが四分位範囲の特徴です。四分位範囲もデータの散らばり具合を表すものなので, その値が大きいとデータの散らばり具合が大きいということになります。
具体的に描いてみる
具体的に描いてみます。
次のデータがあるとします。
1, 2, 3, 4, 5, 7, 9, 11, 12, 13, 15, 16, 17
このデータの中央値9
第1四分位数は
第3四分位数は
最小値は1, 最大値は17なので, 箱ひげ図は以下のようになります。
![](https://www.mathtext.info/blog/wordpress/wp-content/uploads/2020/12/hakohige2.png)
このデータからデータの範囲は,
四分位範囲は
,
四分位偏差は
と分かります。
②四分位範囲=
![Rendered by QuickLaTeX.com Q_3-Q_1](https://mathtext.info/blog/wordpress/wp-content/ql-cache/quicklatex.com-71a46439a63ff142076e9bde90048121_l3.png)
③四分位偏差=
![Rendered by QuickLaTeX.com \dfrac{Q_3-Q_1}{2}](https://mathtext.info/blog/wordpress/wp-content/ql-cache/quicklatex.com-e91c83e4dc489e9c1b41be70c8a98f8a_l3.png)
データの大体の割合
また, データの分布の割合を見ると最小値からまでは全体の約
(約25
),
~
も全体の約
(約25
),
~
も全体の約
(約25
),
~最大値も全体の約
(約25
)に構成されています。
![](https://www.mathtext.info/blog/wordpress/wp-content/uploads/2020/12/hakohige5.png)
したがって, 9以上のデータは全体の約50になります。
大まかな分布が比較できる
ヒストグラムでデータを比較しようとすると, Aグループ, Bグループ, という具合に多くの図が必要になります。また, この図では分布の変化が比べにくくなります。
![](https://www.mathtext.info/blog/wordpress/wp-content/uploads/2021/06/hisutohikaku2.png)
箱ひげ図にすると1つの図でデータの大まかな分布の様子が分かります。したがって, データの散らばり具合が比較しやすくなります。以下の例を見ていきましょう。
![](https://www.mathtext.info/blog/wordpress/wp-content/uploads/2020/12/hakohige3.png)
AとBを比較すると最小値から最大値までの長さがほぼ同じです。この場合, AとBのデータの散らばり具合はほぼ同じです。CとDを同じように比較すると, Cの方がデータの散らばり具合が大きいことが分かります。
A, Bでは中央値に大きな差はなく, Aでは中央値以下の約50%の人の散らばりが大きく, Bでは中央値以上の約50%の人の散らばりが大きいことが分かります。
C, Dでは, データの数値を見ると, DのデータはCの中央値より高い数値ににすべて分布していることが分かります。