高校数学:相関係数について

こんにちは。今回は相関係数について書いておきます。先ずは公式を見てから, 例題を解いていきましょう。

相関係数rを求める公式

相関係数は2つの変量x, yのデータにおいて, 2つの関係(相関)の正負や強弱を調べるために設けられた値です。
一般に相関係数は次の式で与えられます。
r=\dfrac{S_{xy}}{S_x\cdot S_y}\cdots\maru{1}
S_{xy}は共分散, S_xは変量xの標準偏差, S_yは変量yの標準偏差
変量x, yの平均をそれぞれ\overline{x}, \overline{y}とし,データの総数をn個とすると,
S_{xy}=\dfrac{1}{n}\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y})
S_x=\sqrt{\dfrac{1}{n} \displaystyle \sum_{i=1}^{n} (x_i-\overline{x})^2}
S_y=\sqrt{\dfrac{1}{n} \displaystyle \sum_{i=1}^{n} (y_i-\overline{y})^2}
これらを\maru{1}に代入すると,
\begin{array}{lll}r&=&\dfrac{\dfrac{1}{n}\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y})}{ \sqrt{\dfrac{1}{n} \displaystyle \sum_{i=1}^{n} (x_i-\overline{x})^2} \sqrt{\dfrac{1}{n} \displaystyle \sum_{i=1}^{n} (y_i-\overline{y})^2}}\\&=&\dfrac{\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y})}{ \sqrt{\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})^2} \sqrt{\displaystyle \sum_{i=1}^{n} (y_i-\overline{y})^2}}\cdots\maru{2}\end{array}
となり, \dfrac{1}{n}が省かれた形で相関係数が求められる。\maru{2}の分母のルートをまとめると,
r= \dfrac{\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y})}{ \sqrt{\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})^2\displaystyle \sum_{i=1}^{n} (y_i-\overline{y})^2}}

具体例を見ていきましょう

次の2つの変量x, yからなるA~Eの5つのデータがある。2つの変量x, yにはどのような相関があるか調べよ。
\begin{array}{|c|c|c|c|c|c|}\hline&\text{A}&\text{B}&\text{C}&\text{D}&\text{E}\\ \hline\ x \hspace{1.5mm} & \hspace{1.mm} 7 \hspace{1.mm} & \hspace{1.mm} 6 \hspace{1.mm} & \hspace{1.mm} 4 \hspace{1.mm} &10& \hspace{1.mm} 8 \hspace{1.mm} \\ \hline\ y \hspace{1.5mm} &6&8&4&10&7\\ \hline\end{array}
\overline{x}=(7+6+4+10+8)\div5=7
\overline{y}=(6+8+4+10+7)\div5=7
\begin{array}{|c|c|c|c|c|c|}\hline&\text{A}&\text{B}&\text{C}&\text{D}&\text{E}\\ \hline\ x-\overline{x}&0&-1&-3&\hspace{1.5mm}3\hspace{1.5mm}& \hspace{1.5mm} 1 \hspace{1.5mm} \\ \hline\ y-\overline{y}&-1&1&-3&3&0\\ \hline(x-\overline{x})(y-\overline{y})&0&-1&9&9&0\\ \hline(x-\overline{x})^2&0&1&9&9&1\\ \hline(y-\overline{y})^2&1&1&9&9&0\\ \hline\end{array}
先の公式の確認
r= \dfrac{\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y})}{ \sqrt{\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})^2\displaystyle \sum_{i=1}^{n} (y_i-\overline{y})^2}}
分子の和は表中の(x-\overline{x})(y-\overline{y})の和なので
分子=0-1+9+9+0=17
分母は表中の(x-\overline{x})^2の和と(y-\overline{y})^2の和の積のルートなので,
分母=\sqrt{(0+1+9+9+1)\times(1+1+9+9+0)}=\sqrt{20^2}=20
よって相関係数r
r=\dfrac{17}{20}=0.85
したがって2つの変量x, yには強い正の相関があることがわかる。

相関係数
相関係数r
r=\dfrac{S_{xy}}{S_x\cdot S_y}\cdots\maru{1}
\maru{1}の詳細。
S_{xy}は共分散, S_xは変量xの標準偏差, S_yは変量yの標準偏差
変量x, yの平均をそれぞれ\overline{x}, \overline{y}とし,データの総数をn個とすると,
S_{xy}=\dfrac{1}{n}\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y})
S_x=\sqrt{\dfrac{1}{n} \displaystyle \sum_{i=1}^{n} (x_i-\overline{x})^2}
S_y=\sqrt{\dfrac{1}{n} \displaystyle \sum_{i=1}^{n} (y_i-\overline{y})^2}
または,
r= \dfrac{\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y})}{ \sqrt{\displaystyle \sum_{i=1}^{n} (x_i-\overline{x})^2\displaystyle \sum_{i=1}^{n} (y_i-\overline{y})^2}}

相関係数による強弱の度合い

相関係数の強弱の目安は, 感覚的に差があるかもしれないけど, 0.2ぐらいから下の値なら相関はほとんどなく, 0.2から0.4ぐらいが弱い相関, 0.4から0.7ぐらいまでが中程度の相関がある, 0.7から1ぐらいが強い相関があるという判断かなと思っています。また, 仮に相関係数が1なら, 散布図ではデータは右上がりの一直線上に並びます。 相関係数が-1なら, 散布図ではデータは右下がりの一直線上に並びます。


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)