さやノート

Kaggler grandmasterを目指して

不偏分散はなぜn-1で割る?

社会人になって僕が統計学を復習してるときに、ひっかかってたところです。

標本分散を計算するとき、

{ \displaystyle
\frac{1}{N} \sum_{i=1}^{N} (X_i - {\overline X})^{2}
}

という感じで、各標本データと、標本平均の差の2乗をとってそれらの和を取り、最後に標本サイズ Nで割っていたんですが、

不偏分散という名前になった瞬間に

{ \displaystyle
\frac{1}{N-1} \sum_{i=1}^{N} (X_i - {\overline X})^{2}
}

と突然N-1で割るようになるのです。これはなぜだろう? この問いの答えを自分なりに説明してみます。

そもそも不偏分散って何?

 不偏分散とは、母分散に対する標本分散の「偏り」を補正した分散です。

標本統計量には「偏り」が存在する

 母集団が、平均 \mu、分散 \sigma^{2}の分布に従うと仮定します。 たとえば、ゾウの平均体重(母平均)や体重の分散(母分散)を知りたいとき、正確に知るには、地球上に生存しているすべてのゾウの体重を測って、 その平均値や分散を計算しなければなりません。それは明らかに現実的ではないので、例えばゾウ30頭とか、現実的な数の標本をとることになります。

 しかし当然、標本から計算した平均(標本平均)や分散(標本分散)は、母集団の平均や分散の値とは若干ずれ(り)が生じます。

標本平均:{\displaystyle {\bar X} = \frac{1}{N} \sum_{i=1}^{N} X_i }

標本分散:{ \displaystyle
S^{2} = \frac{1}{N} \sum_{i=1}^{N} (X_i - {\overline X})^{2}
}

そもそもなぜ「偏り」が生じるかというと、標本平均や標本分散は、それぞれ母平均や母分散と一致するとは限らないからです。
先ほどゾウの体重の例を出しましたが、このとき選んだ30頭のゾウは、もしかしたら地球上のゾウ全体のうちたまたま軽いほうから抽出されたかもしれませんし、重いほうだったかもしれません。もちろん軽いゾウと重いゾウがバランスよく抽出された可能性も考えられます。そして、抽出されたゾウたちは軽いほうなのか重いほうなのか、はたまたバランスよく分布しているのか、標本を採った私たちにはわかりません。
 つまりは、「標本平均や標本分散の値自体が確率分布を持っている」事になります。したがって、標本分散をそのまま母分散の推定量としてしまうと、それは「偏った」推定になってしまうのです。 ちなみに後で説明しますが、標本平均はそのまま母平均の推定量としても偏った推定にはなりません。

偏りは補正する

 で、この「偏り」を補正した推定量が「不偏推定量」ということになります。
母分散の不偏推定量が「不偏分散」、母平均の不偏推定量が「不偏平均」となります。

ではなぜn-1で割るの?

本題に入りますが、不偏推定量の定義は次の通りです。

T\thetaの不偏推定量 \leftrightarrow E(T)=\theta

Tは標本データを使って計算できる何かしらの統計量で、 \thetaは、母集団の推定したい統計量、すなわち母平均や母分散のことです。

この式が意味するところは、標本をとって統計量Tを計算することを何度も行い、その平均(期待値)が \thetaになるとき、その統計量は不偏推定量だ、という判定ができるということです。

標本平均 \bar{X}の期待値は、

 {\displaystyle E(\bar{X}) = E\left( \frac{ X_1 + X_2 + ... + X_N }{ N } \right)}

 {\displaystyle = \frac{1}{N} E( X_1 + X_2 + ... + X_N )}

 {\displaystyle = \frac{1}{N} N\mu}

 {\displaystyle = \mu }

になるので、標本平均はそのまま母平均の不偏推定量にしてもよいのです。

では、標本分散の期待値をとるとどうなるかというと、これが

 {\displaystyle E( S^{2}) = \frac{N-1}{N} \sigma^{2} }

と、母分散より少し小さい値になってしまうんです。(細かい計算式は長くなるので割愛します。)
なので、小さくならないように  S^{2}という統計量を補正してやる必要があるのです。
 {\displaystyle E( S^{2}) = \frac{N-1}{N} \sigma^{2} }より、

 {\displaystyle E\left( \frac{N}{N-1}S^{2}\right) = \sigma^{2} } なので、

 {\displaystyle \frac{N}{N-1}S^{2} =  \frac{N}{N-1} \frac{1}{N} \sum_{i=1}^{N} (X_i - {\overline X})^{2} }

 {\displaystyle = \frac{1}{N-1} \sum_{i=1}^{N} (X_i - {\overline X})^{2 }}

と、めでたく不偏分散が求まるわけです。

まとめ

  1. 不偏推定量は、母集団のあるパラメータの推定量の期待値である。
  2. 標本分散の期待値は、母分散よりやや小さくなるため、不偏分散を計算するときは、2乗の和を n-1で割る。

以上、これからも忘れないように文面化してみました。
万が一誤り等ありましたらご指摘いただければ幸いです。