【統計検定対策】フィッシャー情報量、クラメール・ラオの不等式と有効推定量

確率・統計学

はじめに

 前回は最尤推定と不偏推定量について勉強しました。

今回は不偏推定量の分散の下限を与える「クラメール・ラオの不等式」と、その等式と達成する「有効推定量」について勉強します。

\begin{align*}
\newcommand{\mat}[1]{\begin{pmatrix} #1 \end{pmatrix}}
\newcommand{\f}[2]{\frac{#1}{#2}}
\newcommand{\pd}[2]{\frac{\partial #1}{\partial #2}}
\newcommand{\d}[2]{\frac{{\rm d}#1}{{\rm d}#2}}
\newcommand{\e}{{\rm e}}
\newcommand{\T}{\mathsf{T}}
\newcommand{\(}{\left(}
\newcommand{\)}{\right)}
\newcommand{\{}{\left\{}
\newcommand{\}}{\right\}}
\newcommand{\[}{\left[}
\newcommand{\]}{\right]}
\newcommand{\dis}{\displaystyle}
\newcommand{\eq}[1]{{\rm Eq}(\ref{#1})}
\newcommand{\n}{\notag\\}
\newcommand{\t}{\ \ \ \ }
\newcommand{\tt}{\t\t\t\t}
\newcommand{\argmax}{\mathop{\rm arg\, max}\limits}
\newcommand{\argmin}{\mathop{\rm arg\, min}\limits}
\def\l<#1>{\left\langle #1 \right\rangle}
\def\us#1_#2{\underset{#2}{#1}}
\def\os#1^#2{\overset{#2}{#1}}
\newcommand{\case}[1]{\{ \begin{array}{ll} #1 \end{array} \right.}
\newcommand{\s}[1]{{\scriptstyle #1}}
\definecolor{myblack}{rgb}{0.27,0.27,0.27}
\definecolor{myred}{rgb}{0.78,0.24,0.18}
\definecolor{myblue}{rgb}{0.0,0.443,0.737}
\definecolor{myyellow}{rgb}{1.0,0.82,0.165}
\definecolor{mygreen}{rgb}{0.24,0.47,0.44}
\newcommand{\c}[2]{\textcolor{#1}{#2}}
\newcommand{\ub}[2]{\underbrace{#1}_{#2}}
\end{align*}

スコア関数とフィッシャー情報量

 前回勉強した通り不偏推定量とは、その期待値が真のパラメータと等しくなる推定量のことをいいます。このような性質を満たす推定量は1種類だけではなく、何種類か存在する場合があります。

例えば、指数分布 $f(x;\lambda) = \lambda \e^{-\lambda x}$ に従う母集団の母平均の不偏推定量は次の $\theta_1, \theta_2$ の2種類が考えられます。

\begin{align*}
&\hat{\theta}_1 = \f{1}{n} \sum_{i=1}^n X_i, \n
&\hat{\theta}_2 = n \cdot \min_{1 \leq i \leq n} X_i.
\end{align*}

\begin{align*}
E[\hat{\theta}_1] &= \f{1}{n} E\[ \sum_{i=1}^n X_i \] \n
&= \f{1}{n} \sum_{i=1}^n \f{1}{\lambda} \n
&= \f{1}{\lambda}
\end{align*}

指数分布 $f(x;\lambda) = \lambda \e^{-\lambda x}$ の期待値は $\f{1}{\lambda}$ であるため、$\hat{\theta}_1$ は不偏推定量である。

$\hat{\theta}_2$ の積率分布: $P(\hat{\theta}_2 \leq x)$ を考える。確率 $P(\hat{\theta}_2 \leq x)$ は、

\begin{align*}
\hat{\theta}_2 = n \cdot \min_{1 \leq i \leq n} X_i \leq x
\end{align*}

に対して、事象:「全てのデータに対して、$X_i > \f{x}{n}$」の余事象を考えて

\begin{align*}
P(\hat{\theta}_2 \leq x) &= 1 – P\(X > \f{x}{n}\)^n \n
&= 1 – \e^{- n \lambda x / n} \n
&= 1 – \e^{- \lambda x}
\end{align*}

とかける。したがって、$\hat{\theta}_2$ の確率分布は

\begin{align*}
\d{P(\hat{\theta}_2 \leq x)}{x} &= \d{}{x} \( 1 – \e^{- \lambda x} \) \n
&= \lambda \e^{-\lambda x}
\end{align*}

となり、指数分布と一致する。

よって、$\hat{\theta}_2$ の期待値は

\begin{align*}
E[\hat{\theta}_2] = \f{1}{\lambda}
\end{align*}

であるため、 $\hat{\theta}_2$ は不偏推定量である。

つまり、$E[\hat{\theta}_1] = E[\hat{\theta}_2] = \f{1}{\lambda}$ です。ただし、それぞれの分散は異なっており下記の通りです。

\begin{align*}
V[\hat{\theta}_1] &= \f{1}{n\lambda^2} \n
V[\hat{\theta}_2] &= \f{1}{\lambda^2}
\end{align*}

様々な不偏推定量の中では、その分散が最小となる推定量を採用したいものです。ここで紹介する「クラメール・ラオの不等式」はそんな不偏推定量の分散の下限を与えるものです。

クラメール・ラオの不等式の説明するために、まずはスコア関数フィッシャー情報量を導入します。

以下、確率変数 $X$ の確率密度関数を $f(x; \theta)$ とし、$n$ 個の観測データが独立にこの分布に従うとします。また、

\begin{align*}
f_n(\bm{x}; \theta) \equiv f(x^{(1)}; \theta) \cdot f(x^{(2)}; \theta) \cdots f(x^{(n)}; \theta)
\end{align*}

と表記します。また、微分と積分の順序を入れ替えられるものとします。

スコア関数

スコア関数 $U(\theta; \bm{x})$ は、対数尤度関数 $\ell(\theta; \bm{x}) \equiv \log{f_n(\bm{x}; \theta)}$ の1次微分として定義される。

\begin{align*}
U(\theta; \bm{x}) \equiv \pd{\ell(\theta; \bm{x})}{\theta}.
\end{align*}

また、スコア関数の期待値は $0$ となる。

\begin{align}
\label{scorefunc}
E[U(\theta; \bm{x})] = 0.
\end{align}

上記の $\eq{scorefunc}$ は次のように証明できます。

スコア関数の期待値

スコア関数は、

\begin{align}
U(\theta; \bm{x}) &= \pd{\ell(\theta; \bm{x})}{\theta} \n
&= \pd{}{\theta} \log{f_n(\bm{x}; \theta)} \n
&= \pd{}{f_n(\bm{x}; \theta)} \log{f_n(\bm{x}; \theta)} \cdot \pd{f_n(\bm{x}; \theta)}{\theta} \n
&= \f{1}{f_n(\bm{x}; \theta)} \pd{f_n(\bm{x}; \theta)}{\theta}
\label{scoredel}
\end{align}

と変形できることを使うと、次式が成立する。

\begin{align*}
E[U(\theta; \bm{x})] &= \int U(\theta; \bm{x}) f_n(\bm{x}; \theta) {\rm d}\bm{x} \n
&= \int \f{1}{f_n(\bm{x}; \theta)} \pd{f_n(\bm{x}; \theta)}{\theta} f_n(\bm{x}; \theta) {\rm d}\bm{x} \n
&= \int \pd{f_n(\bm{x}; \theta)}{\theta} {\rm d}\bm{x} \n
&= \pd{}{\theta} \ub{ \int f_n(\bm{x}; \theta) {\rm d}\bm{x} }{=1} \n
&= 0.
\end{align*}

このスコア関数を用いて、フィッシャー情報量は以下と定義されます。

フィッシャー情報量

フィッシャー情報量 $I_n(\theta)$ は次式で定義される。

\begin{align*}
I_n(\theta) \equiv E\[ U(\theta; \bm{x})^2 \]
\end{align*}

また、フィッシャー情報量はスコア関数の分散に等しい。

\begin{align}
\label{fisher}
I_n(\theta) = V[U(\theta; \bm{x})]
\end{align}

上記の $\eq{fisher}$ は次のように証明できます。

フィッシャー情報量とスコア関数の関係

$\eq{scorefunc}$ のスコア関数の期待値は $0$ であることを用いると次式が成立する。

\begin{align*}
V[U(\theta; \bm{x})] &= E\[ U(\theta; \bm{x})^2 \] – \ub{ E\[ U(\theta; \bm{x})\]^2 }{=0} \n
&= E\[ U(\theta; \bm{x})^2 \] \n
&= I_n(\theta).
\end{align*}

クラメール・ラオの不等式

 不偏推定量の分散とフィッシャー情報量について、次の定理が成り立ちます。

クラメール・ラオの不等式

$\hat{\theta}$ をパラメータ $\theta$ の不偏推定量とするとき、次式が成り立つ。

\begin{align*}
V[\hat{\theta}] \geq \f{1}{I_n(\theta)}
\end{align*}

上記は、次のように証明できます。

クラメール・ラオの不等式の証明

$\hat{\theta}$ は不偏推定量であるから、次式が成立する。

\begin{align*}
\theta = E[\hat{\theta}] = \int \hat{\theta}(x) f_n(\bm{x}; \theta) {\rm d} \bm{x}.
\end{align*}

上式の両辺を $\theta$ で微分すると

\begin{align*}
1 &= \pd{}{\theta} \int \hat{\theta}(x) f_n(\bm{x}; \theta) {\rm d} \bm{x} \n
&= \int \hat{\theta}(x) \ub{ \pd{f_n(\bm{x}; \theta)}{\theta} }{{\us =_{\eq{scoredel}}} U(\theta; \bm{x}) f_n(\bm{x}; \theta)} {\rm d} \bm{x} \n
&= \int \hat{\theta}(x) U(\theta; \bm{x}) f_n(\bm{x}; \theta) {\rm d} \bm{x}.
\end{align*}

最後の変形では $\eq{scoredel}$ を用いた。上式を期待値で書き下すと

\begin{align*}
E\[ \hat{\theta}(x) U(\theta; \bm{x}) \] = 1
\end{align*}

となる。ここで、$\eq{scorefunc}: E[U(\theta; \bm{x})] = 0$ の両辺に $\theta$ を掛けて上式から引くと、

\begin{align*}
E\[ (\hat{\theta}(x) – \theta) \cdot U(\theta; \bm{x}) \] = 1
\end{align*}

この式にコーシーシュワルツの不等式: $E[X^2]E[Y^2] \geq E[XY]^2$ を適応する。

\begin{align*}
\ub{E\[ (\hat{\theta}(x) – \theta)^2 \]}{=V[\hat{\theta}]}\, \ub{E\Bigl[ U(\theta; \bm{x})^2 \Bigr]}{\equiv I_n(\theta)} \geq E\[ (\hat{\theta}(x) – \theta) \cdot U(\theta; \bm{x}) \]^2 = 1,
\end{align*}

\begin{align*}
\therefore V[\hat{\theta}] \geq \f{1}{I_n(\theta)}.
\end{align*}

有効推定量

 クラメール・ラオの不等式において、等号が成立する不偏推定量を有効推定量といいます。

それでは、クラメール・ラオの不等式を用いて冒頭で出した指数分布の2つの不偏推定量

\begin{align*}
&\hat{\theta}_1 = \f{1}{n} \sum_{i=1}^n X_i, \n
&\hat{\theta}_2 = n \cdot \min_{1 \leq i \leq n} X_i.
\end{align*}

を評価してみましょう。まず、指数分布のフィッシャー情報量を求めます。

指数分布の式を $\theta = \f{1}{\lambda}$ と書き換え、$f(x; \theta) = \f{1}{\theta} \e^{-\f{x}{\theta}}$ から $n$ 個のデータをランダムサンプリングした状況では、対数尤度関数は

\begin{align*}
\ell (\theta; \bm{x}) &= \sum_{i=1}^n \log{f(\theta; x^{(i)})} \n
&= \sum_{i=1}^n \log{\(\f{1}{\theta} \e^{-\f{x^{(i)}}{\theta}} \)} \n
&= – n\log{\theta}\ – \f{1}{\theta} \sum_{i=1}^n x^{(i)}
\end{align*}

となります。すると、スコア関数は次式で書くことができます。

\begin{align*}
U(\theta; \bm{x}) &= \pd{\ell(\theta; \bm{x})}{\theta} \n
&= \pd{}{\theta} \( – n\log{\theta}\ – \f{1}{\theta} \sum_{i=1}^n x^{(i)} \) \n
&= – \f{n}{\theta}\ + \f{1}{\theta^2} \sum_{i=1}^n x^{(i)}.
\end{align*}

フィッシャー情報量はスコア関数の分散と等しいので、

\begin{align*}
I_n(\theta) &= V[U(\theta; \bm{x})] \n
&= V\[ – \f{n}{\theta}\ + \f{1}{\theta^2} \sum_{i=1}^n x^{(i)} \] \n
&= V\[ \f{1}{\theta^2} \sum_{i=1}^n x^{(i)} \] \n
&= \f{1}{\theta^4} \sum_{i=1}^n \ub{ V\[ x^{(i)} \] }{=\theta^2} \n
&= \f{n}{\theta^2}.
\end{align*}

したがって、クラメール・ラオの下限は $\f{1}{I_n(\theta)} = \f{\theta^2}{n}$ より、
\begin{align*}
V[\hat{\theta}] \geq \f{\theta^2}{n}
\end{align*}

が成立します。以上より、

\begin{align*}
\hat{\theta}_1 = \f{1}{n} \sum_{i=1}^n X_i
\end{align*}

は有効推定量になります。


参考書籍

タイトルとURLをコピーしました