カテゴリカル分布と多項分布 期待値・分散・共分散の求め方

カテゴリーなし

はじめに

ベルヌーイ分布を一般的な多次元に拡張した確率分布はカテゴリカル分布と呼ばれ、二項分布を多次元に拡張した分布は多項分布と呼ばれています。

今回は、そんなカテゴリカル分布と多項分布の期待値・分散・共分散の求め方について記載します。

ベルヌーイ分布、二項分布については ▼こちらの記事で紹介しています。

\begin{align*}
\newcommand{\mat}[1]{\begin{pmatrix} #1 \end{pmatrix}}
\newcommand{\f}[2]{\frac{#1}{#2}}
\newcommand{\pd}[2]{\frac{\partial #1}{\partial #2}}
\newcommand{\d}[2]{\frac{{\rm d}#1}{{\rm d}#2}}
\newcommand{\e}{{\rm e}}
\newcommand{\T}{\mathsf{T}}
\newcommand{\(}{\left(}
\newcommand{\)}{\right)}
\newcommand{\{}{\left\{}
\newcommand{\}}{\right\}}
\newcommand{\[}{\left[}
\newcommand{\]}{\right]}
\newcommand{\dis}{\displaystyle}
\newcommand{\eq}[1]{{\rm Eq}(\ref{#1})}
\newcommand{\n}{\notag\\}
\newcommand{\t}{\ \ \ \ }
\newcommand{\tt}{\t\t\t\t}
\newcommand{\argmax}{\mathop{\rm arg\, max}\limits}
\newcommand{\argmin}{\mathop{\rm arg\, min}\limits}
\def\l<#1>{\left\langle #1 \right\rangle}
\def\us#1_#2{\underset{#2}{#1}}
\def\os#1^#2{\overset{#2}{#1}}
\newcommand{\case}[1]{\{ \begin{array}{ll} #1 \end{array} \right.}
\newcommand{\s}[1]{{\scriptstyle #1}}
\definecolor{myblack}{rgb}{0.27,0.27,0.27}
\definecolor{myred}{rgb}{0.78,0.24,0.18}
\definecolor{myblue}{rgb}{0.0,0.443,0.737}
\definecolor{myyellow}{rgb}{1.0,0.82,0.165}
\definecolor{mygreen}{rgb}{0.24,0.47,0.44}
\newcommand{\c}[2]{\textcolor{#1}{#2}}
\newcommand{\ub}[2]{\underbrace{#1}_{#2}}
\newcommand{\Cov}{{\rm Cov}}
\end{align*}

カテゴリカル分布

カテゴリカル分布

$1$ 回に試行で $K$ 通りの事象 $X_1, X_2, \dots, X_K$ がそれぞれ確率 $p_1, p_2, \dots, p_K$ で得られるとき、$\bm{X} = (X_1, X_2, \dots, X_K)^\T$ が従う確率分布をカテゴリカル分布 $\mathcal{Categorical}(\bm{p})$ と呼び、次式で表される。

\begin{align*}
P(\bm{X} = \bm{x}; p_1, \dots, p_K) = \prod_{k=1}^K p_k^{x_k}.
\end{align*}

ここで、$\bm{x}$ は $K$ 次元ベクトルであり、各成分は $x_k \in \{0, 1\}$ かつ、$\sum_{k=1}^K x_k = 1$ を満たす。

そして、カテゴリカル分布の期待値、分散、共分散は次式となる。

\begin{align*}
E[X_k] &= p_k, \n
V[X_k] &= p_k (1 – p_k), \n
\Cov[X_k, X_{k^{\prime}}] &=\, – p_k p_{k^{\prime}}, \ \ (k \neq k^{\prime}).
\end{align*}

カテゴリカル分布の具体例としては、$K = 6$ とおき、すべての $k$ に対して $p_k = 1/6$ とすれば、一様な $6$ 面のサイコロの出目が従う分布を表現することができます。

上記のベクトル $\bm{x}$ は one-hotベクトルと呼ばれています。今 $\bm{x}$ の $k$ 番目の要素が $1$ である場合、すなわち、$\bm{x} = (x_1, x_2, \dots, x_k, \dots, x_K)^\T = (0, 0, \dots, 1, \dots, 0)^\T$ である場合、確率分布を $P(x_k)$ と表記して、次のように書くことができます。

\begin{align*}
P(x_k) &= \prod_{\ell=1}^K p_{\ell}^{x_{\ell}} \n
&= p_1^{x_1} \times p_2^{x_2} \times \cdots \times p_k^{x_k} \times \cdots \times p_K^{x_K} \n
&= p_1^{0} \times p_2^{0} \times \cdots \times p_k^{1} \times \cdots \times p_K^{0} \n
&= p_k.
\end{align*}

期待値の証明

\begin{align*}
E[X_k] &= \sum_{\ell = 1}^K x_{\ell} P(x_{\ell}) \n
&= \ub{0 \times P(x_{1})}{1{\rm st}} + \ub{0 \times P(x_{2})}{2{\rm nd}} + \cdots + \ub{1\times P(x_{k})}{k{\rm th}} + \cdots + \ub{0 \times P(x_{K})}{K{\rm th}} \n
&= P(x_{k}) \n
&= p_k.
\end{align*}

分散の証明

$V[X_k] = E[X_k^2] – E[X_k]^2$ より、$E[X_k^2]$ を計算すると、

\begin{align*}
E[X_k^2] &= \sum_{\ell = 1}^K x_{\ell}^2 P(x_{\ell}) \n
&= \ub{0^2 \times P(x_{1})}{1{\rm st}} + \ub{0^2 \times P(x_{2})}{2{\rm nd}} + \cdots + \ub{1^2\times P(x_{k})}{k{\rm th}} + \cdots + \ub{0^2 \times P(x_{K})}{K{\rm th}} \n
&= P(x_{k}) \n
&= p_k.
\end{align*}

したがって、

\begin{align*}
V[X_k] &= E[X_k^2] – E[X_k]^2 \n
&= p_k – p_k^2 \n
&= p_k (1 – p_k).
\end{align*}

共分散の証明

$\Cov[X_k, X_{k^{\prime}}] = E[X_k X_{k^{\prime}}] – E[X_k]E[X_{k^{\prime}}]$ より、$E[X_k X_{k^{\prime}}]$ を計算すると、

\begin{align*}
E[X_k X_{k^{\prime}}] &= \ub{0 \cdot 0 \times P(x_{1})}{1{\rm st}} + \cdots + \ub{1 \cdot 0 \times P(x_{k})}{k{\rm th}} + \cdots + \ub{0 \cdot 1 \times P(x_{k^{\prime}})}{k^{\prime}{\rm th}} + \cdots + \ub{0\cdot 0 \times P(x_{K})}{K{\rm th}} \n
&= 0.
\end{align*}

したがって、

\begin{align*}
\Cov[X_k, X_{k^{\prime}}] &= E[X_k X_{k^{\prime}}] \,- E[X_k]E[X_{k^{\prime}}] \n
&= \,- p_k p_{k^{\prime}}.
\end{align*}

多項分布

多項分布

カテゴリカル分布における試行を $N$ 回繰り返した時、それぞれの事象の出現回数 $\bm{X} = (X_1, X_2, \dots, X_K)^\T$ が従う分布を多項分布 $\mathcal{Multinomial}(N, \bm{p})$ と呼び、確率分布は次式で表される。

\begin{align*}
P(\bm{X} = \bm{x}; N, p_1, \dots, p_K) = \prod_{k=1}^K \f{N!}{n_k !} p_{k}^{x_k}.
\end{align*}

ここで、$\bm{x}$ は $K$ 次元ベクトルであり、各成分は $x_k \in \{ 0, 1, \dots, N \}$ かつ、$\sum_{k=1}^K x_k = N$ を満たす。すなわち、$x_k$ は $k$ 番目の事象が出た回数を表す。

そして、多項分布の期待値、分散、共分散は次式となる。

\begin{align*}
E[X_k] &= Np_k, \n
V[X_k] &= Np_k (1 – p_k), \n
\Cov[X_k, X_{k^{\prime}}] &=\, – Np_k p_{k^{\prime}}, \ \ (k \neq k^{\prime}).
\end{align*}

$N = 1$ である時の多項分布は、カテゴリカル分布と等しいです。多項分布の性質から、独立にカテゴリカル分布に従う$N$ 個の確率ベクトルをそれぞれ $\bm{Z}^{(i)} \us{\sim}_{\rm i.i.d.} \mathcal{Categorical}(\bm{p})$ とすると、

\begin{align*}
\bm{X} = \sum_{i=1}^N \bm{Z}^{(i)}
\end{align*}

が成り立ちます。

期待値の証明

カテゴリカル分布の期待値は $E[Z_k^{(i)}] = p_k$ であるから、

\begin{align*}
E[X_k] &= E\[\sum_{i=1}^N Z_k^{(i)}\] \n
&= \sum_{i=1}^N E[Z_k^{(i)}] \n
&= N p_k.
\end{align*}

分散の証明

カテゴリカル分布の分散は $V[Z_k^{(i)}] = p_k(1 – p_k)$ であるから、

\begin{align*}
V[X_k] &= V\[ \sum_{i=1}^N Z_k^{(i)} \] \n
&= \sum_{i=1}^N V[Z_k^{(i)}] \n
&= Np_k(1 – p_k).
\end{align*}

共分散の証明

\begin{align*}
\Cov[X_k, X_{k^{\prime}}] &= \Cov\[\sum_{i=1}^N Z_k^{(i)}, \sum_{j=1}^N Z_{k^{\prime}}^{(j)}\] \n
&= \sum_{i=1}^N \sum_{j=1}^N \Cov\[ Z_k^{(i)}, Z_{k^{\prime}}^{(j)}\]
\end{align*}

今、$Z_k^{(i)}, Z_{k^{\prime}}^{(j)} \ \ (i \neq j)$ は互いに独立な確率変数であるため、$\Cov\[ Z_k^{(i)}, Z_{k^{\prime}}^{(j)}\] = 0 \ \ (i \neq j)$ となる。したがって、上式は $i = j$ の項のみ残り、

\begin{align*}
\Cov[X_k, X_{k^{\prime}}] = \sum_{i=1}^N \Cov\[ Z_k^{(i)}, Z_{k^{\prime}}^{(i)}\]
\end{align*}

となる。カテゴリカル分布の共分散は $\Cov[Z_k, Z_{k^{\prime}}] =\, – p_k p_{k^{\prime}}$ であるため、

\begin{align*}
\Cov[X_k, X_{k^{\prime}}] &=\, – N p_k p_{k^{\prime}}.
\end{align*}

タイトルとURLをコピーしました