はじめに
ベルヌーイ分布を一般的な多次元に拡張した確率分布はカテゴリカル分布と呼ばれ、二項分布を多次元に拡張した分布は多項分布と呼ばれています。
今回は、そんなカテゴリカル分布と多項分布の期待値・分散・共分散の求め方について記載します。
ベルヌーイ分布、二項分布については ▼こちらの記事で紹介しています。
\begin{align*}
\newcommand{\mat}[1]{\begin{pmatrix} #1 \end{pmatrix}}
\newcommand{\f}[2]{\frac{#1}{#2}}
\newcommand{\pd}[2]{\frac{\partial #1}{\partial #2}}
\newcommand{\d}[2]{\frac{{\rm d}#1}{{\rm d}#2}}
\newcommand{\e}{{\rm e}}
\newcommand{\T}{\mathsf{T}}
\newcommand{\(}{\left(}
\newcommand{\)}{\right)}
\newcommand{\{}{\left\{}
\newcommand{\}}{\right\}}
\newcommand{\[}{\left[}
\newcommand{\]}{\right]}
\newcommand{\dis}{\displaystyle}
\newcommand{\eq}[1]{{\rm Eq}(\ref{#1})}
\newcommand{\n}{\notag\\}
\newcommand{\t}{\ \ \ \ }
\newcommand{\tt}{\t\t\t\t}
\newcommand{\argmax}{\mathop{\rm arg\, max}\limits}
\newcommand{\argmin}{\mathop{\rm arg\, min}\limits}
\def\l<#1>{\left\langle #1 \right\rangle}
\def\us#1_#2{\underset{#2}{#1}}
\def\os#1^#2{\overset{#2}{#1}}
\newcommand{\case}[1]{\{ \begin{array}{ll} #1 \end{array} \right.}
\newcommand{\s}[1]{{\scriptstyle #1}}
\definecolor{myblack}{rgb}{0.27,0.27,0.27}
\definecolor{myred}{rgb}{0.78,0.24,0.18}
\definecolor{myblue}{rgb}{0.0,0.443,0.737}
\definecolor{myyellow}{rgb}{1.0,0.82,0.165}
\definecolor{mygreen}{rgb}{0.24,0.47,0.44}
\newcommand{\c}[2]{\textcolor{#1}{#2}}
\newcommand{\ub}[2]{\underbrace{#1}_{#2}}
\newcommand{\Cov}{{\rm Cov}}
\end{align*}
カテゴリカル分布
カテゴリカル分布の具体例としては、$K = 6$ とおき、すべての $k$ に対して $p_k = 1/6$ とすれば、一様な $6$ 面のサイコロの出目が従う分布を表現することができます。
上記のベクトル $\bm{x}$ は one-hotベクトルと呼ばれています。今 $\bm{x}$ の $k$ 番目の要素が $1$ である場合、すなわち、$\bm{x} = (x_1, x_2, \dots, x_k, \dots, x_K)^\T = (0, 0, \dots, 1, \dots, 0)^\T$ である場合、確率分布を $P(x_k)$ と表記して、次のように書くことができます。
\begin{align*}
P(x_k) &= \prod_{\ell=1}^K p_{\ell}^{x_{\ell}} \n
&= p_1^{x_1} \times p_2^{x_2} \times \cdots \times p_k^{x_k} \times \cdots \times p_K^{x_K} \n
&= p_1^{0} \times p_2^{0} \times \cdots \times p_k^{1} \times \cdots \times p_K^{0} \n
&= p_k.
\end{align*}
期待値の証明
\begin{align*}
E[X_k] &= \sum_{\ell = 1}^K x_{\ell} P(x_{\ell}) \n
&= \ub{0 \times P(x_{1})}{1{\rm st}} + \ub{0 \times P(x_{2})}{2{\rm nd}} + \cdots + \ub{1\times P(x_{k})}{k{\rm th}} + \cdots + \ub{0 \times P(x_{K})}{K{\rm th}} \n
&= P(x_{k}) \n
&= p_k.
\end{align*}
分散の証明
$V[X_k] = E[X_k^2] – E[X_k]^2$ より、$E[X_k^2]$ を計算すると、
\begin{align*}
E[X_k^2] &= \sum_{\ell = 1}^K x_{\ell}^2 P(x_{\ell}) \n
&= \ub{0^2 \times P(x_{1})}{1{\rm st}} + \ub{0^2 \times P(x_{2})}{2{\rm nd}} + \cdots + \ub{1^2\times P(x_{k})}{k{\rm th}} + \cdots + \ub{0^2 \times P(x_{K})}{K{\rm th}} \n
&= P(x_{k}) \n
&= p_k.
\end{align*}
したがって、
\begin{align*}
V[X_k] &= E[X_k^2] – E[X_k]^2 \n
&= p_k – p_k^2 \n
&= p_k (1 – p_k).
\end{align*}
共分散の証明
$\Cov[X_k, X_{k^{\prime}}] = E[X_k X_{k^{\prime}}] – E[X_k]E[X_{k^{\prime}}]$ より、$E[X_k X_{k^{\prime}}]$ を計算すると、
\begin{align*}
E[X_k X_{k^{\prime}}] &= \ub{0 \cdot 0 \times P(x_{1})}{1{\rm st}} + \cdots + \ub{1 \cdot 0 \times P(x_{k})}{k{\rm th}} + \cdots + \ub{0 \cdot 1 \times P(x_{k^{\prime}})}{k^{\prime}{\rm th}} + \cdots + \ub{0\cdot 0 \times P(x_{K})}{K{\rm th}} \n
&= 0.
\end{align*}
したがって、
\begin{align*}
\Cov[X_k, X_{k^{\prime}}] &= E[X_k X_{k^{\prime}}] \,- E[X_k]E[X_{k^{\prime}}] \n
&= \,- p_k p_{k^{\prime}}.
\end{align*}
多項分布
$N = 1$ である時の多項分布は、カテゴリカル分布と等しいです。多項分布の性質から、独立にカテゴリカル分布に従う$N$ 個の確率ベクトルをそれぞれ $\bm{Z}^{(i)} \us{\sim}_{\rm i.i.d.} \mathcal{Categorical}(\bm{p})$ とすると、
\begin{align*}
\bm{X} = \sum_{i=1}^N \bm{Z}^{(i)}
\end{align*}
が成り立ちます。
期待値の証明
カテゴリカル分布の期待値は $E[Z_k^{(i)}] = p_k$ であるから、
\begin{align*}
E[X_k] &= E\[\sum_{i=1}^N Z_k^{(i)}\] \n
&= \sum_{i=1}^N E[Z_k^{(i)}] \n
&= N p_k.
\end{align*}
分散の証明
カテゴリカル分布の分散は $V[Z_k^{(i)}] = p_k(1 – p_k)$ であるから、
\begin{align*}
V[X_k] &= V\[ \sum_{i=1}^N Z_k^{(i)} \] \n
&= \sum_{i=1}^N V[Z_k^{(i)}] \n
&= Np_k(1 – p_k).
\end{align*}
共分散の証明
\begin{align*}
\Cov[X_k, X_{k^{\prime}}] &= \Cov\[\sum_{i=1}^N Z_k^{(i)}, \sum_{j=1}^N Z_{k^{\prime}}^{(j)}\] \n
&= \sum_{i=1}^N \sum_{j=1}^N \Cov\[ Z_k^{(i)}, Z_{k^{\prime}}^{(j)}\]
\end{align*}
今、$Z_k^{(i)}, Z_{k^{\prime}}^{(j)} \ \ (i \neq j)$ は互いに独立な確率変数であるため、$\Cov\[ Z_k^{(i)}, Z_{k^{\prime}}^{(j)}\] = 0 \ \ (i \neq j)$ となる。したがって、上式は $i = j$ の項のみ残り、
\begin{align*}
\Cov[X_k, X_{k^{\prime}}] = \sum_{i=1}^N \Cov\[ Z_k^{(i)}, Z_{k^{\prime}}^{(i)}\]
\end{align*}
となる。カテゴリカル分布の共分散は $\Cov[Z_k, Z_{k^{\prime}}] =\, – p_k p_{k^{\prime}}$ であるため、
\begin{align*}
\Cov[X_k, X_{k^{\prime}}] &=\, – N p_k p_{k^{\prime}}.
\end{align*}