【統計検定対策】事象、確率と確率変数について

はじめに
事象
確率と確率変数
条件付き確率とベイズの定理
確率分布の期待値・分散

はじめに

　前回は、1変量、多変量データの扱い方について勉強しました。

今回は事象、確率や確率変数について述べます。数学的な記述がされており、抽象的な話になってしまいますが、言っていることはごく常識的な内容となっているので、あまり難しく考えずに捉えるといいのかもしれません。

事象

　例として、サイコロを１回投げる状況を考えます。サイコロの出目として起こりうる結果は、1, 2, 3, 4, 5, 6 のいずれかです。このとき、

起こりうる結果を標本点(sampe point)
標本点をまとめた集合 $\Omega = \{ 1, 2, 3, 4, 5, 6 \}$ を標本空間(sample space)
標本空間の部分集合を事象(event)

と呼びます。

\begin{align*}
\newcommand{\mat}[1]{\begin{pmatrix} #1 \end{pmatrix}}
\newcommand{\f}[2]{\frac{#1}{#2}}
\newcommand{\pd}[2]{\frac{\partial #1}{\partial #2}}
\newcommand{\d}[2]{\frac{{\rm d}#1}{{\rm d}#2}}
\newcommand{\T}{\mathsf{T}}
\newcommand{$}{\left(}
\newcommand{$}{\right)}
\newcommand{\{}{\left\{}
\newcommand{\}}{\right\}}
\newcommand{\[}{\left[}
\newcommand{\]}{\right]}
\newcommand{\dis}{\displaystyle}
\newcommand{\eq}[1]{{\rm Eq}(\ref{#1})}
\newcommand{\n}{\notag\\}
\newcommand{\t}{\ \ \ \ }
\newcommand{\tt}{\t\t\t\t}
\newcommand{\argmax}{\mathop{\rm arg\, max}\limits}
\newcommand{\argmin}{\mathop{\rm arg\, min}\limits}
\def\l<#1>{\left\langle #1 \right\rangle}
\def\us#1_#2{\underset{#2}{#1}}
\def\os#1^#2{\overset{#2}{#1}}
\newcommand{\case}[1]{\{ \begin{array}{ll} #1 \end{array} \right.}
\newcommand{\s}[1]{{\scriptstyle #1}}
\definecolor{myblack}{rgb}{0.27,0.27,0.27}
\definecolor{myred}{rgb}{0.78,0.24,0.18}
\definecolor{myblue}{rgb}{0.0,0.443,0.737}
\definecolor{myyellow}{rgb}{1.0,0.82,0.165}
\definecolor{mygreen}{rgb}{0.24,0.47,0.44}
\newcommand{\c}[2]{\textcolor{#1}{#2}}
\newcommand{\ub}[2]{\underbrace{#1}_{#2}}
\end{align*}

確率と確率変数

　事象 $A$ が生じる確率を $P(A)$ と表記します。このとき、$P(A)$ が満たすべき性質としては下記があります。

確率の定義

$0 \leq P(A) \leq 1.$
$A$ が確実に起きる事象であれば、$P(A) = 1.$
事象 $A, B$ が同時に起きることがなければ、$P(A\cup B) = P(A) + P(B).$
*無限個のたがいに同時に起きることがない排反な事象 $A_1, A_2, \dots$ においては、次のようになる。
\begin{align*}
P$\bigcup^\infty_{i=1} A_i$ = \sum^\infty_{i=1}P(A_i).
\end{align*}

確率変数とは、いろいろな値を決まった確率でとる変数のことです。例えば、サイコロの出目は確率変数となります。サイコロが歪んでいなければどの目がでる確率も等しく $1/ 6$ です。これは、サイコロの出目を $X$ とすると、

\begin{align*}
P(X = x) = \f{1}{6}, \t x=1, 2, \dots, 6
\end{align*}

と表すことができます。

サイコロのように、確率変数がとびとびの値をとるものを離散確率変数とよびます。

一方で、身長や体重など、確率変数の値が連続的に変化すると考えられる場合は、連続確率変数とよびます。

条件付き確率とベイズの定理

　事象 $B$ が起こったという条件のもとで、事象 $A$ が起きる確率を、$B$ における $A$ の条件付き確率といい、

\begin{align*}
P(A|B) = \f{P(A \cap B)}{P(B)}
\end{align*}

と表します。

ここで、$B$ における $A$ の条件付き確率が $B$ に影響されない時、つまり、

\begin{align*}
P(A|B) = \f{P(A \cap B)}{P(B)} = P(A)
\end{align*}

が成り立つ時、事象 $A, B$ は独立であるといいます。$A, B$ が独立であることは、上式を書き換えて、

\begin{align*}
P(A \cap B) = P(A)P(B)
\end{align*}

とも表記されます。

　上記の条件付き確率において、$A$ と $B$ の順序を入れ替えると、それぞれ $P(A \cap B) = P(A|B)P(B)$, $P(A \cap B) = P(B|A)P(A)$ とかけますが、このような順序の変更は、次のベイズの定理に対応します。

ベイズの定理

\begin{align*}
P(A|B) = \f{P(B|A)P(A)}{P(B)}.
\end{align*}

また、ベイズの定理は次の形で拡張されます。

ベイズの定理の拡張

全事象 $\Omega$ が排反な事象 $A_1, A_2, \dots, A_n$ の和である場合、

\begin{align*}
\Omega = \bigcup^n_{i=1} A_i, \t A_i \cap A_j = \emptyset \t (i \neq j)
\end{align*}

ベイズの定理は次の形で表される。

\begin{align*}
P(A_i|B) = \f{P(B|A_i)P(A_i)}{P(B)} = \f{P(B|A_i)P(A_i)}{\sum^n_{i=1}P(B|A_i)P(A_i)}
\end{align*}

最後の行の変形は全確率の公式を用いています。

全確率の公式

事象 $A_1, A_2, \dots, A_n$ がたがいに排反であり、$P(A_i) > 0 \ (i=1, \dots, n)$ のとき、

\begin{align*}
C = \bigcup^n_{i=1} A_i
\end{align*}

である事象 $C$ の確率は次式となる。

\begin{align*}
P(C) &= \sum^n_{i=1} P(C \cap A_i) \n
&= \sum^n_{i=1}P(C|A_i)P(A_i).
\end{align*}

複数の確率変数で条件付けられている場合、ベイズの公式は下記のように記載できます。

多変数のベイズの公式

確率変数 $X, Y, Z $ について、

\begin{align*}
P(X | Y, Z) = \f{P(Y|X, Z) P(X|Z)}{P(Y|Z)}
\end{align*}

が成り立つ。

証明は以下となります。

証明

同時分布 $P(X, Y, Z)$ を考えると、条件付き確率の定義から、

\begin{align*}
P(X, Y, Z) &= P(X|Y, Z)P(Y, Z) \n
&=P(X|Y, Z)P(Y|Z)P(Z)
\end{align*}

一方で、
\begin{align*}
P(X, Y, Z) &= P(Y|X, Z)P(X, Z) \n
&=P(Y|X, Z)P(X|Z)P(Z)
\end{align*}

とも書けるから、両者を比較して、

\begin{align*}
P(X|Y, Z)P(Y|Z)P(Z) &= P(Y|X, Z)P(X|Z)P(Z) \n
\therefore P(X | Y, Z) &= \f{P(Y|X, Z) P(X|Z)}{P(Y|Z)}
\end{align*}

確率分布の期待値・分散

　確率変数に対しては平均という言葉ではなく、期待値と呼ばれることが多いです。期待値と分散の定義は離散型と連続型の確率変数に対して多少異なります。

以下に確率変数 $X$ の期待値: $E[X]$, 分散: $V[X]$ の定義を記載します。なお、$\mu$ は期待値です。

離散型

\begin{align*}
E[X] &= \sum_{x} x P(X = x) \n
V[X] &= \sum_{x} (x – \mu)^2 P(X = x)
\end{align*}

連続型

\begin{align*}
E[X] &= \int_{\infty}^{\infty} x f(x) dx \n
V[X] &= \int_{\infty}^{\infty} (x – \mu)^2 f(x) dx
\end{align*}

また、分散には次の重要な公式があります。

分散の公式

\begin{align*}
V[X] = E[X^2] – E[X]^2
\end{align*}

これは、一般的に次のように証明できます。

証明

以下、$E[X] = \mu$ とする。

\begin{align*}
V[X] &= E[(X – \mu)^2] \n
&= E[X^2 – 2\mu X + \mu^2] \n
&= E[X^2] -2 \mu E[X] + \mu^2 \n
&= E[X^2] -2 \mu^2 + \mu^2 \n
&= E[X^2] – E[X]^2.
\end{align*}

次回: ▼確率変数の変換と積率母関数

参考書籍

リンク