ポアソン分布はその導出方法で適用条件が分かる！

どーも，竜太です．

今回は二項分布に一定の仮定を施すことにより，ポアソン分布を導きます．

二項分布とは

ある事象の起こる確率が一定の値 $p$ であるとき，この事象が $n$ 回の試行の内何回起こるかの確率分布は二項分布になります．二項分布の二項の意味は例えば $n$ 回の試行の内その事象が $k$ 回起こることの確率は二項定理より， \begin{align} 1 &= (p + (1-p))^n \\&= \sum_{k=0}^n{}_nC_kp^k(1-p)^{n-k} \end{align} のように展開されるので $p^k$ を持つ項，つまり， \begin{align} P(X = k)&= {}_nC_kp^k(1-p)^{n-k} \end{align} がその起こる確率となることに由来します．なお，二項係数 ${}_nC_k = \frac{n!}{k!(n-k)!}$ の導出は， $n$ 個の区別できるものを並べたとき，先頭の $1$ 個めを選ぶときは $n$ 通り，次の $2$ 個めを選ぶときは $n-1$ 通り，として最後の一個まで続けると全部の選び方の組み合わせの $n! = n\cdot (n-1)\cdots 2\cdot 1$ となるので，実際には $k$ 個が値 $p$ で区別できず， $n-k$ 個が値 $1-p$ で区別できないので，それぞれが区別できたと仮定した場合の組み合わせで割ってやる必要があるので， $n!$ を $k!$ と $(n-k)!$ で割ったものになるわけです．

二項分布の期待値

二項分布の期待値は正確に $E(X) = np$ になります．まず，期待値とはある確率変数がとる値にその確率を掛けたものの全ての値に渡る和でした．そこで計算してみると \begin{align} E(X) &= \sum_{k=0}^nx_kp_k \\ &= \sum_{k=0}^nk{}_nC_kp^k(1-p)^{n-k} \\ &= \sum_{k=0}^nk\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k} \\ &= \sum_{k=1}^n\frac{n!}{(k- 1 )!(n-k)!}p^k(1-p)^{n-k} \end{align} 一番最後の行で $\ell = k-1$ と置きます．すると， \begin{align} E(X) &= \sum_{k=1}^n\frac{n!}{(k- 1 )!(n-k)!}p^k(1-p)^{n-k} \\ &= \sum_{\ell =0}^{n-1}\frac{n!}{\ell!(n-(\ell + 1))!}p^{\ell +1}(1-p)^{n-(\ell + 1)} \\ &= np\sum_{\ell =0}^{n-1}\frac{(n - 1)!}{\ell!(n-1 - \ell)!}p^{\ell}(1-p)^{n-1 - \ell} \end{align} ここで最後の行で，和の部分は $(p + (1 - p))^{n-1}$ の二項展開ですから， $1$ になります．よって $E(X) = np$ が得られました．

二項分布の期待値 $np$ と試行回数 $n$ が一回の試行でその事象が起こる確率 $p$ よりずっと大きい場合ポアソン分布に従う

いま，二項分布が成り立つ状況でその期待値 $np$ が $\lambda$ に等しく，試行回数 $n$ と $\lambda$ がその事象が $1$ 回だけ起こる確率 $p$ よりはるかに大きいと仮定しましょう．このとき，実際に成り立つのは二項分布ですが，十分良い近似で成り立つのが，二項分布の近似であるポアソン分布です．いま， $np = \lambda$ より， $p = \frac{\lambda}{n}$ ですから二項分布より， \begin{align} P(X=k) &= {}_nC_kp^k(1-p)^{n-k} \\ &= \frac{n!}{k!(n-k)!}\left(\frac{\lambda}{n}\right)^k\left(1 - \frac{\lambda}{n}\right)^{n-k} \\ &= \frac{n\cdot (n-1)\cdots (n-k+1)}{k!}\frac{\lambda^k}{n^k}\left(1 - \frac{\lambda}{n}\right)^{n}\left(1 - \frac{\lambda}{n}\right)^{-k} \\ &= \frac{1\cdot \left( 1 - \frac{1}{n} \right)\cdots \left( 1 - \frac{ k - 1 }{n} \right)}{k!}\lambda^k\left(1 - \frac{\lambda}{n}\right)^{n}\left(1 - \frac{\lambda}{n}\right)^{-k} \\ &= \frac{1}{k!}\lambda^k\left(1 - \frac{\lambda}{n}\right)^{n}\frac{1\cdot \left( 1 - \frac{1}{n} \right)\cdots \left( 1 - \frac{ k - 1 }{n} \right)}{\left(1 - \frac{\lambda}{n}\right)^k} \end{align} ここで最後の行で $k$ が $n$ より小さいとき， $\frac{1\cdot \left( 1 - \frac{1}{n} \right)\cdots \left( 1 - \frac{ k - 1 }{n} \right)}{\left(1 - \frac{\lambda}{n}\right)^k}\to 1$ であり，また $\left(1 - \frac{\lambda}{n}\right)^{n}\to e^{-\lambda}$ であるので，結局 \begin{align} P(X=k) &= {}_nC_kp^k(1-p)^{n-k} \\ &\to \frac{\lambda^k}{k!}e^{-\lambda} \end{align} が得られます．これがポアソン分布です．なぜこの近似を行うのかというと，計算が大幅に単純化されるからです．