一些常见的离散概率分布，包括了伯努利分布、二项分布、泊松分布等，包括了如何通过 Python 进行测试。

伯努利分布

也就是 Bernoulli Distribution，又名两点分布或者 0-1 分布，主要是为纪念瑞士科学家雅各布·伯努利而命名。

最简单的离散概率，在一次试验中，事件 A 出现的概率为 $$p(0\le p \le 1)$$，不出现的概率为 $q=1-p$，那么相应的概率分布为：

$$f_X(x)=p^x(1-p)^{1-x}=\begin{cases}p&\text{if x=1}\q&\text{if x=0}\end{cases}$$

对应的期望为：

$$E[X]=\sum_{i=0}^1 x_i f_X(x)=0 + p = p$$

方差为：

$$var[X]=\sum_{i=0}^1(x_i -E[X])^2 f_X(x)=(0-p)^2(1-p)+(1-p)^2p=p(1-p)=pq$$

也就是最简单的离散概率分布，只有一个独立的事件，只可能出现两种结果。

示例

伯努利的概率质量函数很简单，如下是通过 Python 对其进行采样，并绘制直方图。

import scipy.stats as stats
import matplotlib.pyplot as plt

samples = stats.bernoulli.rvs(p=0.6, size=1000)
plt.hist(samples, bins=2, density=0, facecolor="blue", edgecolor="black", alpha=0.7)
plt.show()

二项分布

这个是在伯努利分布基础上的概率分布，在 N 次独立的伯努利试验中，期望某个结果 (事件发生了多少次) 出现的概率。

也就是说，在单次试验中，结果 A、B 出现的概率分别为 $p$ 、$q$，且 $p+q=1$ ，那么如果 n=10 即在 10 次实验中，结果出现 0 次、1 次、…、10 次的概率分别是多少？这样的概率分布呈现出什么特征呢？这就是二项分布所研究的内容。

例如，对于一枚硬币，其出现正面和反面的概率各为 0.5 ，那么如果掷 3 次，一般会出现 8 种结果，分别是正正正、正正反、正反正、反正正、正反反、反正反、反反正、反反反。每个结果出现的概率是 0.125 ，那正面出现 3 次、2 次、1 次、0 次的概率分别是 0.125、0.375、0.375、0.125。

实际上，二项分布是统计学家在分析实验结果的基础上的一种总结，其计算概率的一般公式为：

$$b(x,n,p)=C_n^xp^xq^{n-x}$$

其中，$n$ 表示实验总的次数，$x$ 表示出现某个结果的次数，$p$ 表示时间出现的概率。$C_n^x$ 为组合，一般也表示为 $$\begin{pmatrix} n \ x \ \end{pmatrix}$$，其计算公式如下：

$$C_n^x=\frac{n\times(n-1)\times\cdots\times(n-x+1)}{x\times(x-1)\times\cdots\times1}=\frac{n!}{(n-x)!x!}$$

注意，二项分布是建立在有放回抽样的基础上的，也就是抽出一个样品测量或处理完后再放回去，然后抽下一个。不过现实中一般都是非放回抽样，这时就需要用超几何分布来计算概率。

示例

binom distribution pmf

同样可以通过 rvs() 函数生成随机采样值，然后通过如下方式绘制。

import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt

n, p = (10, 0.3)
k = np.arange(0, 21)
samples = stats.binom.rvs(n, p, size=10000)
binomial = stats.binom.pmf(k, n, p)

plt.hist(samples, bins=8, density=1, facecolor="blue", edgecolor="black", alpha=0.7)
plt.plot(k, binomial, 'o-')
plt.title('Binomial: n = %i, p=%0.2f' % (n, p))
plt.xlabel('Number of successes')
plt.ylabel('Probability of sucesses')
plt.show()

泊松分布

也就是 Poisson Distribution ，其对应的概率质量函数如下。

$$P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!},\ k=0,1,2,…, \ \lambda \in \mathbb{R}_{>0}$$

若 $X$ 服从参数为 $\lambda$ 的泊松分布，则记为 $X \sim \pi(\lambda)$ 或者 $X \sim P(\lambda)$ 。

poisson distribution pmf

上图对应的代码如下。

import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt

k = np.arange(20)
fig = plt.figure(figsize=(12, 6))
colors = ['deepskyblue', 'red', 'green', 'blue', 'purple']

for lambda_, c in zip([1.0, 4.0, 6.5, 8.0, 10], colors):
    y = stats.poisson.pmf(k, lambda_)
    #plt.bar(k, y, lw=2, edgecolor=c, color=c, alpha=0.2, label=r"$\lambda=%.1f$" % lambda_)
    plt.plot(k, y, lw=2, marker='o', color=c, alpha=0.8, label=r"$\lambda=%.1f$" % lambda_)

plt.legend(loc=0)
plt.ylabel("PMF($k$)")
plt.xlabel("$k$")
plt.title("Probability mass function of a Poisson random variable; differing $\lambda$ values")
plt.show()

其数学期望和方差相等，均等于其参数 $\lambda$ ，也就是 $E(X)=Var(X)=\lambda$ 。

离散概率分布

伯努利分布 #

示例 #

二项分布 #

示例 #

泊松分布 #

伯努利分布

示例

二项分布

示例

泊松分布