最近在学习数据挖掘、机器学习的相关算法时,感到统计知识的应用还是非常广泛且重要的,因此决定从新温习一遍概率论和数理统计,为进一步学习数据挖掘打下基础。

绪言

  • 概率论
    数学的一个分支,研究如何定量描述随机现象及其规律。

  • 数理统计
    以数据为研究对象,包括数据的收集、整理、分析和建模,从而对随机现象的某些规律进行预测或决策。


第一章_随机事件与概率

  • 三个基本概念
    样本空间:随机试验中所有可能结果的集合称为样本空间,记为S。
    样本点:S中的单个元素称为样本点,也称为基本事件。
    随机事件:样本空间S的子集,称为随机事件,一个随机事件可以包含多个基本事件。

  • 事件的相互关系(若有事件A和事件B)

名称 记法 含义
合事件 \(A\cup B\) A、B至少有一个发生
积事件 \(A\cap B\) 或简写为 \(AB\) A、B同时发生
差事件 \(A-B\) A发生且B不发生
互斥事件/不相容事件 \(AB=\phi\) AB不能同时发生
对立事件/逆事件 \(\bar{A}\) \(A\cup \bar{A} = S\),\(A\cap \bar{A} = \phi\)

注1:差事件有多种表示方法,如\(A-B = A\bar{B} = A-AB\)
注2:区分\(\overline{AB}\)和\(\bar{A}\bar{B}\),\(\overline{AB}\)表示A、B不同时发生(可单独发生),\(\bar{A}\bar{B}\)表示A、B都不发生

  • 重要的事件运算定律
    结合律:
    \(A\cup (B\cap C) = (A\cup B)\cap (A\cup C)\)
    \(A\cap (B\cup C) = (A\cap B)\cup (A\cap C)\)
    德摩根律:
    \(\overline{A\cup B} = \bar{A}\cap \bar{B}\)
    \(\overline{A\cap B} = \bar{A}\cup \bar{B}\)
    注1:事件运算很多时候可通过画维恩图来表示
    注2:两个公式都可扩展到多事件的情况

  • 频率与概率
    频率\(f_n(A)\):表示事件A发生的次数占试验总次数的比例。
    $$f_n(A) = \frac {n_A} {n}$$
    概率\(P(A)\):当实验次数增加时,频率的稳定值称为概率。
    $$P(A) = lim_{n \rightarrow \infty} f_n(A)$$

  • 概率的性质
    对事件A和事件B
    (1). \(P(B-A) = P(B)-P(AB)\)。若\(A \subset B\),则有\(P(B-A) = P(B)-P(A)\)
    (2). \(P(A \cup B) = P(A)+P(B)-P(AB)\)
    (3). \(P(\bar{A}) = 1-P(A)\)

  • 古典概型
    两个特征:样本空间S中样本点有限(有限性) & 每一个样本点的概率相等(等可能性)。
    因此计算概率有:
    $$P(A) = (A所包含的样本点数)/(S中的样本点总数)$$
    注1:古典概率只需要计算不同事件对应的样本点个数即可。
    注2:因为样本点个数有限,所有情况可枚举,因此古典概型经常转化为排列组合的问题求解。

  • 补充排列组合公式
    排列:从n个人中先挑出m个人,再对这m个人排序,求可能的排序个数。
    $$A_n^m = n(n-1)\cdots(n-m+1)$$
    组合:从n个人中挑出m个人,求可能的组合个数。因为相比排序来说不关心顺序,因此只需将「上一步排序的结果」除以「不同排列顺序的个数」即可。
    $$C_n^m = A_n^m/m! = \frac{n(n-1)\cdots(n-m+1)}{m!}$$
    $$C_n^m = C_n^{n-m}$$

  • 条件概率
    P(B|A)表示在事件A发生的前提下,事件B发生的概率。
    计算方法:\(P(B|A) = \frac {P(AB)} {P(A)} \)(事件A的发生改变了样本空间)。
    注:注意区分P(AB)和P(B|A),前者是在整个样本空间下计算,是“原始”的概率;后者是在A的样本空间下计算,是“二次影响”后的概率,条件概率即表征一种影响程度。

  • 乘法公式(计算多个事件同时发生的概率)
    $$P(AB) = P(A)\cdot P(B|A) = P(B)\cdot P(A|B)$$
    $$P(ABC) = P(A)\cdot P(B|A)\cdot P(C|AB)$$

  • 全概率公式
    定义划分:若有
    (1). \(B_1\cup B_2\cup \cdots\cup B_n = S\)
    (2). \(B_iB_j = \phi,i\not=j\)
    则称\(B_1,B_2,\cdots,B_n \)为S的一个划分。
    计算A事件概率就有:
    $$P(A) = \sum_{j=1}^n P(AB_j) = \sum_{j=1}^n P(B_j)P(A|B_j)$$
    公式的直观理解:“由因求果”,B1,B2…代表引起事件A发生的各种原因,因此事件A发生的总概率就是各种原因下发生概率的加和。

  • 贝叶斯公式
    \(B_1,B_2,\cdots,B_n \)为S的一个划分,
    $$P(B_i|A) = \frac {P(B_iA)} {P(A)} = \frac {P(A|B_i)P(B_i)} {\sum_{j=1}^n P(A|B_j)P(B_j)}$$
    P(B)称为先验概率,代表根据以往经验得到的引起某件事发生的原因的概率。
    P(B|A)称为后验概率,代表事情已经发生,求这件事发生是由某个因素引起的可能性的大小。
    公式的直观理解:“执果寻因”,观测某事件已经发生,求导致该事件发生的各种原因的概率。
    影响后验概率的有两个因素,一个是原因本身的概率P(B),另一个是原因引起结果的概率P(A|B),只有当各原因引起结果的概率有差别时,贝叶斯公式才有意义,否则计算出的仅仅就是各原因概率的比例而已。两个影响因素对结果的共同作用大,求出的后验概率P(B|A)就会大,这也是符合直观认知的。
    此外,后验概率还代表着根据实际情况对先验概率的“修正”:通常情况下,依照经验求得的先验概率不会太准确,这时就需从实际中寻找相关事实对其进行修正。
    更多贝叶斯公式的讲解:贝叶斯公式的直观理解(先验概率/后验概率)

  • 事件的独立性
    定义:满足\(P(AB) = P(A)P(B)\),则称事件A与事件B相互独立。若\(P(A)>0,P(B)>0\),则有\(P(B|A) = P(B)\)(这个公式理解起来更直观些)。
    直观理解:在一次实验中,一个事件的发生不会影响到另一个事件发生的概率。
    注1:事件的独立性\(\not=\)互斥性。互斥性指事件不可能同时发生,即\(P(AB)=0\);独立性指一个事件的发生不会影响到另一个事件发生的概率,即\(P(AB)=P(A)P(B)\)。在维恩图中,互斥事件没有交集,而独立事件则可以有交集,只是交集占B圈的概率与A圈占总体的概率相等罢了。
    注2:若多个事件相互独立,则有\(P(ABC) = P(A)P(B)P(C)\),但注意
    $$\left.
    \begin{align}
    P(AB)=P(A)P(B) \\
    P(AC)=P(A)P(C) \\
    P(BC)=P(B)P(C)
    \end{align}
    \right\rbrace
    \not\Rightarrow P(ABC)=P(A)P(B)P(C)$$
    即两两独立不能推出相互独立,因为相互独立还要求满足\(P(ABC)=P(A)P(BC)\)。


第二章_离散型随机变量

  • 随机变量
    定义:样本空间S,样本点e,若\(X=X(e)\)为定义在S上的实值单值函数,则称\(X(e)\)为随机变量,简写为\(X\)。
    注1:随机变量虽然叫变量,但实际是一个函数,是样本点到实数的一种映射。
    注2:引入随机变量的原因,是为了将无法量化的随机事件用具有实际意义的数值来表示,便于量化研究随机现象的规律。如在抛硬币实验中,可将实验结果用“正面出现的次数”来表示。
    注3:随机变量本质是函数,也要满足函数的性质,可以多个样本点对一个实数值,但不能一对多。
    注4:随机变量一般用大写字母\(X,Y,Z\)或希腊字母\(\eta,\xi\)来表示,且都将\(X(e)\)简写为\(X\),直接用\(X\)来表示映射后的实数值。

  • 离散型随机变量
    若随机变量X的取值为有限个或可数个,则称X为离散型随机变量。
    “可数”指其中的元素可以被一一数到。(元素数可以是无限个,如整数集、正奇数集等,都是可数的)
    离散型随机变量的分布律:随机变量所有可能的取值所对应的概率,叫做分布律(一个分布律是和一个随机变量对应的)。分布律需要满足两个条件:非负性 & 加和为1。
    三种常见的离散分布:0-1分布、二项分布、泊松分布、几何分布。

  • 0-1分布
    若X的分布律满足

    就称X服从参数为p的0-1分布(或两点分布),即为\(X\sim 0-1(p)\)或\(X\sim B(1,p)\)
    其分布律可写为:
    $$P(X=k)=p^k(1-p)^{1-k},k=0,1$$

  • 伯努利实验(Bernoulli)
    设A是一随机事件,且\(P(A)=p(0< p <1)\)。若仅考虑事件A发生与否,就可定义一个服从参数p的0-1分布的随机变量X:
    $$ X=\left\{
    \begin{align}
    0 & , & 若A发生 \\
    1 & , & 若A不发生(即\bar{A}发生)
    \end{align}
    \right.
    $$
    来描述这个随机实验的结果。
    这种只有两个可能结果的实验,称为伯努利实验。
    注1:将伯努利实验独立重复地进行n次,就称为n重伯努利实验。
    注2:设X表示n重伯努利实验中事件A发生的次数,则X的可能取值为0,1,…,n,概率为\(P\{X=k\}=C_n^kp^k(1-p)^{n-k}\)。

  • 二项分布(Binomial)
    定义:若随机变量X的概率分布律为
    $$P\{X=k\}=C_n^kp^k(1-p)^{n-k},k=0,1,\cdots,n$$
    即称X服从参数为n,p的二项分布,记为\(X\sim B(n,p)\)。
    n代表进行伯努利实验的次数,p代表一次实验中事件A发生的概率。
    二项分布作用:描述n重伯努利实验中,事件发生的次数。
    注:0-1分布也是一种特殊的二项分布,即只进行一次伯努利实验。

  • 泊松分布(Poisson)
    设随机变量\(X\)的取值为0,1,2,…,而取各个值的概率为
    $$P\{X=k\}=\frac {\lambda^ke^{-\lambda}} {k!},k=0,1,2,…$$
    其中\(\lambda>0\)且是常数,则称\(X\)服从参数为\(\lambda\)的泊松分布,记为\(X\sim \pi (\lambda)\)
    证明其满足分布律的两条件:对于非负性,明显满足;对于加和为1性质,有:
    $$\sum_{k=0}^\infty P\{X=k\}=\sum_{k=0}^\infty \frac {\lambda^ke^{-\lambda}} {k!}=e^{-\lambda}\sum_{k=0}^\infty \frac {\lambda^k} {k!}=e^{-\lambda}\cdot e^\lambda = 1$$
    注1:上式证明所涉及定理:
    $$e^x=1+x+\frac {x^2} {2!}+\cdots+\frac {x^k} {k!}+\cdots$$
    注2:若某事件以固定强度\(\lambda\),随机且独立地出现,该事件在单位时间内出现的次数可认为服从泊松分布。
    如公共汽车站到达的乘客数,一本书一页中的印刷错误数等。
    注3:不同参数\(\lambda\)的泊松分布概率图,横坐标为k值,纵坐标为概率值

    更多泊松分布的解释见:泊松分布的现实意义是什么?
    注4:二项分布与泊松分布的近似关系:当\(n>10,p<0.1\)时,
    $$C_n^k(1-p)^{n-k}\approx \frac {e^{-\lambda}\lambda^k} {k!}, \lambda=np. $$
    即当\(n\)很大而\(p\)很小,且\(np\)大小适中时,可用泊松分布来近似二项分布。因为\(n\)很大时,二项分布公式中\(C_n^kp^k(1-p)^{n-k}\)计算次方和阶乘会很麻烦,因此用泊松来近似。

  • 几何分布(Geometric)
    定义:若\(X\)的概率分布律为:
    $$P(X=k)=p(1-p)^{k-1},k=1,2,3,\cdots$$
    则称\(X\)服从参数为\(p\)的几何分布,记为\(X\sim Grom(p)\)。
    用处:在重复多次的伯努利实验中,实验进行到某种结果出现第一次为止,此时实验总次数服从几何分布。


第三章_连续型随机变量

  • 分布函数
    如果随机变量不是离散型的,分布律就无法描述其取值规律了,因此引入分布函数,分布函数对所有类型的随机变量都适用。
    定义:随机变量X,对任意实数x,称函数\(F(x)=P(X\le x)\)为X的概率分布函数,简称分布函数。
    几何意义:表示X落到\((-\infty , x)\)区间上的概率。

    如何表示落到任意区间的概率:
    $$ \begin{align}
    P(a<X\le b) &=P(X\le b)-P(X\le a) \\
    &=F(b)-F(a)
    \end{align}
    $$

  • 概率密度
    对于随机变量\(X\)的分布函数\(F(X)\),若存在非负函数\(f(x)\),使对于任意实数\(x\)有:
    $$F(x)=\int_{-\infty}^x f(t)dt$$
    则称\(X\)为连续型随机变量,其中\(f(x)\)称为\(X\)的概率密度函数,简称概率密度

  • 概率密度的性质
    性质1:\(f(x)\ge 0\)
    性质2:\(\int_{-\infty}^{+\infty} f(x)dx=F(+\infty)=1 \)
    性质3:概率密度函数的面积值表示概率(分布函数是y值表示概率)
    $$P(x_1 < X\le x_2)=\int_{x_1}^{x_2} f(t)dt$$

    因此当\(x_1,x_2\)重合的时候,面积为0,概率也为0,因此连续型随机变量中任意单点概率都为0,但并非是不可能事件,即不可能事件\(\Rightarrow\)概率为0,概率为0\(\not\Rightarrow\)不可能事件。
    性质4:若\(f(x)\)在点\(x\)连续,则有\(f(x)=F’(x)\)。
    $$\begin{align}
    &f(x)=F’(x)=\lim_{\Delta x \rightarrow 0} \frac {F(x+\Delta x)-F(x)} {\Delta x}=\lim_{\Delta x\rightarrow 0} \frac {P(x<X\le x+\Delta x)} {\Delta x}&\\
    \\
    &P(x<X\le x+\Delta x)\approx f(x)\cdot \Delta x
    \end{align}$$
    表明\(X\)落在点\(x\)邻域附近的概率近似等于\(f(x)\cdot \Delta x\)

  • 对性质4的说明:下图是某概率密度函数

    图中\(f(x_2)<f(x_1)\),但这并不表明\(x_1\)点的概率比\(x_2\)点的概率大(单点概率都为0),其表明\(f(x_2)\cdot \Delta x<f(x_1)\cdot \Delta x\),即\(X\)落在\(x_1\)附近的概率比落在\(x_2\)附近的概率大。同理,在此图中,\(X\)落在\(0\)附近的概率是最大的。

  • 均匀分布(Uniform)
    若\(X\)的概率密度函数为
    $$f(x)=
    \left\{
    \begin{align}
    &\frac {1} {b-a},&x\in (a,b)\\
    &0,&其他
    \end{align}
    \right.
    $$
    就称\(X\)服从\((a,b)\)上的均匀分布,记为\(X\sim U(a,b)\)。
    概率密度函数图如下:

    注1:均匀分布的直观理解就是“均匀”的,具有等可能性,即对于任意的\(a<k<k+l<b\),有
    $$P(k< X< k+l)=\int_{k}^{k+l} \frac {1} {b-a}dt=\frac {l} {b-a} $$
    \(X\)落入\((a,b)\)中任意子区间上的概率,只与区间长度有关,与区间位置无关。
    注2:均匀分布的分布函数为:
    $$F(x)=
    \left\{
    \begin{align}
    &0, &x< a;\\
    &\frac {x-a} {b-a}, &a\le x< b;\\
    &1, &x\ge b.
    \end{align}
    \right.
    $$
    图像如下所示:

  • 指数分布

  • 高斯分布


Post Date: 2018-06-25

版权声明: 本文为原创文章,转载请注明出处