泊松分布方差证明-泊松分布方差证明
泊松分布的方差证明,说白了就是看看那个“数量”蹦蹦跳跳,到底跳得有多远。
这玩意儿看着挺好办,就是 random number generator,也就是随机数生成器。咱们别整那些虚头巴脑的学术术语,直接拿一个真的实验场景来唠。 想象一下,你站在一个旋转门前面,假设每分钟恰好形成一次车经过。
这个事件要么形成,要么不形成,并且每次形成的工夫是固定的,只是位置不一样。
这时候,要是每分钟形成了三次车,那这三次是均匀散落在工夫轴上的,彼此之间互不干扰。
这就是泊松分布最核心的灵魂,也就是“独立同分布,固定均值”。 目前我们要算它的方差,意思就是算出单次观察结局波动那么大,到底有多夸张。根据公式 $Var(X) = lambda$,对于伯努利分布,方差等于 $p(1-p)$。而在泊松分布里,$p$ 实际上就是 $e^{-lambda} frac{lambda^k}{k!}$,这个玩意儿没啥好算的,但它有一个更好办的表现:$lambda = lambda^1 = lambda^2 = lambda^3 = dots$。
你看,甭管是 $k=1$ 还是 $k=10$,平均值都是 $lambda$。 这就引出了一个关键难题:泊松分布的均值和方差为啥是一个?在正态分布里,我们一般要求方差是均值的平方,也就是 $E[X^2] - (E[X])^2$,要是 $mu$ 是 10,方差得是 100。但在泊松分布里,方差是 $lambda$,要是 $lambda$ 是 10,方差是 10,彻底不在一个次元上。
这乍一看挺反常识。 举个具体的例子,假设我们做一个实验,每次独立重复 10000 次,每次扔一枚硬币,正面朝上就算成功。
要是抛掷次数是 100 次,平均来说应当出现 50 次正面。
这时候数据分布可能高度聚拢在 50 左右,波动挺小。但要是改成独立重复 1000000 次,平均出现次数就变成 500000 了。你会发现,数据分布的“重心”从 50 飙到了 50 万,但那个“方差”还是变大了 50 倍吗?还是只变了一点点? 实际上不是。泊松分布有个秘密武器叫做“泊松极限”。我们慢慢放大倍数,$lambda$ 越大,数据点就越密,挤在一起,看起来像个正态分布,这就是中心极限定理。但就算我们不去管正态分布,光看均值和方差的直接关系,也能发现规律。 在泊松分布里,方差 $D(X) = lambda$,而均值 $E(X) = lambda$。
这意味着均值和方差是同一个数字。
这听起来忒巧了,有点忒假了吧?别急,这实际上是数学上的必然。出于泊松分布是所有参数为 $lambda$ 的分布里,那个“最干净利落”的。其他任何扰动,比如略微加点偏态,要么略微转变方差,都会让 $lambda$ 这个参数变得不清楚不清。 咱们不妨换个角度思索。泊松分布实际上是 $n$ 次伯努利试验,每次成功概率 $p$ 固定为 $1/e$。当我们把 $n$ 取个极限,$p$ 也趋向于 $1/e$ 时,所有伯努利试验的总和,其方差恰好能简化成单个变量的方差。
这就像做物理实验,$n$ 次随机数的总和,其方差等于单次随机数的方差。
这符合量纲分析,也符合直觉。 再深入一点,能不能从生成算法的底层逻辑看?随机数生成器一般基于反正弦分布要么其他均匀分布。当 $n$ 挺大时,正态分布近似越好,但泊松分布的“离散性”在 $lambda$ 挺大时表现得越明显。方差就是衡量这种离散性的强弱。
要是 $lambda$ 挺大,说明平均每秒钟形成次数大量,那么这些事件之间的间隔(间隔分布)平均来说会略微稀疏一点,害得整体的方差略微大一点。 实际上还有一个更直观的物理意义。想象你在排队,平均每分钟一个人通过($lambda=1$)。
这时候每个人的等待工夫波动不大。
要是你每分钟有 50 个人通过($lambda=50$),那么队列里的排队工夫分布,其波动幅度理论上是前者的 50 倍。
为啥?出于泊松分布的方差确实是 $lambda$,而均值也是 $lambda$。
要是均值变大,方差就得按同样的比例变大。
这意味着相对波动率(标准差除以均值)在泊松分布里恒定为 $1/sqrt{lambda}$。 当 $lambda$ 挺小时,比如 1 或 2,数据点挺稀疏,方差相对均值来说挺大。
这时候挺难正态化,正态分布的尾巴会拖得忒长,描述不了这种离散现象。但随着 $lambda$ 增大,$lambda$ 和 $sqrt{lambda}$ 的比值越来越大,接近 1。
这时候泊松分布就越来越接近正态分布,方差和均值的“反差”就变小了。 这就把悖论给消解了。
那会儿认定方差是均值的 $1/lambda$,目前看清楚了,是方差和均值本身相等。
这个相等关系,是泊松分布作为“基准”存有的理由。任何更复杂的分布,只要能让 $lambda$ 这个参数变得不唯一,那它就不是泊松分布了,它的方差就不是 $lambda$ 了。 最终总结一下,泊松分布的方差等于均值,这是由其数学定义拍板的。当你增大观察数量,让 $lambda$ 变大,均值随之增长,方差也同步增长,两者一直保持同步的步调。
这就是为啥在数据分析里,时常用正态分布来近似泊松分布,出于这时候方差和均值的差异已经微乎其微了。
要是非要强调差异,那就是方差比均值的平方大得多,但这恰恰证明白大数定律的威力,让原本离散的随机事件变得像连续的平滑曲线。 故此,泊松分布的方差证明,实际上就是证明白一个数学事实:当随机过程中没有额外的约束引入额外的方差项时,总体的波动大小彻底由平均次数拍板,二者成正比,比例系数为 1。
这不仅是公式,更是随机过程简洁性的一种体现。
声明:演示网站所有内容,若无特殊说明或标注,均来源于网络转载,仅供学习交流使用,禁止商用。若本站侵犯了你的权益,可联系本站删除。
