找回密码
 快速注册
搜索
查看: 74|回复: 6

一个关于正态分布的均值的问题

[复制链接]

7

主题

40

回帖

252

积分

积分
252

显示全部楼层

harryzzy 发表于 2022-10-19 11:08 |阅读模式
问题描述如下:
对于一个正态分布,均值$ \mu $和方差$ \sigma $都是已知的。这样可以生成一组具有正态分布的随机数,假设这一组数的数目为n。   此外还可以反过来统计这一组数的均值和方差,当n非常大的时候,统计出来的均值与方差与$ \mu $和$ \sigma $相差很小。以上都是常规操作,结论也是明显的。
现做如下操作:
在生成随机数时,需要限定区间,比如[0,1]。即生成的这n个随机数都要在[0,1]之间。这时再反过来统计这一组数的均值时,似乎与$ \mu $不一定相同了。
问题是:依据上面的叙述,在限定区间的情况下,当n非常大,趋于无穷的时候,统计的均值和方差是否有理论公式可以直接计算?

(类似这样的问题可能对于数学专业的人来说不难,但对于像我们做科研工作但又没有经过专业数学素养训练的人来说,这都是从平时的科研工作中抽象出来的数学问题,这样的问题对于我们不是数学专业的人来说非常困难但又同时很重要。所以发到网上请教各位。先谢)

27

主题

1010

回帖

1万

积分

积分
12585

显示全部楼层

战巡 发表于 2022-10-19 11:40
本帖最后由 战巡 于 2022-10-19 11:54 编辑 正态分布的范围是全实数,你要是强行限定了范围是$[0,1]$,那就不是正态分布了,你之前的$\mu$和$\sigma$都没有意义了

如果你是用的$N(0,1)$生成一大堆随机数,然后踢掉$[0,1]$以外的数据,剩下的数据的分布,叫做“截断正态分布”(Truncated Normal),其均值本来就不是$0$,而是
\[\frac{\frac{1}{\sqrt{2\pi}}-\frac{1}{2\pi e}}{\Phi(1)-\frac{1}{2}}\approx0.45986\]

方差也不是$1$,而是
\[1-\frac{\frac{1}{\sqrt{2\pi e}}}{\Phi(1)-\frac{1}{2}}-\left(\frac{\frac{1}{\sqrt{2\pi}}-\frac{1}{\sqrt{2\pi e}}}{\Phi(1)-\frac{1}{2}}\right)^2\approx 0.079652\]

对于位于$x\in[a,b]$的截断正态分布而言,假设其原正态分布为$N(\mu,\sigma^2)$,则有该截断正态分布的密度函数为
\[f(x)=\frac{1}{\sigma}\frac{\phi(\frac{x-\mu}{\sigma})}{\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma})}\]
其中
\[\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\]
即为标准正态分布的密度函数
\[\Phi(x)=\int_{-\infty}^x\phi(t)dt\]
即为标准正态分布的累积分布函数

有其均值为
\[E(X)=\mu+\frac{\phi(\frac{a-\mu}{\sigma})-\phi(\frac{b-\mu}{\sigma})}{\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma})}\sigma\]
方差为
\[Var(X)=\sigma^2\left[1+\frac{\frac{a-\mu}{\sigma}\cdot\phi(\frac{a-\mu}{\sigma})-\frac{b-\mu}{\sigma}\cdot\phi(\frac{b-\mu}{\sigma})}{\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma})}-\left(\frac{\phi(\frac{a-\mu}{\sigma})-\phi(\frac{b-\mu}{\sigma})}{\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma})}\right)^2\right]\]


说实话我这里没完全理解你到底想用什么去估计什么,我建议你把问题写成完整的数学问题,或是把你的原版问题拿上来看看

反正我从没听说谁去用一个截断正态的数据去估计原版正态的,更没听说过谁家的随机数生成器在生成正态数据的时候还得限定区间,简直离大谱

7

主题

40

回帖

252

积分

积分
252

显示全部楼层

 楼主| harryzzy 发表于 2022-10-19 12:12
战巡 发表于 2022-10-19 11:40
正态分布的范围是全实数,你要是强行限定了范围是$[0,1]$,那就不是正态分布了,你之前的$\mu$和$\sigma$都 ...

你好,首先非常感谢你给的解答。
我第一次见到截断正态分布,我会再学习弥补一下这方面的内容。
对于一个正态分布为什么要截断,这得从你帮我解答的上个问题说起。这不得不说一下我的具体工作了。
请见:
kuing.cjhb.site/forum.php?mod=viewthread&tid=9622&extra=page%3D1
的11楼
当时你已给出解答。我用你的答案作了各种随机分布,都是成立的。并且已经把这个工作写进文章中了。但后来发现了一个bug(与解答无关,是我这边出的问题),就是G,这个G是表示断层的滑动比例(地震是由断层运动产生的,但断层层面不是整体运动,一部分运动,另一部分不动,G是表示运动的断层面占整个断层面的比例,明显这个比例是在0到1之间的,因为最小就是断层面都不动,最大就是整个断层面都运动,所以G是处于0到1之间的。而上次问的问题中,没有考虑这个区间的影响,也就是说在没有区间限定的情况下,式子就是成立的。但如今需要限定区间,E(G)可能就是不是正态分布意义下的了。于是就有了现在的问题:限定区间的情况)。
你说的原版问题或者我用数学表述。这个我还没能力用准确的数学语言准确描述,另外这是我工作中抽象出的问题。我为尽量说清楚是怎么一回事,只能用文字啰嗦着说了。见谅。

27

主题

1010

回帖

1万

积分

积分
12585

显示全部楼层

战巡 发表于 2022-10-19 12:17
本帖最后由 战巡 于 2022-10-19 14:03 编辑
harryzzy 发表于 2022-10-19 12:12
你好,首先非常感谢你给的解答。
我第一次见到截断正态分布,我会再学习弥补一下这方面的内容。
对于一个 ...


如果你的数据本来就是有限定范围的,那根本不建议用正态去拟合,在$[0,1]$内的分布有的是,比如$\beta$分布之类的

而你这里如果这是个比例(或者说是概率),统计上也有的是办法处理
常见的办法,可以做logit变换,比如$p\in[0,1]$,则令$X=\ln(\frac{p}{1-p})$,这样就可以有$X\in\mathbb{R}$,然后再正态拟合
另外还有probit、log-log之类的变换,核心原理都差不多,都是想办法把$[0,1]$内的量变换成一个可以取全实数的量

7

主题

40

回帖

252

积分

积分
252

显示全部楼层

 楼主| harryzzy 发表于 2022-10-19 14:08
战巡 发表于 2022-10-19 12:17
如果你的数据本来就是有限定范围的,那根本不建议用正态去拟合,在$[0,1]$内的分布有的是,比如$\beta$分 ...

好的,我再看看β分布。谢谢
其实这是我的一个知识上盲区:即一组随机数的数目非常大的时候,是不是就近似符合正态分布(中心极限定理)?但我这个工作中这组随机数是有个限定区间的,这种情况下是否符合截断的正态分布?这是我的一个知识盲区。
我这个工作中G起始不知道它具体符合什么分布,我就是按中心极限定理,才往正态分布上靠的。
上述看法是否正确,请批评指正。

27

主题

1010

回帖

1万

积分

积分
12585

显示全部楼层

战巡 发表于 2022-10-19 15:33
本帖最后由 战巡 于 2022-10-20 10:41 编辑
harryzzy 发表于 2022-10-19 14:08
好的,我再看看β分布。谢谢
其实这是我的一个知识上盲区:即一组随机数的数目非常大的时候,是不是就近 ...


不是的,数量再大的数据也不会趋向某个特定分布,你误解了中心极限定理

中心极限定理有好多种,但不管哪个都不是在说大数据量情况下,数据本身会趋向正态,我这里只介绍最常见的一个

林德伯格-勒维中心极限定理:
令$X_1,X_2,...,X_n$为独立同分布的抽样,且其分布具有有限值的均值$\mu$和方差$\sigma^2$(注意该分布不一定是正态,这个可以是任意具有有限值均值、方差的分布),则在$n\to\infty$的情况下,会有
\[\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\to N(0,1)\]
或写作
\[\bar{X}\to N(\mu,\frac{\sigma^2}{n})\]
也就是说它的样本均值的分布,会趋向正态,而不是说样本本身趋向正态
你首先要明白,抽样具有随机性,样本的均值,也是一个随机变量,也会服从某个分布,中心极限定理说的是不管样本本身服从什么样的分布,样本均值的分布,在样本量足够大的情况下,都会趋于正态


再补充一段:
你可能看到过有些分布在$n$很大时会趋于正态,我估计是楼主把这个跟中心极限定理搞混了
的确有这样的分布,比如二项分布、$\chi^2$分布、$t$分布等,但这只是这些分布自己的性质,不是所有分布都具备这些性质
比如你弄个均匀分布,那无论如何都不趋于正态

413

主题

1558

回帖

1万

积分

积分
11498

显示全部楼层

abababa 发表于 2022-10-19 16:39
战巡 发表于 2022-10-19 15:33
不是的,数量再大的数据也不会趋向某个特定分布,你误解了中心极限定理

中心极限定理有好多种,但不管哪 ...

虽然我不懂,但是这个到是听说过,中心极限定理指的不是样本本身,而是对样本的某个统计量。无论样本本身是怎么分布的,当足够多时,那个统计量都会趋于正态分布。

手机版|悠闲数学娱乐论坛(第3版)

GMT+8, 2025-3-4 21:38

Powered by Discuz!

× 快速回复 返回顶部 返回列表