t分布的90%区间90 % of the t distribution
文章讲述了统计学家William Sealy Gosset的故事,他在吉尼斯啤酒厂工作时改进了当时的统计方法,并发明了t分布等至今仍广泛使用的新统计方法。由于保密要求,他以笔名Student发表成果。
kqr
威廉·西利·戈塞特确实了不起。他利用当时的统计方法改进了吉尼斯啤酒的酿造工艺,还不满足于此,又发明了新的统计方法来酿出更佳的啤酒。如今他所发明的这些方法被广泛应用,但吉尼斯公司希望将其作为秘密武器,因此让他以“学生”(Student)这个假名发表成果。
戈塞特意识到,若仅通过样本标准差计算均值的90%置信区间,并假设服从正态分布(如下式),这种做法是错误的:
\[\hat{\mu} \pm 1.645 \hat{\sigma}\]
这样做会导致置信区间过窄,因为我们虽然承认\(\hat{\mu}\)只是近似值,却错误地认为\(\sigma = \hat{\sigma}\)是确定的!
戈塞特根据估计置信区间时使用的样本数量,提出了修正表,以反映我们对\(\hat{\sigma}\)估计的不确定性。以下是一些便于记忆的舍入后的实用值:
使用这张表时,先确定标准差估计基于多少样本,将标准差估计值\(\hat{\sigma}\)乘以修正因子,再乘以1.645即可得到90%置信区间。若样本数超过20,则直接用朴素的标准差估计计算90%置信区间已足够准确。
例如,若有7个样本,得出均值为32分钟、标准差为8分钟的估计,我们不应将90%置信区间视为:
\[ 32 \pm 8×1.645\]
而应修正为:
\[32 \pm 8×1.2×1.645\]
即使仅有7个样本,实际的90%置信区间与朴素结果已非常接近,仅因修正因子1.2显得稍窄。样本越少,对标准差的估计不确定性越大,置信区间也应相应更宽。更高置信度(如95%或99%)的区间经学生t校正后会显著加宽。
此表针对90%置信区间,因我最常需要这种精度。戈塞特并未提出具体的近似表格,而是发明了完整的学生t分布,让我们能生成任意所需的修正因子表。
基于两个值的变异情况
尽管上述表格是获取90%置信区间的关键,但我们也可用类似技术,仅凭两个样本粗略估计标准差。两个值的样本标准差公式为:
\[\frac{\left(\mathrm{high} - \mathrm{low}\right)}{\sqrt{2}}\]
由于仅依赖两个值,该结果严重低估真实标准差。但一个标准差对应t分数1.846,故可将上述结果乘以该系数,得到更优的标准差近似值。
为方便记忆,若舍去常数项,则通过t分布修正后的标准差估计应为两数值间距的1.3倍——这一方法在实践中极为有用!
使用方法示例
想必你遇到过类似场景:“49升的结果是否合理?”
当然你不知道,于是反问:“和什么比较?”
对方可能回答:“和43升相比!”
这听起来确实很厉害,但你可别想让我就此放过你,于是你嚷道:“这些数字毫无意义,因为我根本不知道流程本身存在的波动性!再给我一个典型结果!”
他们可能就会回答“呃,47升。”
这时你放松警惕,心想:“哦,49升比两个典型结果都高,太棒了!”
然后我就开始训斥你!
所以你只好动脑思考。
你得到了两个典型数值:43和47。它们虽不能完全揭示内在波动性,但能提供一些线索。两者之间的差值是4。若乘以1.3,我们就能估算出标准差约为5升。这意味着49升距离中点45升不到一个标准差,属于正常范围,既不算特别好也不算特别差。
需要完整排版与评论请前往来源站点阅读。