⚙️ 工程

t分布的90%区间90 % of the t distribution

文章讲述了统计学家William Sealy Gosset的故事，他在吉尼斯啤酒厂工作时改进了当时的统计方法，并发明了t分布等至今仍广泛使用的新统计方法。由于保密要求，他以笔名Student发表成果。

kqr

威廉·西利·戈塞特确实了不起。他利用当时的统计方法改进了吉尼斯啤酒的酿造工艺，还不满足于此，又发明了新的统计方法来酿出更佳的啤酒。如今他所发明的这些方法被广泛应用，但吉尼斯公司希望将其作为秘密武器，因此让他以“学生”（Student）这个假名发表成果。

戈塞特意识到，若仅通过样本标准差计算均值的90%置信区间，并假设服从正态分布（如下式），这种做法是错误的：

\[\hat{\mu} \pm 1.645 \hat{\sigma}\]

这样做会导致置信区间过窄，因为我们虽然承认\(\hat{\mu}\)只是近似值，却错误地认为\(\sigma = \hat{\sigma}\)是确定的！

戈塞特根据估计置信区间时使用的样本数量，提出了修正表，以反映我们对\(\hat{\sigma}\)估计的不确定性。以下是一些便于记忆的舍入后的实用值：

使用这张表时，先确定标准差估计基于多少样本，将标准差估计值\(\hat{\sigma}\)乘以修正因子，再乘以1.645即可得到90%置信区间。若样本数超过20，则直接用朴素的标准差估计计算90%置信区间已足够准确。

例如，若有7个样本，得出均值为32分钟、标准差为8分钟的估计，我们不应将90%置信区间视为：

\[ 32 \pm 8×1.645\]

而应修正为：

\[32 \pm 8×1.2×1.645\]

即使仅有7个样本，实际的90%置信区间与朴素结果已非常接近，仅因修正因子1.2显得稍窄。样本越少，对标准差的估计不确定性越大，置信区间也应相应更宽。更高置信度（如95%或99%）的区间经学生t校正后会显著加宽。

此表针对90%置信区间，因我最常需要这种精度。戈塞特并未提出具体的近似表格，而是发明了完整的学生t分布，让我们能生成任意所需的修正因子表。

尽管上述表格是获取90%置信区间的关键，但我们也可用类似技术，仅凭两个样本粗略估计标准差。两个值的样本标准差公式为：

\[\frac{\left(\mathrm{high} - \mathrm{low}\right)}{\sqrt{2}}\]

由于仅依赖两个值，该结果严重低估真实标准差。但一个标准差对应t分数1.846，故可将上述结果乘以该系数，得到更优的标准差近似值。

为方便记忆，若舍去常数项，则通过t分布修正后的标准差估计应为两数值间距的1.3倍——这一方法在实践中极为有用！

想必你遇到过类似场景：“49升的结果是否合理？”

当然你不知道，于是反问：“和什么比较？”

对方可能回答：“和43升相比！”

这听起来确实很厉害，但你可别想让我就此放过你，于是你嚷道：“这些数字毫无意义，因为我根本不知道流程本身存在的波动性！再给我一个典型结果！”

他们可能就会回答“呃，47升。”

这时你放松警惕，心想：“哦，49升比两个典型结果都高，太棒了！”

然后我就开始训斥你！

所以你只好动脑思考。

你得到了两个典型数值：43和47。它们虽不能完全揭示内在波动性，但能提供一些线索。两者之间的差值是4。若乘以1.3，我们就能估算出标准差约为5升。这意味着49升距离中点45升不到一个标准差，属于正常范围，既不算特别好也不算特别差。

需要完整排版与评论请前往来源站点阅读。