平均偏差怎么计算_平均偏差怎么计算_平均偏差怎么计算

统计领域为我们提供了很多工具来实现机器学习目标,不仅可以解决训练集上的任务,还可以泛化。基本的概念,例如参数估计、偏差和方差,对于正式地刻画泛化、欠拟合和过拟合都非常有帮助。

一、点估计

点估计试图为一些感兴趣的量提供单个“最优”预测。一般地,感兴趣的量可以是单个参数,或是某些参数模型中的一个向量参数,例如线性回归中的权重,但是也有可能是整个函数。

为了区分参数估计和真实值,我们习惯将参数θ的点估计表示为

是m个独立同分布(i.i.d.)的数据点。点估计 (point estimator)或统计量 (statistics)是这些数据的任意函数:

这个定义不要求g返回一个接近真实θ的值,或者g的值域恰好是θ的允许取值范围。点估计的定义非常宽泛,给了估计量的设计者极大的灵活性。虽然几乎所有的函数都可以称为估计量,但是一个良好的估计量的输出会接近生成训练数据的真实参数θ。

现在,我们采取频率派在统计上的观点。换言之,我们假设真实参数θ是固定但未知的,而点估计

是数据的函数。由于数据是随机过程采样出来的,数据的任何函数都是随机的,因此

是一个随机变量。

点估计也可以指输入和目标变量之间关系的估计,我们将这种类型的点估计称为函数估计。

函数估计 有时我们会关注函数估计(或函数近似)。这时我们试图从输入向量x预测变量y。假设有一个函数f(x)表示y和x之间的近似关系。例如,我们可能假设

,其中

是y中未能从x预测的一部分。在函数估计中,我们感兴趣的是用模型估计去近似f,或者估计

。函数估计和估计参数θ是一样的,函数估计

是函数空间中的一个点估计。线性回归示例和多项式回归示例都既可以被解释为估计参数w,又可以被解释为估计从x到y的函数映射

现在我们回顾点估计最常研究的性质,并探讨这些性质说明了估计的哪些特点。

二、偏差

估计的偏差被定义为

其中期望作用在所有数据(看作从随机变量采样得到的)上,θ是用于定义数据生成分布的θ的真实值。如果

,那么估计量

被称为是无偏 (unbiased),这意味着

。如果

,那么估计量

被称为是渐近无偏 (asymptotically unbiased),这意味着

示例:伯努利分布 考虑一组服从均值为θ的伯努利分布的独立同分布的样本

这个分布中参数θ的常用估计量是训练样本的均值:

平均偏差怎么计算_平均偏差怎么计算_平均偏差怎么计算

判断这个估计量是否有偏,我们将式(5.22)代入式(5.20):

平均偏差怎么计算_平均偏差怎么计算_平均偏差怎么计算

因为bias(

)=0,我们称估计

是无偏的。

示例:均值的高斯分布估计 现在,考虑一组独立同分布的样本

服从高斯分布

,其中

。回顾高斯概率密度函数如下:

平均偏差怎么计算_平均偏差怎么计算_平均偏差怎么计算

高斯均值参数的常用估计量被称为样本均值 (sample mean):

平均偏差怎么计算_平均偏差怎么计算_平均偏差怎么计算

判断样本均值是否有偏,我们再次计算它的期望:

平均偏差怎么计算_平均偏差怎么计算_平均偏差怎么计算

因此我们发现样本均值是高斯均值参数的无偏估计量。

示例:高斯分布方差估计 本例中,我们比较高斯分布方差参数σ 2 的两个不同估计。我们探讨是否有一个是有偏的。

我们考虑的第一个方差估计被称为样本方差 (sample variance):

平均偏差怎么计算_平均偏差怎么计算_平均偏差怎么计算

其中

是样本均值。更形式化地,我们对计算感兴趣

我们首先估计项

平均偏差怎么计算_平均偏差怎么计算_平均偏差怎么计算

回到式(5.37),我们可以得出

的偏差是

。因此样本方差是有偏估计。

无偏样本方差 (unbiased sample variance)估计:

平均偏差怎么计算_平均偏差怎么计算_平均偏差怎么计算

提供了另一种可选方法。正如名字所言,这个估计是无偏的。换言之,我们会发现

平均偏差怎么计算_平均偏差怎么计算_平均偏差怎么计算

我们有两个估计量:一个是有偏的,另一个是无偏的。尽管无偏估计显然是令人满意的,但它并不总是“最好”的估计。我们将看到,经常会使用其他具有重要性质的有偏估计。

三、方差和标准差

我们有时会考虑估计量的另一个性质是它作为数据样本的函数,期望的变化程度是多少。正如我们可以计算估计量的期望来决定它的偏差,我们也可以计算它的方差。估计量的方差 (variance)就是一个方差:

其中随机变量是训练集。另外,方差的平方根被称为标准差 (standard error),记作SE(

)。

估计量的方差或标准差告诉我们,当独立地从潜在的数据生成过程中重采样数据集时,如何期望估计的变化。正如我们希望估计的偏差较小,我们也希望其方差较小。

当我们使用有限的样本计算任何统计量时,真实参数的估计都是不确定的,在这个意义下,从相同的分布得到其他样本时,它们的统计量也会不一样。任何方差估计量的期望程度是我们想量化的误差的来源。

均值的标准差被记作

平均偏差怎么计算_平均偏差怎么计算_平均偏差怎么计算

其中σ 2 是样本x (i) 的真实方差。标准差通常被记作σ。可惜,样本方差的平方根和方差无偏估计的平方根都不是标准差的无偏估计。这两种计算方法都倾向于低估真实的标准差,但仍用于实际中。相较而言,方差无偏估计的平方根较少被低估。对于较大的m,这种近似非常合理。

均值的标准差在机器学习实验中非常有用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本的数量决定了这个估计的精确度。中心极限定理告诉我们均值会接近一个高斯分布,我们可以用标准差计算出真实期望落在选定区间的概率。例如,以均值

为中心的95%置信区间是

以上区间是基于均值

和方差

的高斯分布。在机器学习实验中,我们通常说算法A比算法B好,是指算法A的误差的95%置信区间的上界小于算法B的误差的95%置信区间的下界。

示例:伯努利分布 我们再次考虑从伯努利分布(回顾

中独立同分布采样出来的一组样本

限时特惠:本站每日持续更新5-20节内部创业项目课程,一年会员
只需199元,全站资源免费下载点击查看详情
站长微信:
jjs406

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注