0%

无监督学习-1-密度估计

密度估计

密度估计是一类重要的无监督学习方法,通过从分布 中观测得到的独立同分布的样本集合 ,我们估计 的概率分布

密度估计本质上是仍然是参数估计问题,可以使用MLE解决,即

然而上述优化问题要在无穷大的解空间

上求解,这几乎不可解。

因此有三种解决方案来规避上述问题:

  • 参数化密度估计
  • 无参密度估计
  • 核方法

参数化密度估计

参数化即预先给定数据一个分布,并且通过MLE去学习分布。假设数据 服从高斯分布 , 即

使用MLE求解,有

可得

无参密度估计

无参密度估计中的一个代表是Histograms,即将密度以直方图的形式展现。

Histograms 算法

为方便讨论,不失一般性,假设数据分布在 上, 将数据分成 组,

计算每组中数据元素个数

密度估计为

正确性

要说明算法正确性,需要验证该函数是否是一个概率密度函数。不难验证

因此这是一个概率密度函数,正确性得证。

推导

定义在集合 上的分段概率密度为

上式可被改写为

且满足

当分为 段时,有

为了估计 ,使用 MLE

展开 log likelihood 可得

使用拉格朗日乘子法

由一阶条件(导数为0)可得

超参选取

另一个问题是如何选取超参数 。一个直觉的想法是最小化均方误差

其中 是预测分布, 是真实分布。展开可得

因为 独立于 ,我们有

即 MSE 由方差项和误差项的平方组成,我们接下来分别考虑这两项。

由于 服从二项分布

不失一般性,假设 。则

首先考虑误差项:

当真实分布满足 条件

增大时,误差减小

然后考虑方差项 :

其中 。当 足够大时,有 , 则

假设 有上界 , 即 ,则有

综上所述,有

由于 均非负,最小值在关键点处取得,即

解得

因此有

因此有收敛性保证