0%

Linear ICA

Linear ICA

在上一章中我们介绍了 ICA 的理论分析。在本章中,我们主要介绍 Linear ICA 的解法。

回顾

回顾上一章中 linear ICA 的理论:

定理:对于未知的独立非高斯源信号 和已知混合信号 ,假设他们满足未知线性关系 ,如果存在矩阵 使得

其中 均可逆, 且 各分量独立,则生成过程是 Componentwise Identifiable 的,且 可以从 通过排列变换 和 component-wise 线性变换 得到。

对于给定的混合变量 ,如果我们能得到这样的一个可逆的混合矩阵 及各分量独立的源信号 ,我们就能认为 是混合过程 和源信号 的良好估计,即是真实值的一个排列和线性变换。

接下来的问题就是,如何找到这个混合矩阵以及对应的源信号?

MLE

我们可以通过最大似然估计来找到 。不妨设 ,即 ,则似然函数为

其中 的密度函数, 的第 个样本。当 已知时,就可以通过最大似然来找到 ,从而确定

非高斯性

但在实际应用中,我们往往不知道 的分布,因此使用 MLE 并不总是有效。从另一个视角出发,我们知道 各分量是独立的,通过构造一个独立性的度量,我们可以通过优化这个度量来找到最优的

根据中心极限定理,独立的随机变量之和会趋向于高斯分布,因此多个独立的随机变量之和会比其中任意一个更像高斯。换言之,对于 的任一分量 ,当只与某个源信号 相关时,其非高斯性最大。因此 的非高斯性和独立性是一致的,要使 独立,即要最大化其非高斯性。

峰度 Kurtosis

峰度用于度量随机变量分布的陡峭程度,其定义为

当峰度大于 时,表示随机变量分布比高斯更陡峭;当峰度小于 时,表示随机变量分布比高斯更平缓。对于绝大多数的分布而言,峰度都是非 的,因此峰度的绝对值或平方可以用来度量随机变量的非高斯性。尽管存在非高斯的分布峰度也可能为 ,但这种情况很少见。

负熵 Negentropy

在实践中,尽管峰度易于计算,但峰度往往会受到离群点的影响,这使得这一度量的鲁棒性有所缺失。因此,我们可以使用负熵来度量随机变量的非高斯性,其定义为

其中 是和 协方差相同的高斯分布,且

为随机变量 的熵。

信息论告诉我们,高斯分布在等方差的分布中具有最大的熵,因此我们可以将负熵作为非高斯性的度量。根据定义,负熵总是非负的,负熵为 当且仅当分布是高斯的。

负熵常被认为是最好的非高斯性度量。与峰度恰恰相反,负熵对非高斯性的度量相较于峰度更为精确,但其计算代价也要更高。

因此,在实践中我们往往使用近似方法来计算负熵。一种方法是使用高阶矩,当随机变量 具有 均值和单位方差时,可以使用如下方法近似

这一方法对分布的限制过强,因此在实践中我们往往使用第二种方法,Aapo 1998 中给出了如下近似

其中 具有 均值和单位方差, 是具有 均值和单位方差的高斯分布, 是一个非线性函数。作者给出了一些常用的 的选择,如

这样一来,计算负熵的代价就大大降低了。

互信息 Mutual Information

独立性在信息论中天然的度量是互信息,即

要使得估计的源信号尽可能独立,我们即希望互信息 尽可能小。

由于 ,当 为旋转矩阵时, 为定值。此时目标等价于最大化各分量的负熵,即

在实现时,为了方便求解,需要先对数据先进行中心化和白化,使得均值为 且协方差为单位矩阵。这样就得到了一组不相关的表示,再对这些表示进行旋转,使得各分量的负熵最大。

Reference

  1. Independent Component Analysis: Algorithms and Applications