Linear ICA
在上一章中我们介绍了 ICA 的理论分析。在本章中,我们主要介绍 Linear ICA 的解法。
回顾
回顾上一章中 linear ICA 的理论:
定理:对于未知的独立非高斯源信号
和已知混合信号 ,假设他们满足未知线性关系 ,如果存在矩阵 使得 其中
均可逆, 且 各分量独立,则生成过程是 Componentwise Identifiable 的,且 可以从 通过排列变换 和 component-wise 线性变换 得到。
对于给定的混合变量
接下来的问题就是,如何找到这个混合矩阵以及对应的源信号?
MLE
我们可以通过最大似然估计来找到
其中
非高斯性
但在实际应用中,我们往往不知道
根据中心极限定理,独立的随机变量之和会趋向于高斯分布,因此多个独立的随机变量之和会比其中任意一个更像高斯。换言之,对于
峰度 Kurtosis
峰度用于度量随机变量分布的陡峭程度,其定义为
当峰度大于
负熵 Negentropy
在实践中,尽管峰度易于计算,但峰度往往会受到离群点的影响,这使得这一度量的鲁棒性有所缺失。因此,我们可以使用负熵来度量随机变量的非高斯性,其定义为
其中
为随机变量
信息论告诉我们,高斯分布在等方差的分布中具有最大的熵,因此我们可以将负熵作为非高斯性的度量。根据定义,负熵总是非负的,负熵为
负熵常被认为是最好的非高斯性度量。与峰度恰恰相反,负熵对非高斯性的度量相较于峰度更为精确,但其计算代价也要更高。
因此,在实践中我们往往使用近似方法来计算负熵。一种方法是使用高阶矩,当随机变量
这一方法对分布的限制过强,因此在实践中我们往往使用第二种方法,Aapo 1998 中给出了如下近似
其中
这样一来,计算负熵的代价就大大降低了。
互信息 Mutual Information
独立性在信息论中天然的度量是互信息,即
要使得估计的源信号尽可能独立,我们即希望互信息
由于
在实现时,为了方便求解,需要先对数据先进行中心化和白化,使得均值为