0%

优化-6-对偶

带约束的优化问题

在本章中,我们主要考虑一类带约束的优化问题,即

乘子法 Lagrange Multiplier Method

在前面的章节中我的提到,可以使用指示函数来将带约束的优化问题转化为无约束的优化问题。构造指示函数

于是原优化目标可以转化为其无约束形式

我们可以使用线性函数 来近似 ; 类似地,使用 来近似

于是我们得到

我们称上式为 Lagrangian, 其中 被称为拉格朗日乘子。记

通过 最小化 ,得到

于是我们得到拉格朗日对偶优化问题

由于 对任意的 都成立,因此对偶问题的解是原问题的解的下界,并且对偶问题永远是凹的(当 确定后,对偶问题无外乎若干个线性函数的和),因此可以得到一个良好的求解性质。

矩阵分解 Matrix Factorization

一类常见的带约束的优化问题是矩阵分解问题,即

其中

Example: K-means

K-means 聚类也可以被描述为一个矩阵分解问题,即

非凸

矩阵分解问题是非凸的。举一个最简单的例子,不妨设 ,则优化目标

是非凸的,其图像为沿着两个变量的鞍函数。

对偶梯度上升 Dual Gradient Ascent

类似梯度下降法,凹的对偶问题可以使用梯度上升法求解。对于 的约束,使用投影法,因此我们可以得到迭代式

作为次梯度算法,其收敛率为

共轭函数 Fenchel Conjugate

定义

我们首先给出共轭函数的定义:

性质

  1. 是凸函数( 可以不是凸的)
  2. Fenchel’s Inequality:
  3. 可分性:如果 ,则

计算

一些常见的共轭函数如下:

  • 二次函数: ()
  • 负熵:
  • 负对数:
  • 范数: ( 其对偶范数为 )

一些常见的性质如下:

  • 可分性:
  • 标量乘性:

关于共轭函数计算的更多内容可以参考 Conjugate Functions

Fenchel Duality

如果 是凸函数, 是凹函数,则

证明如下,使用拉格朗日对偶性和共轭函数定义:

Example: Generalized Linear Model

考虑由凸函数 组成的优化目标

有拉格朗日对偶函数

于是得到对偶问题

Example: Lasso

考虑 Lasso 优化目标

,则有共轭函数

应用 Fenchel Duality 的 Generalized Linear Model 形式,得到对偶问题