凸优化 · 数值分析默写卷

填空凸集的定义：集合 \(C\) 是凸集，当且仅当

\(\forall x,y\in C,\,\forall\theta\in[0,1]:\,\theta x+(1-\theta)y\in C\)

填空凸函数的定义（用不等式）及一阶、二阶判别条件：

定义：\(f(\theta x+(1-\theta)y)\le\theta f(x)+(1-\theta)f(y)\)，\(\forall x,y\in\mathrm{dom}\,f,\,\theta\in[0,1]\)。

一阶条件（\(f\) 可微）：\(f(y)\ge f(x)+\nabla f(x)^T(y-x)\)，\(\forall x,y\)。

二阶条件（\(f\) 二阶可微）：\(\nabla^2 f(x)\succeq 0\)，\(\forall x\in\mathrm{dom}\,f\)。

证明设 \(f:\mathbb{R}^n\to\mathbb{R}\) 凸，\(x\in\mathrm{int\,dom}\,f\)，证明次梯度集 \(\partial f(x)\) 非空且有界。

非空：考虑 \(\mathbb{R}^{n+1}\) 中的集合 \(\mathrm{epi}(f)=\{(x,t):f(x)\le t\}\)（凸集）和点 \((x,f(x))\in\partial\,\mathrm{epi}(f)\)。由支撑超平面定理，存在 \((g,\mu)\neq0\) 使 \(g^T(y-x)+\mu(t-f(x))\le0\) 对所有 \((y,t)\in\mathrm{epi}(f)\)。取 \(t\to+\infty\) 得 \(\mu\le0\)；若 \(\mu=0\) 则 \(g=0\)（矛盾），故 \(\mu<0\)，令 \(s=-g/\mu\)，则 \(s\in\partial f(x)\)。

有界：因 \(x\in\mathrm{int\,dom}\,f\)，存在 \(\delta>0\) 使 \(B(x,\delta)\subset\mathrm{dom}\,f\)，\(f\) 在 \(B\) 上有上界 \(M\)。对任意 \(g\in\partial f(x)\) 和 \(\|d\|=1\)：\(f(x+\delta d)\ge f(x)+\delta g^Td\)，故 \(g^Td\le(M-f(x))/\delta\)，即 \(\|g\|\le(M-f(x))/\delta\)。

证明/推导（参考 QE25A 第7题）设 \(K\subset\mathbb{R}^n\) 为非空闭凸集，\(\Pi_K(z)=\arg\min_{y\in K}\frac{1}{2}\|y-z\|^2\)。证明：\(\langle z-\Pi_K(z),\,d-\Pi_K(z)\rangle\le0\)，\(\forall d\in K\)。

设 \(x^*=\Pi_K(z)\)，对任意 \(d\in K\) 和 \(t\in[0,1]\)，由 \(K\) 的凸性，\(x^*+t(d-x^*)\in K\)。

由 \(x^*\) 的最优性：\(\frac{1}{2}\|x^*+t(d-x^*)-z\|^2\ge\frac{1}{2}\|x^*-z\|^2\)。

展开：\(t^2\|d-x^*\|^2 + 2t\langle x^*-z,d-x^*\rangle\ge0\)，除以 \(t>0\) 后令 \(t\to0^+\)： \[\langle x^*-z,d-x^*\rangle\ge0\] 即 \(\langle z-\Pi_K(z),d-\Pi_K(z)\rangle\le0\)。

填空次梯度的定义：\(g\in\partial f(x)\) 当且仅当

\(f(y)\ge f(x)+g^T(y-x),\quad\forall y\in\mathrm{dom}\,f\)

填空写出 \(f(x)=\|x\|_1\) 的次梯度集 \(\partial f(x)\)：

\((\partial\|x\|_1)_i = \begin{cases}\{1\} & x_i>0\\ \{-1\} & x_i<0\\ [-1,1] & x_i=0\end{cases}\) 即 \(\partial\|x\|_1 = \{g:\,g_i=\mathrm{sign}(x_i)\text{ 若 }x_i\neq0,\,g_i\in[-1,1]\text{ 若 }x_i=0\}\)。

证明/计算计算 proximal 算子：给定 \(y\in\mathbb{R}^n,\lambda>0\)，求 \[\mathrm{prox}_{\lambda\|\cdot\|_1}(y) = \arg\min_x\frac{1}{2}\|x-y\|_2^2+\lambda\|x\|_1\] 的闭式解（软阈值算子）。

问题可分离，对每个分量独立求解：\(\min_{x_i}\frac{1}{2}(x_i-y_i)^2+\lambda|x_i|\)。

最优性条件（次梯度为零）：\(x_i - y_i + \lambda\partial|x_i|\ni 0\)。

分情况：若 \(x_i>0\)：\(x_i=y_i-\lambda\)，需 \(y_i>\lambda\)；若 \(x_i<0\)：\(x_i=y_i+\lambda\)，需 \(y_i<-\lambda\)；若 \(x_i=0\)：需 \(|y_i|\le\lambda\)。

故软阈值算子：\(x_i^* = \mathcal{S}_\lambda(y_i) = \mathrm{sign}(y_i)\max(|y_i|-\lambda,0)\)。

填空原问题 \(\min f_0(x)\) s.t. \(f_i(x)\le0,\,h_j(x)=0\) 的 Lagrange 函数和对偶函数：

\(L(x,\lambda,\nu) =\)

\(g(\lambda,\nu) =\)

\[L(x,\lambda,\nu) = f_0(x)+\sum_i\lambda_i f_i(x)+\sum_j\nu_j h_j(x)\] \[g(\lambda,\nu) = \inf_x L(x,\lambda,\nu)\] 对偶问题：\(\max g(\lambda,\nu)\) s.t. \(\lambda\ge0\)。

证明弱对偶定理：对偶最优值 \(d^*\le\) 原问题最优值 \(p^*\)。

对任意可行 \(\tilde x\)（满足约束）和 \(\lambda\ge0\)： \[g(\lambda,\nu)\le L(\tilde x,\lambda,\nu) = f_0(\tilde x)+\underbrace{\sum\lambda_i f_i(\tilde x)}_{\le0}+\underbrace{\sum\nu_j h_j(\tilde x)}_{=0}\le f_0(\tilde x)\] 对 \(\tilde x\) 取下确界得 \(g(\lambda,\nu)\le p^*\)，再对 \(\lambda,\nu\) 取上确界得 \(d^*\le p^*\)。

填空 KKT 条件（原问题凸时为最优性充要条件）：

① 原始可行性：\(f_i(x^*)\le0,\,h_j(x^*)=0\)
② 对偶可行性：\(\lambda_i^*\ge0\)
③ 互补松弛：\(\lambda_i^* f_i(x^*)=0\)
④ 稳定性（梯度条件）：\(\nabla f_0(x^*)+\sum_i\lambda_i^*\nabla f_i(x^*)+\sum_j\nu_j^*\nabla h_j(x^*)=0\)

证明设 \(f\) 凸可微，证明 \(f\) 的一阶条件：\(f(y)\ge f(x)+\nabla f(x)^T(y-x)\) 对所有 \(x,y\) 成立。

由凸性，对 \(t\in(0,1]\)：\(f(x+t(y-x))\le(1-t)f(x)+tf(y)\)，即 \(\frac{f(x+t(y-x))-f(x)}{t}\le f(y)-f(x)\)。
令 \(t\to0^+\)，左边趋于 \(\nabla f(x)^T(y-x)\)，故 \(\nabla f(x)^T(y-x)\le f(y)-f(x)\)。

证明设 \(f\) 二阶可微，证明 \(f\) 凸 \(\Leftrightarrow\) \(\nabla^2 f(x)\succeq0\) 对所有 \(x\)。

\(\Rightarrow\)：由一阶条件，\(f(x+td)\ge f(x)+t\nabla f(x)^Td\) 和 \(f(x)\ge f(x+td)+(-t)\nabla f(x+td)^Td\)，两式相加除以 \(t^2\) 令 \(t\to0\) 得 \(d^T\nabla^2f(x)d\ge0\)。

\(\Leftarrow\)：由 Taylor 展开，\(f(y)=f(x)+\nabla f(x)^T(y-x)+\frac{1}{2}(y-x)^T\nabla^2f(\xi)(y-x)\ge f(x)+\nabla f(x)^T(y-x)\)（因 \(\nabla^2f\succeq0\)），由一阶条件等价性得 \(f\) 凸。

证明设 \(f\) 凸，\(x^*\) 是局部极小值点，证明 \(x^*\) 也是全局极小值点。

反设存在 \(y\) 使 \(f(y) < f(x^*)\)。对 \(t\in(0,1)\)，令 \(z=x^*+t(y-x^*)\)，由凸性：
\(f(z)\le(1-t)f(x^*)+tf(y) < f(x^*)\)。
当 \(t\to0\) 时 \(z\to x^*\)，故在 \(x^*\) 的任意邻域内存在函数值更小的点，与 \(x^*\) 是局部极小矛盾。

证明（QE25A 第7题续）定义 \(\Theta(z)=\frac{1}{2}\|z-\Pi_K(z)\|^2\)，证明 \(\Theta\) 是凸函数且 \(\nabla\Theta(z)=z-\Pi_K(z)\)。

梯度：对 \(z\) 的扰动 \(\delta z\)，令 \(p=\Pi_K(z)\)，\(p'=\Pi_K(z+\delta z)\)：
\(\Theta(z+\delta z)-\Theta(z)=\frac{1}{2}\|z+\delta z-p'\|^2-\frac{1}{2}\|z-p\|^2\)
\(\ge\frac{1}{2}\|z+\delta z-p\|^2-\frac{1}{2}\|z-p\|^2\)（\(p'\) 是最优点）
\(=\langle z-p,\delta z\rangle+O(\|\delta z\|^2)\)
类似地 \(\Theta(z+\delta z)-\Theta(z)\le\langle z+\delta z-p',\delta z\rangle+O(\|\delta z\|^2)=\langle z-p,\delta z\rangle+O(\|\delta z\|^2)\)（利用投影的非扩张性 \(\|p'-p\|\le\|\delta z\|\)）。
故 \(\nabla\Theta(z)=z-\Pi_K(z)\)。

凸性：\(\Theta(z)=\min_{y\in K}\frac{1}{2}\|z-y\|^2\) 的补函数 \(\frac{1}{2}\|z\|^2-\Theta(z)=\max_{y\in K}[\langle z,y\rangle-\frac{1}{2}\|y\|^2]\) 是凸函数（逐点上确界），故 \(\Theta\) 是凸函数（\(\frac{1}{2}\|z\|^2\) 减去凸函数不一定凸，但可直接用 \(\nabla^2\Theta\succeq0\) 验证，或用 \(\Pi_K\) 的非扩张性证明 \(\nabla\Theta\) 单调）。

证明（QE25A 第7题）设 \(\min\|y\|_2+\gamma\|x\|_1\) s.t. \(Ax-b=y\) 的最优解为 \((x^*,y^*)\)，\(r=y^*/\|y^*\|_2\)（设 \(y^*\neq0\)）。证明 \(\|A^Tr\|_\infty\le\gamma\)。

Lagrange 函数：\(L=\|y\|_2+\gamma\|x\|_1+\lambda^T(Ax-b-y)\)。

KKT 稳定性条件：
对 \(y\)：\(\partial_y L\ni0\Rightarrow\frac{y^*}{\|y^*\|_2}-\lambda=0\Rightarrow\lambda=r\)。
对 \(x\)：\(\partial_x L\ni0\Rightarrow A^T\lambda\in\gamma\partial\|x^*\|_1\Rightarrow A^Tr\in\gamma\partial\|x^*\|_1\)。

由次梯度定义，\(\partial\|x\|_1\) 的每个分量在 \([-1,1]\) 内，故 \(\|A^Tr\|_\infty=\|A^Tr\|_\infty\le\gamma\cdot1=\gamma\)。

证明/推导考虑问题 \(\min_{x\in\mathbb{R}^n}\|Cx-d\|_2^2 + \mu\|x\|_2^2\)（岭回归，\(\mu>0\)，\(C\in\mathbb{R}^{m\times n}\)）。
(a) 写出等价约束形式 \(\min\|y\|_2^2+\mu\|x\|_2^2\) s.t. \(Cx-d=y\)，推导 Lagrange 对偶函数 \(g(\lambda)\)。
(b) 写出对偶问题，并证明强对偶成立（\(d^*=p^*\)）。
(c) 由 KKT 条件推导原问题的闭式解 \(x^*=(C^TC+\mu I)^{-1}C^Td\)。

(a) Lagrange 函数：\(L(x,y,\lambda)=\|y\|_2^2+\mu\|x\|_2^2+\lambda^T(Cx-d-y)\)。
对 \(x\) 最小化：\(\nabla_x L=2\mu x+C^T\lambda=0\Rightarrow x=-\frac{1}{2\mu}C^T\lambda\)。
对 \(y\) 最小化：\(\nabla_y L=2y-\lambda=0\Rightarrow y=\frac{\lambda}{2}\)。
代入：\(g(\lambda)=-\frac{1}{4\mu}\|C^T\lambda\|_2^2-\frac{1}{4}\|\lambda\|_2^2-\lambda^Td\)。

(b) 对偶问题：\(\max_\lambda g(\lambda)\)（无约束，因原变量无约束）。
原问题为凸问题且无约束（Slater 条件自动满足），故强对偶成立。

(c) KKT 稳定性条件：\(2\mu x^*+C^T\lambda^*=0\)，\(2y^*-\lambda^*=0\)，原始可行：\(Cx^*-d=y^*\)。
由前两式：\(\lambda^*=2y^*=2(Cx^*-d)\)，代入第一式：\(2\mu x^*+2C^T(Cx^*-d)=0\)，
即 \((C^TC+\mu I)x^*=C^Td\)，故 \(x^*=(C^TC+\mu I)^{-1}C^Td\)（\(C^TC+\mu I\) 正定，可逆）。

第 10 章：凸优化基础

10.1 凸集与凸函数

10.2 次梯度

10.3 Lagrange 对偶

10.4 原创练习题

10.5 原创综合题