Temel Kavramlar
이 문서는 1차 최적화 방법을 사용하여 볼록 함수의 최소화 문제를 다루며, 기울기 강하, 근접 연산자, 근접 분할 알고리즘과 같은 핵심 개념, 알고리즘 및 수렴 분석을 제공합니다. 또한, 이러한 알고리즘을 비볼록 문제로 확장하는 것에 대해서도 논의합니다.
이 노트는 응용 수학 및 엔지니어링의 여러 분야에서 기본이 되는 1차 최적화 방법을 사용한 볼록 함수의 최소화에 중점을 둡니다. 이 문서의 주요 목표는 가장 고전적인 1차 최적화 알고리즘을 소개하고 분석하는 것입니다. 우리는 독자들에게 이러한 알고리즘이 볼록 함수의 최소값으로 수렴하는 방법과 이유에 대한 실용적이고 이론적인 이해를 제공하는 것을 목표로 합니다.
이 노트에서 다루는 주요 알고리즘에는 기울기 강하, 순방향-역방향 분할, 더글라스-라흐포드 분할, 교대 방향 승수법(ADMM) 및 원시-쌍대 알고리즘이 포함됩니다. 이러한 모든 알고리즘은 함수의 1차 도함수인 기울기와 부차미분만 포함하므로 1차 방법의 클래스에 속합니다. 각 방법에 대해 수렴 정리와 함께 수렴이 유지되는 정확한 가정과 조건을 완전한 증명과 함께 제공합니다.
볼록 최적화를 넘어 이 원고의 마지막 부분에서는 이러한 동일한 1차 방법의 수렴 동작을 더 광범위한 가정에서 논의하는 비볼록 문제로 분석을 확장합니다. 이론을 맥락화하기 위해 이러한 알고리즘이 다양한 이미지 처리 문제에 어떻게 적용되는지 보여주는 실용적인 예도 포함되어 있습니다.
2.1 볼록 함수의 최소값 존재
이 문서 전체에서 E는 내적 ⟨·, ·⟩ 및 놈 ||.|| = ⟨·, ·⟩^(1/2)를 갖춘 유한 차원의 유클리드 벡터 공간입니다. 일반적으로 E = Rd로 간주할 수 있습니다.
정의 1 (도메인). f를 E에서 ¯R = R ∪ +∞로 정의된 함수라고 하자. f의 도메인을 dom(f) = {x ∈ E | f(x) ≠ +∞}로 나타냅니다.
정의 2 (강제성). 함수 f가 강제 함수이면 lim_{∥x∥→+∞} f(x) = +∞입니다.
정의 3 (하한 반연속성, l.s.c). E에서 R ∪ +∞로 정의된 함수 f는 ∀x ∈ E, lim inf_{y→x} f(y) ≥ f(x)이면 하한 반연속(l.s.c)입니다.
정의 4 (고유). E에서 ¯R = R ∪ {±∞}까지의 함수 f는 f(x) < +∞ 및 f(x) > -∞인 ∃x ∈ E, ∀x ∈ E인 경우 고유합니다.
정의 5 (볼록성). f를 E에서 ¯R로 정의된 함수라고 하자. f는 모든 쌍(x, y) ∈ E × E 및 ∀λ ∈ [0, 1]에 대해 f(λx + (1 - λ)y) ≤ λf(x) + (1 - λ)f(y)인 경우 볼록합니다. 부등식이 엄격하면 f는 엄격하게 볼록합니다.
명제 1. f를 ¯R 값을 갖는 E에서 정의된 볼록하고 고유하며 l.s.c이고 강제적인 함수라고 하자. 그러면 f는 아래에서 경계가 지정되고 최소값이 하나 이상 존재합니다. f가 엄격하게 볼록하면 최소값은 고유합니다.
증명. 모든 r ∈ R에 대해 집합 Hr = {x ∈ E | f(x) ≤ r}은 f가 l.s.c이고 f가 강제적이기 때문에 경계가 지정되어 닫힙니다. 그러면 모든 r ∈ R에 대해 집합 Hr은 콤팩트합니다. 집합 H = ∩_{r∈R} Hr은 중첩된 콤팩트 집합의 교차점입니다. f는 고유하므로 H = ∅이고 Hr0이 비어 있는 r0 ∈ R이 존재합니다. 결과적으로 r0은 f의 하한입니다.
다음으로 f는 고유하므로 f(x0) < +∞이고 f(x0) ≠ -∞인 x0 ∈ E가 존재합니다. 집합 H = {x ∈ E | f(x) ≤ f(x0)}는 f가 l.s.c이고 f가 강제적이므로 경계가 지정되어 닫힙니다.
따라서 H는 E의 차원이 유한하기 때문에 콤팩트합니다.
inf_{x∈E} f(x) = inf_{x∈H} f(x) > -∞입니다. f는 아래에서 경계가 지정되어 있습니다. (xn)n∈N을 lim_{n→∞} f(xn) = inf_{x∈H} f(x)인 H의 요소의 최소화 시퀀스라고 하자. 이 시퀀스는 H의 요소 x∞로 수렴하는 부분 시퀀스를 허용합니다. f는 l.s.c이므로 lim inf_{n→∞} f(xn) ≥ f(x∞)를 얻습니다.
lim_{n→∞} f(xn) = inf_{x∈H} f(x)이므로 f(x∞) = inf_{x∈H} f(x) = inf_{x∈E} f(x)임을 알 수 있습니다. 최소값의 고유성은 마지막으로 엄격한 볼록성과 함께 제공됩니다.
볼록성의 개념을 사용하여 강한 볼록성과 약한 볼록성을 정의할 수도 있습니다. 강한 볼록성을 사용하면 최소화할 함수를 더 잘 국소적으로 제어할 수 있습니다.
정의 6 (α-강한 볼록성 및 약한 볼록성). f를 E에서 R ∪ {+∞}로 정의된 함수이고 α > 0이라고 하자. g(x) = f(x) - α/2∥x∥² (각각 g(x) = f(x) + α/2∥x∥²)으로 정의된 함수 g가 볼록이면 함수 f를 α-강하게 볼록 또는 α-볼록(각각 α-약하게 볼록)이라고 합니다.
정의에 따라 f가 볼록이고 y가 E의 요소이면 함수 x ↦ f(x) + 1/(2γ)∥x - y∥²는 1/γ-강하게 볼록합니다. 강한 볼록성에는 엄격한 볼록성이 포함되며 최소값의 고유성을 보장합니다.
2.2 L-매끄러움
이 문서에서는 부드러운 함수와 부드럽지 않은 함수의 최소화를 고려합니다. 미분 가능한 즉시 부드러운 함수를 참조합니다.
정의 7 (미분 가능성). E에서 R ∪ +∞로 정의된 함수 f는 다음과 같은 고유한 점 lx ∈ E가 존재하는 경우 점 x ∈ E에서 미분 가능합니다.
lim_{h∈E, ||h||→0} (f(x + h) - f(x) - ⟨lx, h⟩) / ||h|| = 0.
그러면 점 x에서 f의 기울기를 ∇f(x) = lx로 나타냅니다.
함수는 ∀x ∈ E에서 미분 가능한 즉시 미분 가능하다고 합니다. 미분 가능한 함수가 아닌 경우 함수 f를 비매끄럽다고 합니다.
정의 8 (립시츠 연속성). E에서 E로 정의된 함수 T는 모든 (x, y) ∈ E²에 대해 다음을 충족하는 경우 L-립시츠(또는 L-립시츠 연속)라고 합니다.
∥T(x) - T(y)∥ ≤ L∥x - y∥.
정의 9 (L-매끄러움). L-립시츠 기울기 ∇f를 갖는 부드러운 함수 f를 L-매끄러운 함수라고 합니다.
L-매끄러움을 보장하는 고전적인 이론적 프레임워크는 두 번 미분 가능한 함수 f의 경우입니다. f의 헤세 행렬의 연산자 노름을 L로 제한할 수 있으면 f의 기울기가 L-립시츠임을 알 수 있습니다(다음 섹션의 비고 3 참조).