About This Document
출처 자료
세계 주요 대학의 공개 강의자료를 수집하고 통합하여 만든 대학공업수학 종합 레퍼런스이다. 아래 대학 및 플랫폼에서 제공하는 강의노트, 과제, 시험, 교재, 영상 자막을 기반으로 한다.
| 출처 | 강좌 수 | 주요 자료 |
| MIT OpenCourseWare | 11 | 18.01/02/03 (Calculus), 18.06SC (Linear Algebra), 6.041SC (Probability), 6.262, 18.085/086 |
| Stanford SEE | 4 | EE261 (Fourier), EE263 (Linear Dynamical Systems), EE364A/B (Convex Optimization, Boyd) |
| NPTEL / IIT | 39 | Real Analysis, Complex Analysis, Algebraic Geometry, Measure Theory, Optimization 등 |
| UC Berkeley | 4 | Math 1A, 16B, 53, 104 |
| UPenn (Chinburg) | 8+ | Algebraic Number Theory (Math 620/621/702/703), Graduate Algebra |
| U of Toronto | 3 | MAT 137 (Calculus with Proofs), ODE, Algebraic Knot Theory |
| Harvard | 3 | Abstract Algebra, Sets/Counting/Probability, Lie Groups |
| 기타 대학 | 20+ | U Maryland, METU, CMU, Colorado State, ETH Zurich 등 |
| YouTube | 65 플레이리스트 | Wildberger, Tokieda, Spiegelhalter 등 |
범위
기초 집합론부터 대수적 정수론, 호몰로지 대수, 볼록 최적화까지 32개 토픽을 11개 Part로 구성하여 학부 수준에서 대학원 입문까지 포괄한다.
원본 레포: Developer-Y/math-science-video-lectures
수학의 모든 분야는 몇 가지 공통된 기초 위에 놓인다. Part I에서는 집합, 논리, 수 체계라는 세 기둥을 본다. 이것들은 이후 모든 장에서 암묵적으로 쓰이는 언어이자 도구이다.
1. Sets and Logic(집합과 논리)
현대 수학은 집합론을 공통 언어로 사용한다. 19세기 말 Georg Cantor가 무한 집합 연구를 시작하면서, 집합론은 수학 전체를 통일적으로 서술할 수 있는 기반이 되었다. "자기 자신을 원소로 포함하지 않는 모든 집합의 집합"이라는 Russell의 역설(1901)은, 집합 개념을 무제한으로 사용하면 모순이 발생함을 보여주었고, 이후 공리적 집합론(ZFC 등)의 발전으로 이어졌다. 이 장에서는 공리적 세부 사항까지는 다루지 않지만, 집합의 기본 연산과 성질을 정립한 뒤, 수학적 명제를 다루는 논리학으로 넘어간다.
공학에서 집합과 논리는 놀라울 정도로 직접적으로 활용된다. 디지털 회로 설계의 기초인 불 대수(Boolean algebra)는 집합 연산과 논리 연결사의 직접적인 구현이다. AND, OR, NOT 게이트는 각각 교집합, 합집합, 여집합에 대응하며, De Morgan 법칙은 NAND/NOR 게이트만으로 모든 논리 회로를 구성할 수 있는 이론적 근거가 된다. 데이터베이스 쿼리 언어인 SQL에서 WHERE 절의 조건 결합은 집합의 교집합과 합집합 연산이고, 신호 처리에서는 주파수 대역을 집합으로 표현하여 필터의 통과 대역(passband)과 차단 대역(stopband)을 기술한다. 제어 시스템의 안정성 조건을 "모든 특성근의 실수부가 음수이다"와 같은 논리식으로 기술하는 것도 이 장의 언어를 사용하는 것이다.
논리학은 증명의 뼈대이다. 수학에서 어떤 주장이 참인지 판단하려면, 명제를 정확히 기술하고 추론 규칙에 따라 결론을 이끌어내야 한다. 집합론이 수학의 대상을 정의하는 언어라면, 논리학은 그 대상들에 대한 참·거짓을 따지는 방법론이다. 공학 시스템의 명세(specification)를 작성하고, 그 시스템이 명세를 만족하는지 검증(verification)하는 일도 논리적 추론이다. 엄밀한 논리 체계 없이는 "이 회로가 항상 올바른 출력을 내는가?"와 같은 질문에 답할 수 없다.
1.1 Sets(집합)
수학적 대상을 다루려면 먼저 "어떤 것들을 모아 놓은 것"을 엄밀하게 정의할 수 있어야 한다. 예컨대 "3.3 kHz 이하의 모든 주파수"나 "시스템이 안정인 모든 파라미터 값"처럼, 공학에서 다루는 조건을 만족하는 대상들의 모임을 형식화하는 것이 집합의 출발점이다.
Definition 1.1 (Set)
Set(집합)은 서로 구별 가능한 대상들의 잘 정의된 모임이며, 그 대상들을 집합의 element(원소) 또는 member(구성원)라 한다. \(x\)가 집합 \(A\)의 원소임을 \(x \in A\)로 나타내고, 원소가 아님을 \(x \notin A\)로 나타낸다.
집합은 원소를 나열하는 방법(roster notation(원소나열법)) 또는 원소의 성질을 명시하는 방법(set-builder notation(조건제시법))으로 기술할 수 있다:
- 원소나열법: \(A = \{1, 2, 3, 4, 5\}\)
- 조건제시법: \(A = \{x \in \mathbb{Z} \mid 1 \leq x \leq 5\}\)
Set Operations(집합 연산)
개별 집합을 정의하는 것만으로는 충분하지 않다. 두 필터의 통과 대역을 결합하거나, 특정 조건을 만족하지 않는 신호를 걸러내는 등, 집합들을 합치고 교차시키고 빼는 연산이 필요하다.
집합 연산을 정의하려면, 논의의 범위를 한정하는 universal set(전체집합) \(U\)가 필요하다. 모든 집합은 \(U\)의 부분집합으로 간주하며, 특히 여집합(complement)은 \(U\)에 대해 정의된다.
Definition 1.2 (Set Operations)
\(U\)를 전체집합이라 하고, \(A\)와 \(B\)를 \(U\)의 부분집합이라 하자.
- Union(합집합): \(A \cup B = \{x \mid x \in A \text{ or } x \in B\}\)
- Intersection(교집합): \(A \cap B = \{x \mid x \in A \text{ and } x \in B\}\)
- Difference(차집합): \(A \setminus B = \{x \mid x \in A \text{ and } x \notin B\}\)
- Complement(여집합): \(A^c = \{x \in U \mid x \notin A\}\), 여기서 \(U\)는 universal set(전체집합)이다
- Cartesian Product(곱집합): \(A \times B = \{(a, b) \mid a \in A, b \in B\}\)
Theorem 1.1 (De Morgan's Laws)
임의의 집합 \(A\)와 \(B\)에 대해:
$$
(A \cup B)^c = A^c \cap B^c, \qquad (A \cap B)^c = A^c \cup B^c
$$
De Morgan 법칙 덕분에 NAND 게이트 하나만으로(또는 NOR 게이트 하나만으로) 모든 논리 연산을 구현할 수 있으며, 실제 집적회로(IC) 설계에서 게이트 종류를 최소화하는 데 쓰인다.
Functions(함수)
집합 사이의 대응 관계를 형식화한 것이 함수이다. 공학에서 입력 신호를 출력 신호로 변환하는 시스템, 센서 측정값을 물리량으로 환산하는 보정 곡선 등은 모두 함수로 기술된다.
Definition 1.3 (Function)
Function(함수) \(f: A \to B\)는 \(A\)의 각 원소 \(a \in A\)에 대해 정확히 하나의 원소 \(f(a) \in B\)를 대응시키는 규칙이다. 집합 \(A\)를
domain(정의역), \(B\)를
codomain(공역)이라 한다.
- \(f\)가 injective(단사) (일대일)이라 함은 \(f(a_1) = f(a_2) \Rightarrow a_1 = a_2\)임을 뜻한다
- \(f\)가 surjective(전사) (위로의)라 함은 모든 \(b \in B\)에 대해 \(f(a) = b\)인 \(a \in A\)가 존재함을 뜻한다
- \(f\)가 bijective(전단사)라 함은 injective이면서 동시에 surjective임을 뜻한다
1.2 Mathematical Logic(수리논리학)
소프트웨어 검증(formal verification)에서 프로그램이 명세를 만족하는지 증명하거나, 제어 시스템에서 안정성 조건을 논리적으로 도출하는 작업은 수리논리학의 영역이다.
집합으로 수학적 대상을 정의했으니, 이제 그 대상들에 대한 주장을 엄밀하게 다루는 도구가 필요하다. 수리논리학은 명제의 구조를 분석하고, 주어진 가정으로부터 결론을 끌어내는 규칙을 다룬다. 증명은 논리적 추론을 이어붙인 것이고, 논리학은 수학의 모든 정리가 의존하는 기반이다.
명제 논리는 복합적인 주장을 기본 명제들의 조합으로 분해하고, 그 진릿값을 체계적으로 추적할 수 있게 해 준다. 이는 디지털 회로에서 논리 게이트의 입출력 관계를 진리표(truth table)로 분석하는 것과 정확히 같은 구조이다.
Definition 1.4 (Propositional Logic)
Proposition(명제)은 참 또는 거짓인 선언적 문장이다. 명제 \(P\)와 \(Q\)가 주어졌을 때:
- Negation(부정): \(\neg P\)는 \(P\)가 거짓일 때 참이다
- Conjunction(논리곱): \(P \land Q\)는 \(P\)와 \(Q\)가 모두 참일 때 참이다
- Disjunction(논리합): \(P \lor Q\)는 \(P, Q\) 중 적어도 하나가 참일 때 참이다
- Implication(함의): \(P \Rightarrow Q\)는 \(P\)가 참이고 \(Q\)가 거짓일 때만 거짓이다
- Biconditional(쌍조건): \(P \Leftrightarrow Q\)는 \(P\)와 \(Q\)의 진릿값이 같을 때 참이다
Quantifiers(양화사)
"모든 입력에 대해 출력이 유계(bounded)인가?" 또는 "안정성 조건을 만족하는 파라미터가 존재하는가?"와 같은 질문은 명제 논리만으로는 표현할 수 없다. 변수의 범위를 지정하여 "모든" 또는 "존재"를 표현하는 양화사가 필요하다.
- Universal quantifier(전칭 양화사): \(\forall x \in S, P(x)\)는 "\(S\)의 모든 \(x\)에 대해 \(P(x)\)가 성립한다"를 뜻한다
- Existential quantifier(존재 양화사): \(\exists x \in S, P(x)\)는 "\(P(x)\)가 성립하는 \(x\)가 \(S\)에 존재한다"를 뜻한다
Methods of Proof(증명 방법)
수학적 주장을 검증하려면 체계적인 증명 방법이 필요하다. 공학에서는 알고리즘의 정확성을 증명하거나, 귀납법으로 재귀적 구조의 성질을 보이는 경우가 흔하다. 아래의 네 가지 기본 증명 방법은 이후 모든 장에서 반복해서 등장한다.
- Direct proof(직접 증명): \(P\)를 가정하고 \(Q\)를 유도하여 \(P \Rightarrow Q\)를 증명한다
- Proof by contradiction(귀류법): \(\neg Q\) (또는 \(\neg(P \Rightarrow Q)\))를 가정하고 모순을 유도한다
- Proof by contrapositive(대우 증명): \(P \Rightarrow Q\)와 동치인 \(\neg Q \Rightarrow \neg P\)를 증명한다
- Mathematical induction(수학적 귀납법): \(P(1)\)을 증명하고 (base case(기초 단계)), \(P(n) \Rightarrow P(n+1)\)을 증명한다 (inductive step(귀납 단계))
Sources: NPTEL Mathematical Logic (IIT Madras), Harvard Sets/Counting/Probability, Nottingham Foundations of Pure Mathematics
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
2. Number Systems(수 체계)
수 체계의 역사는 "기존 체계에서 풀 수 없는 문제"가 새로운 수를 요구하는 과정의 반복이다. 자연수만으로는 \(x + 3 = 1\)을 풀 수 없다. 음의 정수가 필요했다. 정수 범위에서는 \(2x = 1\)을 풀 수 없어 유리수가 도입되었다. 유리수에서는 \(x^2 = 2\)의 해가 존재하지 않으므로 실수로의 확장이 필요했으며, 실수에서도 \(x^2 = -1\)은 해를 갖지 않아 복소수가 탄생했다. 각 확장은 이전 체계를 부분집합으로 포함하면서 대수적 또는 해석적으로 더 완전한 구조를 이룬다.
공학에서 수 체계의 각 단계는 구체적인 문제와 직결된다. 정수는 디지털 신호의 양자화(quantization) 수준을 표현하고, 유리수는 컴퓨터의 부동소수점(floating point) 연산에서 유한 정밀도 표현을 뒷받침한다. 실수는 전압, 온도 같은 연속 물리량을 모델링하는 데 필수적이며, 복소수는 교류 회로에서 페이저(phasor)로 전압과 전류를 표현하거나, 임피던스(impedance) \(Z = R + jX\)를 계산하는 데 쓰인다. 체계가 확장될 때마다 기술할 수 있는 현상의 범위가 달라졌다.
아래 정의에서 포함 관계를 확인한다. 각 수 체계는 이전 체계에서 불가능했던 연산을 가능하게 한다.
Definition 2.1 (Number Sets)
- \(\mathbb{N} = \{1, 2, 3, \ldots\}\) — Natural numbers(자연수)
- \(\mathbb{Z} = \{\ldots, -2, -1, 0, 1, 2, \ldots\}\) — Integers(정수)
- \(\mathbb{Q} = \{p/q \mid p, q \in \mathbb{Z}, q \neq 0\}\) — Rational numbers(유리수)
- \(\mathbb{R}\) — Real numbers(실수) (complete ordered field(완비 순서체))
- \(\mathbb{C} = \{a + bi \mid a, b \in \mathbb{R}, i^2 = -1\}\) — Complex numbers(복소수)
다음과 같은 포함 관계가 성립한다: \(\mathbb{N} \subset \mathbb{Z} \subset \mathbb{Q} \subset \mathbb{R} \subset \mathbb{C}\).
유리수만으로는 수직선 위의 모든 점을 채울 수 없으며, 대각선 길이 \(\sqrt{2}\)처럼 기하학적으로 자연스러운 양조차 유리수로 표현할 수 없다. 공학에서도 마찬가지다: 유한 정밀도 연산(유리수)으로 실수 계산을 근사할 때 반드시 오차가 발생하며, 그 성질을 파악하려면 유리수와 무리수의 구별을 알아야 한다.
Theorem 2.1 (Irrationality of \(\sqrt{2}\))
\(\sqrt{2}\)는 irrational(무리수)이다. 즉, \(\sqrt{2} \notin \mathbb{Q}\)이다.
Proof
Proof by contradiction(귀류법)을 사용한다. \(\sqrt{2} = p/q\)이고 \(p, q \in \mathbb{Z}\), \(\gcd(p, q) = 1\)이라 가정하자. 그러면 \(2q^2 = p^2\)이므로 \(p^2\)은 짝수이고, 따라서 \(p\)도 짝수이다. \(p = 2k\)로 놓으면 \(2q^2 = 4k^2\)이므로 \(q^2 = 2k^2\)이 되어 \(q\)도 짝수이다. 이는 \(\gcd(p, q) = 1\)에 모순이다. \(\square\)
실수의 가장 중요한 성질은 완비성(completeness)이다. 직관적으로, 수직선에 "빈틈이 없다"는 뜻이다. 이 성질이 없으면 극한값의 존재를 보장할 수 없고, 미적분학 전체가 성립하지 않는다.
Axiom 2.1 (Completeness Axiom)
\(\mathbb{R}\)의 공집합이 아니면서 위로 bounded(유계)인 모든 부분집합은 \(\mathbb{R}\) 안에 least upper bound(최소상계), 즉 supremum(상한)을 갖는다.
이 axiom(공리)은 \(\mathbb{R}\)을 \(\mathbb{Q}\)와 구별하며, analysis(해석학) 전체의 기초가 된다.
Sources: MIT 18.100A/B Real Analysis, Wildberger Math Foundations, NPTEL Real Analysis (IIT Madras)
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Book of Proof (Hammack) — Ch 11-12: Relations, Functions
- Tao, Analysis I — Ch 2-5: 자연수에서 실수까지의 구성
- Rudin, Principles of Mathematical Analysis — Ch 1: The Real and Complex Number Systems
- Stillwell, The Real Numbers: An Introduction to Set Theory and Analysis
- Ebbinghaus et al., Numbers (Springer) — 수 체계의 역사적 발전
17세기 Newton과 Leibniz는 각자 독립적으로 미적분학을 개발했다. 변화율(미분)과 누적량(적분)이 서로 역관계라는 것이 미적분학의 기본정리다. Part II에서는 일변수 함수(3장)에서 다변수 함수(4장)로 범위를 넓혀간다.
3. 일변수 미적분학
단변수 미적분은 하나의 독립변수를 가진 함수의 변화율과 누적량을 연구한다. 물리학에서 속도와 가속도, 경제학에서 한계비용과 총수익, 공학에서 신호의 변화와 에너지 축적 등 단일 입력에 대한 출력의 변화를 분석하는 문제는 모두 이 장의 범위에 속한다. 극한의 엄밀한 정의에서 출발하여, 미분과 적분의 이론을 세우고, 무한급수까지 나아간다.
공학에서 미분은 회로의 순간 전류 변화율, 열전달의 온도 구배, 제어 시스템의 오차 변화 속도를 계산한다. 적분은 힘이 한 일(work), 커패시터에 저장된 에너지, 확률밀도함수의 누적분포를 구한다. 급수 전개는 비선형 시스템을 동작점 근방에서 선형화하거나 신호를 다항식으로 근사하는 상황에서 등장한다.
3.1 극한과 연속
측정 장비의 정밀도를 높이면 참값에 얼마나 가까워질 수 있는가? 수치 시뮬레이션에서 격자(mesh)를 세밀하게 할수록 해가 수렴하는가? 이런 질문에 답하려면 "충분히 가까이 간다"는 개념을 엄밀하게 정의해야 한다. 그것이 바로 극한이다.
극한의 엄밀한 정의
극한(limit)은 미적분학의 토대를 이루는 개념이다. 직관적으로, \(\lim_{x \to a} f(x) = L\)은 \(x\)가 \(a\)에 충분히 가까워지면 \(f(x)\)가 \(L\)에 얼마든지 가까워진다는 뜻이다. 이를 엄밀하게 표현한 것이 epsilon-delta 정의이다.
Definition 3.1 (Limit의 ε-δ 정의)
임의의 \(\varepsilon > 0\)에 대해 어떤 \(\delta > 0\)이 존재하여,
$$
0 < |x - a| < \delta \implies |f(x) - L| < \varepsilon
$$
를 만족하면, \(\lim_{x \to a} f(x) = L\)이라 한다.
이 정의의 핵심은 "임의의 오차 범위 \(\varepsilon\)가 주어지면, \(x\)를 \(a\)에 충분히 가깝게 잡아 \(f(x)\)를 \(L\)의 \(\varepsilon\)-근방에 넣을 수 있다"는 것이다. \(\delta\)는 일반적으로 \(\varepsilon\)에 의존한다.
Example 3.1 (ε-δ 증명)
\(\lim_{x \to 3} (2x + 1) = 7\)을 ε-δ 정의로 증명하자.
\(\varepsilon > 0\)이 주어졌다고 하자. \(\delta = \varepsilon / 2\)로 놓으면, \(0 < |x - 3| < \delta\)일 때:
$$
|f(x) - 7| = |(2x + 1) - 7| = |2x - 6| = 2|x - 3| < 2\delta = \varepsilon
$$
따라서 정의에 의해 \(\lim_{x \to 3}(2x+1) = 7\)이다. \(\blacksquare\)
극한 법칙
Theorem 3.1 (Limit Laws)
\(\lim_{x \to a} f(x) = L\), \(\lim_{x \to a} g(x) = M\)이면:
- 합의 법칙: \(\lim_{x \to a} [f(x) + g(x)] = L + M\)
- 곱의 법칙: \(\lim_{x \to a} [f(x) \cdot g(x)] = L \cdot M\)
- 몫의 법칙: \(\lim_{x \to a} \frac{f(x)}{g(x)} = \frac{L}{M}\), 단 \(M \neq 0\)
- 거듭제곱 법칙: \(\lim_{x \to a} [f(x)]^n = L^n\) (양의 정수 \(n\))
- 스칼라 곱: \(\lim_{x \to a} c \cdot f(x) = cL\)
한쪽 극한(One-Sided Limits)
Definition 3.2 (한쪽 극한)
좌극한(left-hand limit): \(x\)가 \(a\)보다 작은 쪽에서 접근할 때의 극한.
$$
\lim_{x \to a^-} f(x) = L \iff \forall \varepsilon > 0,\; \exists \delta > 0 \text{ s.t. } a - \delta < x < a \implies |f(x) - L| < \varepsilon
$$
우극한(right-hand limit): \(x\)가 \(a\)보다 큰 쪽에서 접근할 때의 극한.
$$
\lim_{x \to a^+} f(x) = L \iff \forall \varepsilon > 0,\; \exists \delta > 0 \text{ s.t. } a < x < a + \delta \implies |f(x) - L| < \varepsilon
$$
양쪽 극한이 모두 존재하고 같을 때에만 (양쪽) 극한이 존재한다: \(\lim_{x \to a} f(x) = L \iff \lim_{x \to a^-} f(x) = \lim_{x \to a^+} f(x) = L\).
Example 3.2
\(f(x) = \frac{|x|}{x}\)에 대해, \(\lim_{x \to 0^+} f(x) = 1\)이고 \(\lim_{x \to 0^-} f(x) = -1\)이다. 좌극한과 우극한이 다르므로 \(\lim_{x \to 0} f(x)\)는 존재하지 않는다.
무한대 극한(Limits at Infinity)
Definition 3.3 (무한대에서의 극한)
임의의 \(\varepsilon > 0\)에 대해 어떤 \(N\)이 존재하여, \(x > N\)이면 \(|f(x) - L| < \varepsilon\)이 성립할 때,
$$
\lim_{x \to \infty} f(x) = L
$$
이라 한다. 마찬가지로, \(\lim_{x \to -\infty} f(x)\)도 유사하게 정의한다.
Example 3.3
\(\lim_{x \to \infty} \frac{3x^2 + 1}{2x^2 - 5}\)를 구하자. 분자, 분모를 \(x^2\)으로 나누면:
$$
\lim_{x \to \infty} \frac{3 + 1/x^2}{2 - 5/x^2} = \frac{3 + 0}{2 - 0} = \frac{3}{2}
$$
연속 함수
Definition 3.4 (Continuity)
함수 \(f\)가 점 \(a\)에서
연속(continuous)이라 함은 다음 세 조건이 모두 성립하는 것이다:
- \(f(a)\)가 정의되어 있다
- \(\lim_{x \to a} f(x)\)가 존재한다
- \(\lim_{x \to a} f(x) = f(a)\)
\(f\)가 구간의 모든 점에서 연속이면, 그 구간에서 연속이라 한다.
직관적으로, 연속 함수는 그래프를 "펜을 떼지 않고" 그릴 수 있는 함수이다. 다항함수, 유리함수(분모가 0이 아닌 곳에서), 삼각함수, 지수함수, 로그함수 등 기본적인 초등 함수들은 모두 각각의 정의역에서 연속이다.
Theorem 3.2 (Intermediate Value Theorem, 중간값 정리)
\(f\)가 \([a, b]\)에서 연속이고 \(f(a) \neq f(b)\)이면, \(f(a)\)와 \(f(b)\) 사이의 임의의 값 \(c\)에 대해 \(f(d) = c\)를 만족하는 \(d \in (a, b)\)가 존재한다.
이 정리는 연속 함수의 그래프가 "끊어지지 않는다"는 직관적 성질의 엄밀한 표현이다. 방정식의 근의 존재성을 보이는 데 자주 사용된다.
Example 3.4
방정식 \(x^3 - x - 1 = 0\)이 \((1, 2)\)에서 근을 가짐을 보이자. \(f(x) = x^3 - x - 1\)로 놓으면, \(f(1) = -1 < 0\)이고 \(f(2) = 5 > 0\)이다. \(f\)는 다항함수이므로 연속이고, 중간값 정리에 의해 \(f(d) = 0\)인 \(d \in (1, 2)\)가 존재한다.
Theorem 3.3 (Squeeze Theorem, 압축 정리)
어떤 구간에서 \(g(x) \leq f(x) \leq h(x)\)이고 \(\lim_{x \to a} g(x) = \lim_{x \to a} h(x) = L\)이면,
$$
\lim_{x \to a} f(x) = L
$$
Example 3.5
\(\lim_{x \to 0} x^2 \sin(1/x) = 0\)임을 보이자. \(-1 \leq \sin(1/x) \leq 1\)이므로, \(-x^2 \leq x^2 \sin(1/x) \leq x^2\)이다. \(\lim_{x \to 0} (-x^2) = \lim_{x \to 0} x^2 = 0\)이므로, 압축 정리에 의해 극한값은 0이다.
3.2 Derivative(도함수)
공학에서 가장 빈번하게 묻는 질문 중 하나는 "이 양이 얼마나 빠르게 변하는가?"이다. RC 회로에서 커패시터 전압의 시간 변화율, 로봇 팔의 순간 각속도, 화학 반응에서 농도의 변화 속도는 모두 도함수로 나타낸다.
극한을 갖추었으니 함수의 순간 변화율을 정의할 수 있다. 도함수는 "평균 변화율의 극한"이다.
기하학적 및 해석학적 정의
Derivative(도함수)는 함수의 순간 변화율을 측정한다. 기하학적으로는 그래프 위 한 점에서의 접선의 기울기에 해당한다.
Definition 3.5 (Derivative)
\(x_0\)에서 \(f\)의 derivative(도함수)는 다음과 같이 정의된다.
$$
f'(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} = \lim_{\Delta x \to 0} \frac{\Delta f}{\Delta x}
$$
단, 이 limit(극한)이 존재해야 한다. 비율 \(\frac{\Delta f}{\Delta x}\)를 difference quotient(차분 몫)이라 한다.
Derivative는 \(f'(x)\), \(\frac{df}{dx}\), \(\frac{dy}{dx}\) (Leibniz 표기법), 또는 \(Df\) 등 다양하게 표기한다. 기하학적으로 difference quotient은 두 점을 지나는 secant line(할선)의 기울기이고, 극한을 취하면 tangent line(접선)의 기울기가 된다.
Example 3.6
\(f(x) = \frac{1}{x}\)로 놓자. 그러면:
$$
\frac{\Delta f}{\Delta x} = \frac{\frac{1}{x_0 + \Delta x} - \frac{1}{x_0}}{\Delta x} = \frac{x_0 - (x_0 + \Delta x)}{\Delta x \cdot (x_0 + \Delta x) x_0} = \frac{-1}{(x_0 + \Delta x)x_0}
$$
극한을 취하면: \(f'(x_0) = \dfrac{-1}{x_0^2}\).
Theorem 3.4 (Power Rule)
\(n = 1, 2, 3, \ldots\)에 대해:
$$
\frac{d}{dx} x^n = n x^{n-1}
$$
더 일반적으로, 임의의 실수 \(\alpha\)에 대해: \(\frac{d}{dx} x^\alpha = \alpha x^{\alpha - 1}\).
Proof
이항 정리를 이용하면: \((x + \Delta x)^n = x^n + n(\Delta x)x^{n-1} + O((\Delta x)^2)\). 따라서,
$$
\frac{(x + \Delta x)^n - x^n}{\Delta x} = \frac{n(\Delta x)x^{n-1} + O((\Delta x)^2)}{\Delta x} = nx^{n-1} + O(\Delta x) \to nx^{n-1}
$$
\(\Delta x \to 0\)일 때 성립한다. 임의의 실수 지수에 대해서는, \(x^\alpha = e^{\alpha \ln x}\)로 쓴 뒤 chain rule을 적용하면:
$$
\frac{d}{dx} x^\alpha = \frac{d}{dx} e^{\alpha \ln x} = e^{\alpha \ln x} \cdot \frac{\alpha}{x} = x^\alpha \cdot \frac{\alpha}{x} = \alpha x^{\alpha - 1}
$$
\(\blacksquare\)
물리적 해석
\(y(t)\)가 시각 \(t\)에서의 위치를 나타내면, \(y'(t)\)는 순간 속도이고, \(y''(t)\)는 가속도이다.
Example 3.7 (Free Fall)
높이 400 ft에서 떨어뜨린 물체는 \(y = 400 - 16t^2\)을 따른다. \(y = 0\)일 때, 즉 \(t = 5\)초에 지면에 도달한다. 충돌 시 순간 속도: \(y'(5) = -32(5) = -160\) ft/s (약 110 mph).
고차 도함수(Higher Derivatives)
고차 도함수는 도함수의 도함수이다. \(f'(x)\), \(f''(x) = (f')'(x)\), \(f'''(x)\) 등으로 표기하며, \(n\)차 도함수는 \(f^{(n)}(x)\) 또는 \(\frac{d^n f}{dx^n}\)으로 표기한다.
Example 3.8
\(D^n x^n = n!\)임을 보이자. 귀납법으로 확인할 수 있다:
$$
Dx = 1, \quad D^2 x^2 = D(2x) = 2, \quad D^3 x^3 = D^2(3x^2) = D(6x) = 6, \quad \ldots
$$
패턴이 보인다: \(D^n x^n = n! = n(n-1) \cdots 2 \cdot 1\). 귀납법의 단계: \(D^n x^n = n!\)을 가정하면,
$$
D^{n+1} x^{n+1} = D^n(Dx^{n+1}) = D^n((n+1)x^n) = (n+1) D^n x^n = (n+1) \cdot n! = (n+1)!
$$
3.3 미분 법칙
실제 공학 문제에서 만나는 함수는 여러 기본 함수의 합성, 곱, 몫으로 이루어져 있다. 예를 들어 RLC 회로의 과도 응답은 지수함수와 삼각함수의 곱이고, 로지스틱 성장 모델은 지수함수의 분수식이다. 이런 함수를 미분하려면 체계적인 규칙이 필요하다.
도함수의 정의를 매번 극한으로 계산하는 것은 비효율적이다. 기본 함수들의 도함수와 몇 가지 조합 규칙을 알면, 복잡한 함수의 도함수도 구할 수 있다.
Theorem 3.5 (Basic Differentiation Rules)
\(f\)와 \(g\)가 미분 가능한 함수이고 \(c\)가 상수라 하자.
- 선형성: \((cf + g)' = cf' + g'\)
- Product Rule(곱 법칙): \((fg)' = f'g + fg'\)
- Quotient Rule(몫 법칙): \(\left(\frac{f}{g}\right)' = \frac{f'g - fg'}{g^2}\), 단 \(g \neq 0\)
- Chain Rule(연쇄 법칙): \(y = f(g(x))\)이면, \(\frac{dy}{dx} = f'(g(x)) \cdot g'(x)\)
Chain rule은 Leibniz 표기법으로 직관적이다: \(\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}\). 분수처럼 \(du\)가 약분되는 형태인데, 이는 극한 과정에서 \(\frac{\Delta y}{\Delta x} = \frac{\Delta y}{\Delta u} \cdot \frac{\Delta u}{\Delta x}\)라는 관계에서 비롯된다.
Example 3.9 (Chain Rule)
\(y = \sin(t^2)\)으로 놓자. \(f(x) = \sin x\), \(g(t) = t^2\)으로 두면:
$$
\frac{dy}{dt} = \cos(t^2) \cdot 2t = 2t\cos(t^2)
$$
Example 3.10 (Chain Rule 중첩)
\(\frac{d}{dx} \cos\!\left(\frac{1}{x}\right)\)을 구하자. \(u = \frac{1}{x}\)로 놓으면 \(\frac{du}{dx} = -\frac{1}{x^2}\)이므로:
$$
\frac{d}{dx} \cos\!\left(\frac{1}{x}\right) = -\sin\!\left(\frac{1}{x}\right) \cdot \left(-\frac{1}{x^2}\right) = \frac{1}{x^2}\sin\!\left(\frac{1}{x}\right)
$$
초등 함수의 derivative
| 함수 \(f(x)\) | Derivative \(f'(x)\) |
| \(x^n\) | \(nx^{n-1}\) |
| \(e^x\) | \(e^x\) |
| \(a^x\) | \((\ln a) \cdot a^x\) |
| \(\ln x\) | \(1/x\) |
| \(\sin x\) | \(\cos x\) |
| \(\cos x\) | \(-\sin x\) |
| \(\tan x\) | \(\sec^2 x\) |
| \(\sec x\) | \(\sec x \tan x\) |
| \(\arcsin x\) | \(1/\sqrt{1-x^2}\) |
| \(\arctan x\) | \(1/(1+x^2)\) |
| \(\sinh x\) | \(\cosh x\) |
| \(\cosh x\) | \(\sinh x\) |
여기서 쌍곡선 함수(hyperbolic functions)는 \(\sinh x = \frac{e^x - e^{-x}}{2}\), \(\cosh x = \frac{e^x + e^{-x}}{2}\)로 정의되며, 항등식 \(\cosh^2 x - \sinh^2 x = 1\)을 만족한다. 이 관계는 원 위의 삼각함수 항등식 \(\cos^2 x + \sin^2 x = 1\)에 대응한다.
Implicit Differentiation(음함수 미분법)
\(x\)와 \(y\) 사이의 관계가 방정식 \(F(x, y) = 0\)으로 음함수적으로 주어질 때, \(y\)를 \(x\)의 함수로 취급하고 양변을 \(x\)에 대해 미분한다.
Example 3.11
\(x^2 + y^2 = 1\)에 대해: 양변을 미분하면 \(2x + 2y \frac{dy}{dx} = 0\)이므로, \(\frac{dy}{dx} = -\frac{x}{y}\).
Example 3.12
\(y^3 + 3xy^2 = 8\)에 대해: 양변을 \(x\)에 대해 미분하면
$$
3y^2 y' + 3y^2 + 6xyy' = 0
$$
정리하면 \((3y^2 + 6xy)y' = -3y^2\), 따라서 \(y' = \frac{-3y^2}{3y^2 + 6xy} = \frac{-y}{y + 2x}\).
역함수의 미분(Derivative of Inverse Functions)
음함수 미분법은 역함수(inverse function)의 도함수를 구할 때 유용하다.
Theorem 3.6 (Inverse Function Theorem, 일변수)
\(f\)가 미분 가능하고 \(f'(x) \neq 0\)이면, 역함수 \(f^{-1}\)도 미분 가능하며:
$$
(f^{-1})'(y) = \frac{1}{f'(x)}, \quad \text{여기서 } y = f(x)
$$
Example 3.13 (arcsin의 도함수)
\(y = \sin^{-1} x\)이면 \(\sin y = x\)이다. 양변을 \(x\)에 대해 미분하면:
$$
(\cos y) \cdot y' = 1 \implies y' = \frac{1}{\cos y}
$$
\(\cos y = \sqrt{1 - \sin^2 y} = \sqrt{1 - x^2}\) (단, \(-\frac{\pi}{2} \leq y \leq \frac{\pi}{2}\)에서 \(\cos y \geq 0\))이므로:
$$
\frac{d}{dx} \sin^{-1} x = \frac{1}{\sqrt{1 - x^2}}
$$
Example 3.14 (ln x의 도함수)
\(w = \ln x\)이면 \(e^w = x\)이다. 양변을 \(x\)에 대해 미분하면:
$$
e^w \frac{dw}{dx} = 1 \implies \frac{dw}{dx} = \frac{1}{e^w} = \frac{1}{x}
$$
따라서 \(\frac{d}{dx} \ln x = \frac{1}{x}\).
Logarithmic Differentiation(로그 미분법)
밑과 지수가 모두 변수인 함수나, 여러 인수의 곱/몫으로 이루어진 함수를 미분할 때, 양변에 자연로그를 취한 뒤 미분하면 편리하다. 핵심 공식은 다음과 같다:
$$
(\ln f)' = \frac{f'}{f} \quad \Longleftrightarrow \quad f' = f \cdot (\ln f)'
$$
Example 3.15 (Logarithmic Differentiation)
\(f(x) = x^x\)를 미분하자. 양변에 로그를 취하면:
$$
\ln f = x \ln x
$$
양변을 \(x\)에 대해 미분하면:
$$
\frac{f'}{f} = \ln x + x \cdot \frac{1}{x} = \ln x + 1
$$
따라서 \(f'(x) = x^x (\ln x + 1)\).
Example 3.16
\(\frac{d}{dx} a^x\)를 로그 미분법으로 구하자. \(f(x) = a^x\)로 놓으면 \(\ln f = x \ln a\). 미분하면:
$$
\frac{f'}{f} = \ln a \implies f' = a^x \ln a
$$
같은 결과를 base \(e\)를 이용해서도 얻을 수 있다: \(a^x = e^{x \ln a}\)이므로 \(\frac{d}{dx} a^x = e^{x \ln a} \cdot \ln a = (\ln a) \cdot a^x\).
Related Rates(관련 변화율)
두 개 이상의 변수가 시간 \(t\)에 대해 변하고 서로 방정식으로 연결되어 있을 때, chain rule을 이용하여 한 변수의 변화율로부터 다른 변수의 변화율을 구할 수 있다.
Example 3.17 (Related Rates - 팽창하는 풍선)
구형 풍선에 공기를 \(\frac{dV}{dt} = 100\) cm\(^3\)/s의 속도로 주입하고 있다. 반지름이 \(r = 25\) cm일 때 반지름의 변화율 \(\frac{dr}{dt}\)를 구하라.
구의 부피는 \(V = \frac{4}{3}\pi r^3\)이다. 양변을 \(t\)에 대해 미분하면:
$$
\frac{dV}{dt} = 4\pi r^2 \frac{dr}{dt}
$$
\(r = 25\), \(\frac{dV}{dt} = 100\)을 대입하면:
$$
\frac{dr}{dt} = \frac{100}{4\pi (25)^2} = \frac{100}{2500\pi} = \frac{1}{25\pi} \approx 0.0127 \text{ cm/s}
$$
Example 3.18 (Related Rates - 사다리 문제)
길이 10 m인 사다리가 벽에 기대어 있다. 사다리의 아래 끝이 벽에서 \(x\) m 떨어져 있고 초속 1 m로 벽에서 멀어지고 있다. 사다리 아래 끝이 벽에서 6 m 떨어졌을 때, 사다리 위 끝이 미끄러져 내려오는 속도를 구하라.
피타고라스 정리에 의해 \(x^2 + y^2 = 100\). 양변을 \(t\)에 대해 미분하면:
$$
2x\frac{dx}{dt} + 2y\frac{dy}{dt} = 0
$$
\(x = 6\)일 때 \(y = \sqrt{100 - 36} = 8\)이고, \(\frac{dx}{dt} = 1\)이므로:
$$
2(6)(1) + 2(8)\frac{dy}{dt} = 0 \implies \frac{dy}{dt} = -\frac{6}{8} = -\frac{3}{4} \text{ m/s}
$$
음수는 \(y\)가 감소, 즉 사다리 위 끝이 내려오고 있음을 의미한다.
Example 3.19 (Related Rates - 원뿔형 탱크)
원뿔형 탱크(꼭짓점이 아래, 반각 45도)에 물이 \(\frac{dV}{dt} = 2\) m\(^3\)/min의 속도로 채워지고 있다. 수면 높이가 \(h = 3\) m일 때, 수면이 올라가는 속도를 구하라.
반각이 45도이므로 \(r = h\)이고, 원뿔의 부피는 \(V = \frac{1}{3}\pi r^2 h = \frac{1}{3}\pi h^3\). 양변을 \(t\)에 대해 미분하면:
$$
\frac{dV}{dt} = \pi h^2 \frac{dh}{dt}
$$
\(h = 3\), \(\frac{dV}{dt} = 2\)를 대입하면:
$$
\frac{dh}{dt} = \frac{2}{9\pi} \approx 0.0707 \text{ m/min}
$$
3.4 Derivative의 응용
도함수의 대표적 응용은 최적화이다. 안테나의 최대 이득 방향, 구조물의 최대 응력 위치, 전력 전송 효율을 극대화하는 부하 임피던스를 구하는 문제 모두 도함수가 0인 점을 찾는 것에서 시작한다.
함수의 그래프 형태 분석, 극값 탐색, 최적화 문제는 도함수의 부호와 크기를 이용한다.
곡선 스케치
\(f'\)과 \(f''\)의 부호가 \(f\)의 그래프 형태를 결정한다:
- \(f'(x) > 0\): \(f\)는 증가
- \(f'(x) < 0\): \(f\)는 감소
- \(f''(x) > 0\): \(f\)는 아래로 볼록(concave up, 위로 오목)
- \(f''(x) < 0\): \(f\)는 위로 볼록(concave down, 아래로 오목)
곡선 스케치의 절차는 다음과 같다:
- 불연속점(수직 점근선)을 찾는다
- Critical point를 구한다: \(f'(x) = 0\) 또는 \(f'\)이 존재하지 않는 점
- Critical point 사이의 구간에서 \(f'\)의 부호를 판정한다
- 영점(zero): \(f(x) = 0\)인 점을 찾는다
- \(x \to \pm\infty\)에서의 행동을 파악한다
- \(f'' = 0\)인 변곡점(inflection point)을 구하여 오목/볼록 정보를 추가한다
Definition 3.6 (Critical Point)
\(f'(x_0) = 0\)이거나 \(f'(x_0)\)이 존재하지 않는 점 \(x_0\)를 \(f\)의 critical point(임계점)이라 한다.
Example 3.20 (곡선 스케치)
\(y = 3x - x^3\)의 그래프를 스케치하자.
- 불연속: 없음 (다항함수)
- \(y' = 3 - 3x^2 = 3(1-x^2)\), 따라서 \(y' = 0\)인 점은 \(x = \pm 1\)
- \(x = 1\)에서 \(y = 2\) (극대), \(x = -1\)에서 \(y = -2\) (극소)
- 영점: \(y = x(3 - x^2) = 0\)이면 \(x = 0, \pm\sqrt{3}\)
- \(x \to \infty\)일 때 \(y \to -\infty\), \(x \to -\infty\)일 때 \(y \to \infty\)
- \(y'' = -6x = 0\)이면 \(x = 0\)이 변곡점
Theorem 3.7 (Second Derivative Test)
\(f'(c) = 0\)일 때:
- \(f''(c) > 0 \Rightarrow\) \(c\)는 극소(local minimum)
- \(f''(c) < 0 \Rightarrow\) \(c\)는 극대(local maximum)
- \(f''(c) = 0 \Rightarrow\) 판정 불가
직관적으로, \(f'' > 0\)이면 그래프가 아래로 볼록(위로 오목)하게 휘어지므로 critical point가 "골"이 되고, \(f'' < 0\)이면 위로 볼록(아래로 오목)하게 휘어지므로 "봉우리"가 된다.
Theorem 3.8 (Mean Value Theorem)
\(f\)가 \([a, b]\)에서 연속이고 \((a, b)\)에서 미분 가능하면, 다음을 만족하는 \(c \in (a, b)\)가 존재한다.
$$
f'(c) = \frac{f(b) - f(a)}{b - a}
$$
기하학적으로, \(f\)의 그래프 위에서 양 끝점을 잇는 할선과 같은 기울기를 가지는 접선이 반드시 존재한다는 뜻이다. 여러 정리(예: \(f' = 0\)이면 상수함수)의 증명에 사용된다.
L'Hopital's Rule(로피탈의 법칙)
Theorem 3.9 (L'Hopital's Rule)
\(\lim_{x \to a} f(x) = \lim_{x \to a} g(x) = 0\) (또는 둘 다 \(\pm\infty\))이고, \(a\) 근방에서 \(g'(x) \neq 0\)이면,
$$
\lim_{x \to a} \frac{f(x)}{g(x)} = \lim_{x \to a} \frac{f'(x)}{g'(x)}
$$
단, 우변의 limit이 존재해야 한다.
Example 3.21
\(\lim_{x \to 0} \frac{\sin x}{x}\)를 구하자. \(x \to 0\)일 때 \(\frac{0}{0}\) 꼴이므로 L'Hopital 법칙을 적용하면:
$$
\lim_{x \to 0} \frac{\sin x}{x} = \lim_{x \to 0} \frac{\cos x}{1} = 1
$$
최적화
\([a, b]\)에서 \(f\)의 절대 최댓값/최솟값을 구하려면:
- \(f'(c) = 0\)이거나 \(f'(c)\)가 존재하지 않는 모든 critical point \(c\)를 찾는다
- 각 critical point와 양 끝점 \(a, b\)에서 \(f\)의 값을 구한다
- 가장 큰 값이 절대 최댓값이고, 가장 작은 값이 절대 최솟값이다
3.5 Integration(적분)
적분은 미분의 역방향 질문에 답한다. 변화율이 주어졌을 때 원래 양을 어떻게 복원하는가? 곡선 아래의 넓이처럼 무한히 많은 미소량의 합을 어떻게 정의하는가? 공학에서 힘의 일(work), 에너지, 확률 등 총량을 구하는 문제는 적분으로 풀린다.
Riemann 합과 정적분
정적분은 "곡선 아래의 넓이"를 엄밀하게 정의한다. 먼저 영역을 직사각형으로 분할하고, 넓이를 합산한 뒤, 직사각형의 폭을 0으로 보내는 극한을 취한다.
Definition 3.7 (Definite Integral)
\(a\)에서 \(b\)까지 \(f\)의 definite integral(정적분)은 다음과 같이 정의된다:
$$
\int_a^b f(x)\,dx = \lim_{n \to \infty} \sum_{i=1}^{n} f(x_i^*) \Delta x
$$
여기서 \(\Delta x = \frac{b-a}{n}\)이고 \(x_i^*\)는 \(i\)번째 소구간의 표본점이다. 이 합 \(\sum_{i=1}^n f(x_i^*)\Delta x\)를 Riemann sum(리만 합)이라 한다.
Example 3.22
\(\int_0^b x^2\,dx\)를 Riemann 합으로부터 구하자. 구간 \([0, b]\)를 \(n\)등분하면 \(\Delta x = b/n\)이고, 표본점으로 오른쪽 끝점 \(x_i = ib/n\)을 선택하면:
$$
\sum_{i=1}^n \left(\frac{ib}{n}\right)^2 \cdot \frac{b}{n} = \frac{b^3}{n^3}(1^2 + 2^2 + \cdots + n^2) = \frac{b^3}{n^3} \cdot \frac{n(n+1)(2n+1)}{6}
$$
\(n \to \infty\)에서 이 값은 \(\frac{b^3}{3}\)으로 수렴한다. 따라서 \(\int_0^b x^2\,dx = \frac{b^3}{3}\).
Theorem 3.10 (Fundamental Theorem of Calculus)
Part I: \(f\)가 \([a, b]\)에서 연속이고 \(F(x) = \int_a^x f(t)\,dt\)이면, \(F'(x) = f(x)\).
Part II: \(f\)가 \([a, b]\)에서 연속이고 \(F\)가 \(f\)의 임의의 antiderivative(역도함수)이면,
$$
\int_a^b f(x)\,dx = F(b) - F(a)
$$
미분과 적분은 서로 역연산이다. Part I은 적분 후 미분하면 원래 함수로 돌아온다는 뜻이고, Part II는 역도함수를 알면 정적분을 끝점 값의 차로 계산할 수 있다는 뜻이다. 리만 합을 직접 구할 필요 없이 역도함수만 찾으면 되므로, 이 정리가 미적분학을 실용적 계산 도구로 만든다.
3.6 적분 기법
미적분학의 기본정리는 정적분을 역도함수로 계산할 수 있음을 보장하지만, 역도함수를 실제로 구하는 것은 별개의 문제이다. 회로 해석의 \(\int e^{-t}\sin t\,dt\)나 유체역학의 포텐셜 함수 등은 체계적인 기법 없이는 계산할 수 없다. 여기서는 치환, 부분적분, 부분분수, 삼각치환을 본다.
Substitution(치환 적분법)
Theorem 3.11 (Substitution Rule)
\(u = g(x)\)가 미분 가능하고 \(f\)가 연속이면,
$$
\int f(g(x)) g'(x)\,dx = \int f(u)\,du
$$
정적분의 경우 적분 한계도 함께 바뀐다: \(\int_a^b f(g(x))g'(x)\,dx = \int_{g(a)}^{g(b)} f(u)\,du\).
Example 3.23
\(\int 2x \cos(x^2)\,dx\)를 구하자. \(u = x^2\)으로 놓으면 \(du = 2x\,dx\)이므로:
$$
\int 2x \cos(x^2)\,dx = \int \cos u\,du = \sin u + C = \sin(x^2) + C
$$
Integration by Parts(부분 적분법)
Theorem 3.12 (Integration by Parts)
$$
\int u\,dv = uv - \int v\,du
$$
\(u\) 선택에 유용한 기억법: LIATE (Logarithmic, Inverse trig, Algebraic, Trigonometric, Exponential).
Example 3.24
\(\int x e^x\,dx\)를 구하자. \(u = x\), \(dv = e^x\,dx\)로 놓으면 \(du = dx\), \(v = e^x\)이므로:
$$
\int x e^x\,dx = xe^x - \int e^x\,dx = xe^x - e^x + C = e^x(x - 1) + C
$$
Partial Fractions(부분 분수 분해)
\(\deg P < \deg Q\)인 유리함수 \(\frac{P(x)}{Q(x)}\)는 더 간단한 분수들로 분해할 수 있다. 예를 들어:
$$
\frac{1}{(x-1)(x+2)} = \frac{A}{x-1} + \frac{B}{x+2}
$$
Example 3.25
\(\int \frac{1}{(x-1)(x+2)}\,dx\)를 구하자. 부분 분수 분해를 하면:
$$
\frac{1}{(x-1)(x+2)} = \frac{1/3}{x-1} - \frac{1/3}{x+2}
$$
(\(A(x+2) + B(x-1) = 1\)에서 \(x = 1\)이면 \(3A = 1\), \(x = -2\)이면 \(-3B = 1\).) 따라서:
$$
\int \frac{1}{(x-1)(x+2)}\,dx = \frac{1}{3}\ln|x-1| - \frac{1}{3}\ln|x+2| + C = \frac{1}{3}\ln\left|\frac{x-1}{x+2}\right| + C
$$
Trigonometric Substitution(삼각 치환법)
| 식 | 치환 | 사용되는 항등식 |
| \(\sqrt{a^2 - x^2}\) | \(x = a\sin\theta\) | \(1 - \sin^2\theta = \cos^2\theta\) |
| \(\sqrt{a^2 + x^2}\) | \(x = a\tan\theta\) | \(1 + \tan^2\theta = \sec^2\theta\) |
| \(\sqrt{x^2 - a^2}\) | \(x = a\sec\theta\) | \(\sec^2\theta - 1 = \tan^2\theta\) |
3.7 적분의 응용
적분은 넓이, 부피, 호의 길이 같은 기하학적 양과 일(work), 유체 압력, 질량중심 같은 물리적 양을 계산한다. 회전체의 부피 공식은 축대칭 부품(샤프트, 노즐 등)의 체적 계산에 바로 이어진다.
넓이(Area)
두 곡선 \(y = f(x)\)와 \(y = g(x)\) 사이의 넓이는 (단, \(f(x) \geq g(x)\) on \([a, b]\)):
$$
A = \int_a^b [f(x) - g(x)]\,dx
$$
Example 3.26
\(y = x^2\)과 \(y = x\) 사이의 넓이를 구하자. 교점: \(x^2 = x\)이면 \(x = 0, 1\). 구간 \([0, 1]\)에서 \(x \geq x^2\)이므로:
$$
A = \int_0^1 (x - x^2)\,dx = \left[\frac{x^2}{2} - \frac{x^3}{3}\right]_0^1 = \frac{1}{2} - \frac{1}{3} = \frac{1}{6}
$$
부피 - Disk/Washer Method
곡선 \(y = f(x)\)를 \(x\)-축 주위로 회전시켜 얻는 회전체(solid of revolution)의 부피를 구하는 방법이다.
Theorem 3.13 (Disk Method)
\(y = f(x) \geq 0\)을 \(x\)-축 둘레로 회전시킨 회전체의 부피:
$$
V = \int_a^b \pi [f(x)]^2\,dx
$$
직관적으로, 각 단면이 반지름 \(f(x)\)인 원판(disk)이므로 단면적이 \(\pi [f(x)]^2\)이다.
Theorem 3.14 (Washer Method)
\(y = f(x)\)와 \(y = g(x)\) 사이의 영역을 \(x\)-축 둘레로 회전시킨 경우 (단, \(f(x) \geq g(x) \geq 0\)):
$$
V = \int_a^b \pi \left([f(x)]^2 - [g(x)]^2\right)\,dx
$$
단면이 바깥 반지름 \(f(x)\), 안쪽 반지름 \(g(x)\)인 와셔(washer, 구멍 뚫린 원판) 모양이다.
Example 3.27 (Disk Method)
\(y = \sqrt{x}\), \(0 \leq x \leq 4\)를 \(x\)-축 둘레로 회전시킨 회전체의 부피를 구하자.
$$
V = \int_0^4 \pi (\sqrt{x})^2\,dx = \pi \int_0^4 x\,dx = \pi \left[\frac{x^2}{2}\right]_0^4 = \pi \cdot 8 = 8\pi
$$
Example 3.28 (Washer Method)
\(y = x\)와 \(y = x^2\) 사이의 영역을 \(x\)-축 둘레로 회전시킨 부피를 구하자. 구간 \([0, 1]\)에서 \(x \geq x^2\)이므로:
$$
V = \int_0^1 \pi(x^2 - x^4)\,dx = \pi\left[\frac{x^3}{3} - \frac{x^5}{5}\right]_0^1 = \pi\left(\frac{1}{3} - \frac{1}{5}\right) = \frac{2\pi}{15}
$$
부피 - Shell Method(원통 껍질법)
Theorem 3.15 (Shell Method)
\(y = f(x) \geq 0\), \(a \leq x \leq b\) (\(a \geq 0\))의 영역을 \(y\)-축 둘레로 회전시킨 부피:
$$
V = \int_a^b 2\pi x \cdot f(x)\,dx
$$
각 \(x\)에서 높이 \(f(x)\), 반지름 \(x\), 두께 \(dx\)인 원통형 껍질(cylindrical shell)의 측면적 \(2\pi x \cdot f(x)\)을 적분하는 것이다.
Example 3.29 (Shell Method)
\(y = x^2\), \(0 \leq x \leq 1\)의 영역을 \(y\)-축 둘레로 회전시킨 부피를 구하자.
$$
V = \int_0^1 2\pi x \cdot x^2\,dx = 2\pi \int_0^1 x^3\,dx = 2\pi \cdot \frac{1}{4} = \frac{\pi}{2}
$$
Arc Length(호의 길이)
Theorem 3.16 (Arc Length)
\(f\)가 \([a, b]\)에서 연속인 도함수를 가지면, 곡선 \(y = f(x)\)의 \(a \leq x \leq b\) 구간에서의 호의 길이는:
$$
L = \int_a^b \sqrt{1 + [f'(x)]^2}\,dx
$$
이는 미소 호의 길이 \(ds = \sqrt{(dx)^2 + (dy)^2} = \sqrt{1 + (dy/dx)^2}\,dx\)를 적분한 것이다.
Example 3.30
\(y = \frac{2}{3}x^{3/2}\), \(0 \leq x \leq 3\)의 호의 길이를 구하자. \(y' = x^{1/2}\)이므로:
$$
L = \int_0^3 \sqrt{1 + x}\,dx = \left[\frac{2}{3}(1+x)^{3/2}\right]_0^3 = \frac{2}{3}(4^{3/2} - 1) = \frac{2}{3}(8 - 1) = \frac{14}{3}
$$
Improper Integrals(이상적분)
적분 구간이 무한이거나, 피적분함수가 적분 구간 내에서 무한대로 발산하는 경우를 이상적분(improper integral)이라 한다.
Definition 3.8 (Improper Integral)
Type I (무한 구간):
$$
\int_a^\infty f(x)\,dx = \lim_{R \to \infty} \int_a^R f(x)\,dx
$$
이 극한이 유한한 값으로 존재하면 이상적분이 수렴(converge)한다고 하고, 그렇지 않으면 발산(diverge)한다고 한다.
Type II (피적분함수의 불연속): \(f\)가 \(x = a\)에서 불연속이면,
$$
\int_a^b f(x)\,dx = \lim_{\varepsilon \to 0^+} \int_{a+\varepsilon}^b f(x)\,dx
$$
Example 3.31
\(\int_1^\infty \frac{1}{x^p}\,dx\)의 수렴/발산을 판정하자.
$$
\int_1^R x^{-p}\,dx = \begin{cases} \left[\frac{x^{1-p}}{1-p}\right]_1^R = \frac{R^{1-p} - 1}{1-p} & (p \neq 1) \\ [\ln x]_1^R = \ln R & (p = 1) \end{cases}
$$
- \(p > 1\): \(R \to \infty\)일 때 \(R^{1-p} \to 0\)이므로 적분값은 \(\frac{1}{p-1}\)로 수렴
- \(p = 1\): \(\ln R \to \infty\)이므로 발산
- \(p < 1\): \(R^{1-p} \to \infty\)이므로 발산
이 결과를
\(p\)-급수 판정(p-test)이라 하며, 급수의 적분 판정법과 직접 연결된다.
Example 3.32
\(\int_0^1 \frac{1}{\sqrt{x}}\,dx\)를 구하자. \(x = 0\)에서 피적분함수가 발산하므로 Type II 이상적분이다.
$$
\int_0^1 \frac{1}{\sqrt{x}}\,dx = \lim_{\varepsilon \to 0^+} \int_\varepsilon^1 x^{-1/2}\,dx = \lim_{\varepsilon \to 0^+} \left[2\sqrt{x}\right]_\varepsilon^1 = \lim_{\varepsilon \to 0^+} (2 - 2\sqrt{\varepsilon}) = 2
$$
3.8 무한 급수
비선형 시스템을 선형화하거나 디지털 필터의 전달함수를 근사할 때, 무한급수가 등장한다. Taylor 급수는 함수를 다항식으로 체계적으로 근사하고, 수렴 반경은 그 근사가 유효한 범위를 알려준다.
무한히 많은 항의 합이 유한한 값을 가질 수 있는가? 수렴 판정과 Taylor 전개가 그 답이다.
Definition 3.9 (Convergence of Series)
무한 급수 \(\sum_{n=1}^{\infty} a_n\)은 부분합의 수열 \(S_N = \sum_{n=1}^{N} a_n\)이 \(N \to \infty\)일 때 수렴하면 convergence(수렴)한다고 한다.
Convergence(수렴) 판정법
| 판정법 | 내용 |
| Comparison(비교 판정법) | \(0 \leq a_n \leq b_n\)이고 \(\sum b_n\)이 수렴하면, \(\sum a_n\)도 수렴한다 |
| Ratio Test(비율 판정법) | \(L = \lim \frac{a_{n+1}}{a_n}\): \(L < 1\)이면 수렴, \(L > 1\)이면 발산 |
| Root Test(거듭제곱근 판정법) | \(L = \lim \sqrt[n]{|a_n|}\): \(L < 1\)이면 수렴, \(L > 1\)이면 발산 |
| Integral Test(적분 판정법) | \(f\)가 \([1, \infty)\)에서 양수, 연속, 감소이고 \(f(n) = a_n\)이면, \(\sum a_n\)과 \(\int_1^\infty f(x)\,dx\)는 동시에 수렴하거나 발산한다 |
| Alternating Series(교대 급수 판정법) | \(b_n \downarrow 0\)이면 \(\sum (-1)^n b_n\)은 수렴한다 |
절대 수렴과 조건부 수렴(Absolute vs. Conditional Convergence)
Definition 3.10 (Absolute/Conditional Convergence)
- \(\sum |a_n|\)이 수렴하면, \(\sum a_n\)은 절대 수렴(absolutely convergent)한다고 한다.
- \(\sum a_n\)은 수렴하지만 \(\sum |a_n|\)은 발산하면, \(\sum a_n\)은 조건부 수렴(conditionally convergent)한다고 한다.
절대 수렴하면 반드시 수렴한다 (역은 성립하지 않는다).
절대 수렴은 "강한" 수렴이다: 절대 수렴하는 급수는 항의 순서를 바꾸어도 같은 값으로 수렴한다. 반면, 조건부 수렴하는 급수는 항을 재배열하면 임의의 값(또는 발산)으로 수렴시킬 수 있다 (Riemann rearrangement theorem).
Example 3.33
교대 조화 급수 \(\sum_{n=1}^\infty \frac{(-1)^{n+1}}{n} = 1 - \frac{1}{2} + \frac{1}{3} - \frac{1}{4} + \cdots\)는 교대 급수 판정법에 의해 수렴한다 (값은 \(\ln 2\)). 그러나 \(\sum \frac{1}{n}\)은 발산하므로, 이 급수는 조건부 수렴한다.
Power Series(멱급수)와 수렴 반경
Definition 3.11 (Power Series)
멱급수(power series)는 다음과 같은 형태의 급수이다:
$$
\sum_{n=0}^\infty c_n (x - a)^n = c_0 + c_1(x-a) + c_2(x-a)^2 + \cdots
$$
여기서 \(a\)를 중심(center), \(c_n\)을 계수(coefficient)라 한다.
Theorem 3.17 (수렴 반경)
멱급수 \(\sum c_n (x-a)^n\)에 대해, 다음 중 정확히 하나가 성립한다:
- \(x = a\)에서만 수렴 (수렴 반경 \(R = 0\))
- 모든 \(x\)에서 수렴 (수렴 반경 \(R = \infty\))
- 어떤 \(R > 0\)이 존재하여 \(|x - a| < R\)이면 절대 수렴하고 \(|x - a| > R\)이면 발산
이 \(R\)을
수렴 반경(radius of convergence)이라 하며, 비율 판정법 또는 거듭제곱근 판정법으로 구할 수 있다:
$$
R = \lim_{n \to \infty} \left|\frac{c_n}{c_{n+1}}\right| = \frac{1}{\limsup_{n \to \infty} |c_n|^{1/n}}
$$
(극한이 존재하는 경우.) 끝점 \(x = a \pm R\)에서의 수렴 여부는 별도로 검사해야 한다.
Example 3.34
\(\sum_{n=1}^\infty \frac{x^n}{n}\)의 수렴 반경을 구하자. 비율 판정법을 적용하면:
$$
\lim_{n \to \infty} \left|\frac{x^{n+1}/(n+1)}{x^n/n}\right| = |x| \cdot \lim_{n \to \infty} \frac{n}{n+1} = |x|
$$
\(|x| < 1\)이면 수렴, \(|x| > 1\)이면 발산. 따라서 \(R = 1\). 끝점 검사: \(x = 1\)이면 \(\sum \frac{1}{n}\) (발산), \(x = -1\)이면 \(\sum \frac{(-1)^n}{n}\) (수렴). 수렴 구간은 \([-1, 1)\).
Taylor Series(테일러 급수)
Theorem 3.18 (Taylor's Theorem)
\(f\)가 \(a\)에서 모든 차수의 derivative를 가지면, \(a\)에서의 \(f\)의 Taylor series(테일러 급수)는 다음과 같이 정의된다:
$$
\sum_{n=0}^{\infty} \frac{f^{(n)}(a)}{n!}(x-a)^n = f(a) + f'(a)(x-a) + \frac{f''(a)}{2!}(x-a)^2 + \cdots
$$
\(a = 0\)인 경우를 Maclaurin series(매클로린 급수)라 한다.
주의: Taylor 급수가 \(f(x)\)로 수렴하려면, 나머지(remainder) \(R_n(x) \to 0\) (\(n \to \infty\))이어야 한다. 모든 차수의 도함수가 존재하더라도 Taylor 급수가 \(f\)와 일치하지 않을 수 있다 (예: \(f(x) = e^{-1/x^2}\), \(f(0) = 0\)). 수렴이 보장되는 경우에만 \(f(x) = \sum_{n=0}^{\infty} \frac{f^{(n)}(a)}{n!}(x-a)^n\)이 성립한다.
Taylor 다항식과 나머지(Remainder)
Definition 3.12 (Taylor Polynomial)
\(f\)의 \(a\)에서의 \(n\)차 Taylor 다항식(Taylor polynomial)은:
$$
T_n(x) = \sum_{k=0}^{n} \frac{f^{(k)}(a)}{k!}(x-a)^k
$$
나머지(remainder)는 \(R_n(x) = f(x) - T_n(x)\)이다. Taylor 다항식은 \(a\) 근방에서 \(f\)를 \(n\)차까지 근사하는 유일한 다항식이며, \(a\)에서 \(f\)와 0차부터 \(n\)차까지의 도함수가 모두 일치한다.
Theorem 3.19 (Taylor's Remainder Theorem, Lagrange 형)
\(f\)가 \(a\)를 포함하는 열린 구간에서 \((n+1)\)번 미분 가능하면, \(a\)와 \(x\) 사이의 어떤 \(\xi\)에 대해:
$$
R_n(x) = \frac{f^{(n+1)}(\xi)}{(n+1)!}(x-a)^{n+1}
$$
이 나머지 공식은 근사의 오차 범위를 정량적으로 제공한다.
Example 3.35
\(e^x\)의 Maclaurin 다항식 \(T_3(x) = 1 + x + \frac{x^2}{2} + \frac{x^3}{6}\)을 이용하여 \(e^{0.1}\)을 근사하고, 오차 한계를 구하자.
\(T_3(0.1) = 1 + 0.1 + 0.005 + 0.000167 = 1.105167\).
나머지: \(|R_3(0.1)| = \frac{|f^{(4)}(\xi)|}{4!}(0.1)^4\). \(f^{(4)}(x) = e^x\)이고 \(0 < \xi < 0.1\)이므로 \(e^\xi < e^{0.1} < 3\). 따라서:
$$
|R_3(0.1)| < \frac{3}{24}(0.0001) = 0.0000125
$$
실제 \(e^{0.1} \approx 1.10517\)이므로 근사는 소수점 이하 4자리까지 정확하다.
Example 3.36
\(\sin x\)의 Maclaurin 급수로부터 \(\cos x\)의 급수를 유도하자. \(\sin x = \sum_{n=0}^\infty \frac{(-1)^n x^{2n+1}}{(2n+1)!}\)이므로, 항별 미분하면:
$$
\cos x = \frac{d}{dx}\sin x = \sum_{n=0}^\infty \frac{(-1)^n (2n+1)x^{2n}}{(2n+1)!} = \sum_{n=0}^\infty \frac{(-1)^n x^{2n}}{(2n)!}
$$
수렴 반경 내에서 멱급수의 항별 미분이 허용되므로, 이 과정은 정당하다.
주요 Taylor Series
$$
e^x = \sum_{n=0}^\infty \frac{x^n}{n!}, \quad
\sin x = \sum_{n=0}^\infty \frac{(-1)^n x^{2n+1}}{(2n+1)!}, \quad
\cos x = \sum_{n=0}^\infty \frac{(-1)^n x^{2n}}{(2n)!}
$$
$$
\frac{1}{1-x} = \sum_{n=0}^\infty x^n \;(|x|<1), \quad
\ln(1+x) = \sum_{n=1}^\infty \frac{(-1)^{n+1} x^n}{n} \;(|x| \leq 1, x \neq -1)
$$
$$
(1+x)^\alpha = \sum_{n=0}^\infty \binom{\alpha}{n} x^n \;(|x| < 1), \quad \text{여기서 } \binom{\alpha}{n} = \frac{\alpha(\alpha-1)\cdots(\alpha-n+1)}{n!}
$$
Example 3.37
\(\lim_{x \to 0} \frac{e^x - 1 - x}{x^2}\)를 Taylor 급수를 이용하여 구하자. \(e^x = 1 + x + \frac{x^2}{2} + O(x^3)\)이므로:
$$
\frac{e^x - 1 - x}{x^2} = \frac{\frac{x^2}{2} + O(x^3)}{x^2} = \frac{1}{2} + O(x) \to \frac{1}{2}
$$
Sources: MIT 18.01 (Lectures 1-39), UC Berkeley Math 1A/16A/16B, NCSU MA141/241, Princeton Calculus III, U Houston Calculus
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
4. 다변수 미적분학
현실 세계는 단일 변수 하나로 기술하기에 너무 복잡하다. 온도는 위치와 시간 모두에 의존하고, 지형의 높이는 경도와 위도의 함수이며, 기업의 이윤은 여러 생산 요소에 동시에 달려 있다. 3장에서 구축한 미적분학의 도구들을 다변수 함수로 확장하면, 편미분, 기울기 벡터, 다중 적분, 벡터장 위의 적분 등 새로운 개념과 기법이 등장한다. 일변수의 직관은 대부분 살아남지만, 차원이 높아지면 접근 경로가 무한히 많아져 복잡성이 커진다.
편미분은 열전도 방정식에서 온도의 공간적 변화율을, 유체역학에서 속도장의 각 성분 변화를 기술한다. 그래디언트(gradient)는 경사하강법(gradient descent)에서 손실 함수를 최소화하는 방향을 결정한다. 다중적분은 3차원 물체의 질량, 무게중심, 관성 모멘트를 계산하는 데 쓰이고, 발산 정리와 Stokes 정리는 맥스웰 방정식(Maxwell's equations)과 유체역학의 연속 방정식(continuity equation)을 기술한다.
4.1 다변수 극한과 연속
열판(heat plate) 위의 온도 분포처럼 두 변수 이상에 의존하는 함수를 다룰 때, 한 점 근방에서의 함수 행동을 분석하려면 먼저 다변수 극한과 연속의 개념을 확립해야 한다. 일변수와 달리 접근 경로가 무한히 많다. 이 하나의 차이가 다변수 극한을 훨씬 까다롭게 만든다.
일변수에서는 좌극한과 우극한, 두 방향만 고려하면 충분했다. 다변수에서는 한 점에 접근하는 경로가 무한히 많으므로 극한의 존재 조건이 훨씬 까다로워진다.
Definition 4.1 (다변수 극한)
\(f: \mathbb{R}^n \to \mathbb{R}\)에 대해, \(\mathbf{a}\)에서의 극한은 다음과 같이 정의된다:
$$
\lim_{\mathbf{x} \to \mathbf{a}} f(\mathbf{x}) = L
$$
이는 임의의 \(\epsilon > 0\)에 대해 \(\delta > 0\)이 존재하여 \(0 < \|\mathbf{x} - \mathbf{a}\| < \delta\)이면 \(|f(\mathbf{x}) - L| < \epsilon\)임을 뜻한다.
Example 4.1 (경로 의존성 -- 극한 미존재)
\(f(x, y) = \frac{xy}{x^2 + y^2}\)에 대해 \((0,0)\)에서의 극한을 조사하자.
- 경로 \(y = 0\): \(f(x, 0) = 0 \to 0\).
- 경로 \(y = x\): \(f(x, x) = \frac{x^2}{2x^2} = \frac{1}{2} \to \frac{1}{2}\).
서로 다른 경로에서 극한값이 다르므로, \(\displaystyle\lim_{(x,y) \to (0,0)} \frac{xy}{x^2 + y^2}\)는 존재하지 않는다.
Example 4.2 (경로 의존성 -- 미묘한 경우)
\(f(x, y) = \frac{x^2 y}{x^4 + y^2}\)에 대해 \((0,0)\)에서의 극한을 조사하자.
- 경로 \(y = mx\): \(f(x, mx) = \frac{mx^3}{x^4 + m^2 x^2} = \frac{mx}{x^2 + m^2} \to 0\). 모든 직선 경로에서 0으로 수렴한다.
- 경로 \(y = x^2\): \(f(x, x^2) = \frac{x^4}{x^4 + x^4} = \frac{1}{2}\).
직선 경로만으로는 극한이 0인 것처럼 보이지만, 포물선 경로 \(y = x^2\)을 따르면 \(\frac{1}{2}\)이다. 따라서 극한은 존재하지 않는다. 직선 경로 검사만으로는 충분하지 않다.
Definition 4.2 (다변수 연속)
\(f: \mathbb{R}^n \to \mathbb{R}\)가 \(\mathbf{a}\)에서 연속이란 \(\displaystyle\lim_{\mathbf{x} \to \mathbf{a}} f(\mathbf{x}) = f(\mathbf{a})\)임을 뜻한다. 다항식, 지수함수, 삼각함수 등의 합성은 정의역 내에서 연속이다.
4.2 Partial Derivative(편미분)과 Gradient(기울기 벡터)
열전도에서 "온도가 \(x\) 방향으로 얼마나 빠르게 변하는가?"를 묻는 것은 \(y\), \(z\)를 고정하고 \(x\)에 대해서만 미분하는 것이다. 이것이 편미분의 핵심 아이디어이며, 다변수 시스템에서 각 변수의 독립적 영향을 분석하는 기본 도구이다.
편미분들을 하나의 벡터로 모은 gradient(기울기 벡터)는 함수가 가장 빠르게 증가하는 방향과 그 크기를 알려준다.
Definition 4.3 (Partial Derivative)
\(f: \mathbb{R}^n \to \mathbb{R}\)에 대해, \(x_i\)에 대한 partial derivative(편미분)은 다음과 같이 정의된다:
$$
\frac{\partial f}{\partial x_i} = \lim_{h \to 0} \frac{f(x_1, \ldots, x_i + h, \ldots, x_n) - f(x_1, \ldots, x_n)}{h}
$$
Definition 4.4 (Gradient)
\(f: \mathbb{R}^n \to \mathbb{R}\)의 gradient(기울기 벡터)는 다음 벡터로 정의된다:
$$
\nabla f = \left(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \ldots, \frac{\partial f}{\partial x_n}\right)
$$
gradient는 가장 가파른 상승 방향을 가리키며, 등위면에 수직이다.
그래디언트의 방향이 최대 증가 방향이라는 성질은 기계학습에서 경사하강법(gradient descent)의 수학적 근거이다. 손실 함수 \(L(\mathbf{w})\)의 파라미터 \(\mathbf{w}\)를 \(-\nabla L\) 방향으로 갱신하면 손실이 가장 빠르게 감소한다.
Theorem 4.1 (Chain Rule, Multivariable)
\(f = f(x, y)\)이고 \(x = x(t), y = y(t)\)이면, 다음이 성립한다:
$$
\frac{df}{dt} = \frac{\partial f}{\partial x}\frac{dx}{dt} + \frac{\partial f}{\partial y}\frac{dy}{dt}
$$
고차 Partial Derivative(편미분)
Theorem 4.2 (Clairaut's Theorem)
\(f_{xy}\)와 \(f_{yx}\)가 모두 연속이면, \(f_{xy} = f_{yx}\)이다. 즉, 혼합 partial derivative(편미분)의 미분 순서를 교환할 수 있다.
방향 도함수
Definition 4.5 (Directional Derivative)
단위 벡터 \(\hat{\mathbf{u}}\) 방향으로 점 \(\mathbf{a}\)에서의 \(f\)의 도함수는 다음과 같다:
$$
D_{\hat{\mathbf{u}}} f(\mathbf{a}) = \nabla f(\mathbf{a}) \cdot \hat{\mathbf{u}} = |\nabla f(\mathbf{a})| \cos\theta
$$
여기서 \(\theta\)는 \(\nabla f\)와 \(\hat{\mathbf{u}}\) 사이의 각도이다.
4.3 Taylor 전개 (2변수)
비선형 시스템의 안정성을 분석하거나 최적화 알고리즘을 설계할 때, 함수를 동작점 근방에서 2차 다항식으로 근사하는 것이 핵심 단계이다. 2차 근사의 계수를 담고 있는 것이 Hessian 행렬이며, 그 고유값의 부호가 임계점의 성질(극소, 극대, 안장점)을 결정한다. Newton 방법 기반 최적화 알고리즘은 이 2차 Taylor 전개에 기반한다.
Theorem 4.3 (2변수 Taylor 전개)
\(f(x,y)\)가 \((a,b)\) 근방에서 충분히 미분 가능하면, 다음이 성립한다:
$$
f(x,y) = f(a,b) + f_x(a,b)(x-a) + f_y(a,b)(y-b)
$$
$$
+ \frac{1}{2!}\left[f_{xx}(a,b)(x-a)^2 + 2f_{xy}(a,b)(x-a)(y-b) + f_{yy}(a,b)(y-b)^2\right] + \cdots
$$
여기서 2차까지의 전개를 행렬 형태로 쓰면:
$$
f(\mathbf{x}) \approx f(\mathbf{a}) + \nabla f(\mathbf{a})^T (\mathbf{x} - \mathbf{a}) + \frac{1}{2}(\mathbf{x} - \mathbf{a})^T H_f(\mathbf{a})(\mathbf{x} - \mathbf{a})
$$
여기서 \(H_f\)는 Hessian matrix(헤시안 행렬)이다:
$$
H_f = \begin{pmatrix} f_{xx} & f_{xy} \\ f_{yx} & f_{yy} \end{pmatrix}.
$$
Example 4.3 (2차 판정법)
\(f(x,y) = x^3 - 3xy + y^3\)의 극값을 구하라.
풀이. \(f_x = 3x^2 - 3y = 0\), \(f_y = -3x + 3y^2 = 0\). 첫째 식에서 \(y = x^2\)이고, 둘째 식에 대입하면 \(-3x + 3x^4 = 0\), 즉 \(x(x^3 - 1) = 0\). 따라서 임계점은 \((0,0)\)과 \((1,1)\)이다.
\(f_{xx} = 6x\), \(f_{yy} = 6y\), \(f_{xy} = -3\)이므로 \(D = 36xy - 9\)이다.
- \((0,0)\): \(D = -9 < 0\). 안장점이다.
- \((1,1)\): \(D = 36 - 9 = 27 > 0\)이고 \(f_{xx} = 6 > 0\). 극소이며, \(f(1,1) = -1\)이다.
4.4 Lagrange 승수법
공학 설계에서 최적화는 거의 항상 제약 조건을 동반한다. 항공기 날개의 양력을 최대화하되 무게 제한을 만족해야 하고, 통신 채널의 데이터 전송률을 최대화하되 전력 제한 내에서 운용해야 한다. 이처럼 등식 제약 조건 하의 최적화를 체계적으로 푸는 방법이 Lagrange 승수법이다.
Theorem 4.4 (Lagrange Multiplier Method)
\(g(\mathbf{x}) = c\)라는 제약 조건 하에서 \(f(\mathbf{x})\)를 최적화하려면, 다음 조건을 만족하는 점 \(\mathbf{x}\)와 승수 \(\lambda\)를 구한다:
$$
\nabla f = \lambda \nabla g, \qquad g(\mathbf{x}) = c.
$$
기하학적으로 이는 \(f\)의 등위면과 제약 곡면이 접하는 점, 즉 두 gradient가 평행한 점에 해당한다.
Example 4.4 (Lagrange 승수법 -- 기본)
제약 조건 \(x^2 + y^2 = 1\) 하에서 \(f(x,y) = x + y\)의 최댓값과 최솟값을 구하라.
풀이. \(\nabla f = (1, 1)\), \(\nabla g = (2x, 2y)\)이므로 \(1 = 2\lambda x\), \(1 = 2\lambda y\). 따라서 \(x = y\)이다. 제약 조건 \(x^2 + y^2 = 1\)에 대입하면 \(2x^2 = 1\), 즉 \(x = y = \pm\frac{1}{\sqrt{2}}\)이다.
- 최댓값: \(f\!\left(\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}\right) = \sqrt{2}\).
- 최솟값: \(f\!\left(-\frac{1}{\sqrt{2}}, -\frac{1}{\sqrt{2}}\right) = -\sqrt{2}\).
Example 4.5 (Lagrange 승수법 -- 3변수)
제약 조건 \(x + y + z = 12\) 하에서 \(f(x,y,z) = xyz\)의 최댓값을 구하라 (\(x, y, z > 0\)).
풀이. \(\nabla f = (yz, xz, xy)\), \(\nabla g = (1, 1, 1)\)이므로:
$$
yz = \lambda, \quad xz = \lambda, \quad xy = \lambda.
$$
첫 두 식에서 \(yz = xz\), 즉 \(y = z\) (\(z \neq 0\)). 마찬가지로 \(x = y = z\)이다. \(3x = 12\)이므로 \(x = y = z = 4\)이고, 최댓값은 \(f(4,4,4) = 64\)이다.
Example 4.6 (Lagrange 승수법 -- 타원체 위의 최대 거리)
타원체 \(\frac{x^2}{4} + \frac{y^2}{9} + z^2 = 1\) 위에서 원점으로부터의 거리 \(d^2 = x^2 + y^2 + z^2\)를 최대화하라.
풀이. \(f = x^2 + y^2 + z^2\), \(g = \frac{x^2}{4} + \frac{y^2}{9} + z^2 = 1\)로 놓는다.
$$
2x = \lambda \cdot \frac{x}{2}, \quad 2y = \lambda \cdot \frac{2y}{9}, \quad 2z = 2\lambda z.
$$
첫 번째 식에서 \(x(2 - \lambda/2) = 0\), 즉 \(x = 0\) 또는 \(\lambda = 4\)이다. 세 번째 식에서 \(z = 0\) 또는 \(\lambda = 1\). 두 번째 식에서 \(y = 0\) 또는 \(\lambda = 9\).
- \(\lambda = 9\): \(x = z = 0\), \(y^2/9 = 1\), \(y = \pm 3\). \(f = 9\). (최대)
- \(\lambda = 4\): \(y = z = 0\), \(x^2/4 = 1\), \(x = \pm 2\). \(f = 4\).
- \(\lambda = 1\): \(x = y = 0\), \(z^2 = 1\), \(z = \pm 1\). \(f = 1\). (최소)
원점으로부터 최대 거리는 \(\sqrt{9} = 3\)이며, 점 \((0, \pm 3, 0)\)에서 달성된다.
4.5 다중 적분
3차원 물체의 질량을 구하려면 밀도를 부피 전체에 걸쳐 적분해야 하고, 회전체의 관성 모멘트를 계산하려면 질량 요소와 회전축까지의 거리의 제곱을 적분해야 한다. 원형이나 구형 대칭을 가진 영역에서는 직교좌표 대신 극좌표, 원통좌표, 구면좌표를 사용하면 적분이 크게 간단해진다.
Definition 4.6 (Double Integral)
$$
\iint_R f(x,y)\,dA = \lim_{\Delta A \to 0} \sum f(x_i^*, y_i^*) \Delta A_i
$$
반복 적분으로 계산된다: \(\int_a^b \int_{g_1(x)}^{g_2(x)} f(x,y)\,dy\,dx\).
Theorem 4.5 (Change of Variables)
변환 \((x, y) = T(u, v)\)에 대해:
$$
\iint_R f(x, y)\,dx\,dy = \iint_S f(T(u,v)) \left|\frac{\partial(x, y)}{\partial(u, v)}\right| du\,dv
$$
여기서 \(\left|\frac{\partial(x,y)}{\partial(u,v)}\right|\)는 Jacobian(야코비안) 행렬식의 절댓값이다.
극좌표, 원통좌표, 구면좌표
| 좌표계 | 변환 | Jacobian(야코비안) |
| 극좌표 | \(x = r\cos\theta,\; y = r\sin\theta\) | \(r\) |
| 원통좌표 | \(x = r\cos\theta,\; y = r\sin\theta,\; z = z\) | \(r\) |
| 구면좌표 | \(x = \rho\sin\phi\cos\theta,\; y = \rho\sin\phi\sin\theta,\; z = \rho\cos\phi\) | \(\rho^2 \sin\phi\) |
4.6 벡터 미적분학
전기장, 자기장, 유체의 속도장은 공간의 각 점에 벡터가 대응하는 벡터장(vector field)이다. 맥스웰 방정식은 전자기장의 발산(divergence)과 회전(curl)으로, 유체역학의 연속 방정식은 속도장의 발산으로 기술된다.
Definition 4.7 (Vector Differential Operators)
스칼라장 \(f\)와 벡터장 \(\mathbf{F} = (P, Q, R)\)에 대해:
- Gradient: \(\nabla f = \left(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}, \frac{\partial f}{\partial z}\right)\)
- Divergence(발산): \(\nabla \cdot \mathbf{F} = \frac{\partial P}{\partial x} + \frac{\partial Q}{\partial y} + \frac{\partial R}{\partial z}\)
- Curl(회전): \(\nabla \times \mathbf{F} = \left(\frac{\partial R}{\partial y} - \frac{\partial Q}{\partial z},\; \frac{\partial P}{\partial z} - \frac{\partial R}{\partial x},\; \frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y}\right)\)
- Laplacian(라플라시안): \(\nabla^2 f = \frac{\partial^2 f}{\partial x^2} + \frac{\partial^2 f}{\partial y^2} + \frac{\partial^2 f}{\partial z^2}\)
선적분
Definition 4.8 (Line Integral)
곡선 \(C\)를 매개변수 \(\mathbf{r}(t) = (x(t), y(t), z(t))\), \(a \leq t \leq b\)로 표현할 때:
- 스칼라 선적분: \(\displaystyle\int_C f\,ds = \int_a^b f(\mathbf{r}(t))\,|\mathbf{r}'(t)|\,dt\)
- 벡터 선적분: \(\displaystyle\int_C \mathbf{F} \cdot d\mathbf{r} = \int_a^b \mathbf{F}(\mathbf{r}(t)) \cdot \mathbf{r}'(t)\,dt\)
Example 4.7 (선적분 계산)
\(\mathbf{F} = (y, -x)\)에 대해, 원점에서 \((1,1)\)까지의 선적분을 두 경로로 계산하라.
경로 1: 직선 \(\mathbf{r}(t) = (t, t)\), \(0 \leq t \leq 1\). \(\mathbf{r}'(t) = (1, 1)\).
$$
\int_C \mathbf{F} \cdot d\mathbf{r} = \int_0^1 (t, -t) \cdot (1, 1)\,dt = \int_0^1 (t - t)\,dt = 0.
$$
경로 2: \((0,0) \to (1,0) \to (1,1)\). 첫 구간: \(\mathbf{r}(t) = (t, 0)\), \(\int_0^1 (0, -t) \cdot (1, 0)\,dt = 0\). 둘째 구간: \(\mathbf{r}(t) = (1, t)\), \(\int_0^1 (t, -1) \cdot (0, 1)\,dt = \int_0^1 (-1)\,dt = -1\). 합계: \(0 + (-1) = -1\).
경로에 따라 값이 다르므로, \(\mathbf{F}\)는 보존장(conservative field)이 아니다. 실제로 \(\frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y} = -1 - 1 = -2 \neq 0\)이다.
면적분
Definition 4.9 (Surface Integral)
곡면 \(S\)를 \(\mathbf{r}(u,v)\)로 매개변수화할 때:
- 스칼라 면적분: \(\displaystyle\iint_S f\,dS = \iint_D f(\mathbf{r}(u,v))\,|\mathbf{r}_u \times \mathbf{r}_v|\,du\,dv\)
- 벡터 면적분 (유량): \(\displaystyle\iint_S \mathbf{F} \cdot d\mathbf{S} = \iint_D \mathbf{F}(\mathbf{r}(u,v)) \cdot (\mathbf{r}_u \times \mathbf{r}_v)\,du\,dv\)
곡면이 \(z = g(x,y)\)로 주어지면, \(d\mathbf{S} = (-g_x, -g_y, 1)\,dA\)이다.
Example 4.8 (면적분 계산)
\(\mathbf{F} = (0, 0, z)\)에 대해, 반구 \(z = \sqrt{1 - x^2 - y^2}\) (상반구, \(z \geq 0\))에서의 유량 \(\iint_S \mathbf{F} \cdot d\mathbf{S}\)를 구하라. 법선은 바깥쪽(위쪽)을 향한다.
풀이. \(z = g(x,y) = \sqrt{1-x^2-y^2}\)이므로:
$$
d\mathbf{S} = \left(\frac{x}{\sqrt{1-x^2-y^2}},\; \frac{y}{\sqrt{1-x^2-y^2}},\; 1\right) dA.
$$
(부호 주의: 위쪽 법선이므로 \((-g_x, -g_y, 1)\)에서 \(-g_x = x/\sqrt{\cdots}\).) \(\mathbf{F} \cdot d\mathbf{S} = z \cdot 1\,dA = \sqrt{1-x^2-y^2}\,dA\).
극좌표로 전환하면:
$$
\iint_S \mathbf{F} \cdot d\mathbf{S} = \int_0^{2\pi}\int_0^1 \sqrt{1-r^2}\,r\,dr\,d\theta = 2\pi \left[-\frac{1}{3}(1-r^2)^{3/2}\right]_0^1 = \frac{2\pi}{3}.
$$
4.7 적분 정리와 활용 예제
전자기학에서 가우스 법칙(Gauss's law)은 폐곡면을 통과하는 전기 선속(electric flux)이 내부 전하량에 비례한다는 것인데, 이는 발산 정리의 직접적인 적용이다. 앙페르 법칙(Ampere's law)은 Stokes 정리가 기술한다. 폐곡선을 따른 자기장의 선적분은 내부 전류에 비례한다. 이 적분 정리들은 물리 법칙의 국소적 형태(미분 방정식)와 전역적 형태(적분 방정식)를 서로 변환할 수 있게 해 준다.
Theorem 4.6 (Green's Theorem)
\(C\)가 영역 \(D\)를 둘러싸는 양의 방향, 조각적으로 매끄러운 단순 폐곡선이라 하자. 그러면 다음이 성립한다:
$$
\oint_C (P\,dx + Q\,dy) = \iint_D \left(\frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y}\right) dA
$$
Example 4.9 (Green's Theorem 활용 -- 넓이 계산)
Green's Theorem을 사용하여 타원 \(\frac{x^2}{a^2} + \frac{y^2}{b^2} = 1\)의 넓이를 구하라.
풀이. \(P = 0, Q = x\)로 놓으면 \(\frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y} = 1\)이므로:
$$
\text{Area} = \iint_D dA = \oint_C x\,dy.
$$
매개변수화: \(x = a\cos t, y = b\sin t\), \(0 \leq t \leq 2\pi\). \(dy = b\cos t\,dt\).
$$
\oint_C x\,dy = \int_0^{2\pi} a\cos t \cdot b\cos t\,dt = ab\int_0^{2\pi} \cos^2 t\,dt = ab \cdot \pi = \pi ab.
$$
Example 4.10 (Green's Theorem 활용 -- 순환 계산)
\(\mathbf{F} = (x^2 - y, x + y^2)\)에 대해, 단위원 \(C\) (반시계 방향)를 따른 순환 \(\oint_C \mathbf{F} \cdot d\mathbf{r}\)을 구하라.
풀이. \(P = x^2 - y\), \(Q = x + y^2\). \(\frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y} = 1 - (-1) = 2\).
$$
\oint_C \mathbf{F} \cdot d\mathbf{r} = \iint_D 2\,dA = 2 \cdot \pi(1)^2 = 2\pi.
$$
Theorem 4.7 (Stokes' Theorem)
\(S\)가 곡선 \(C\)로 둘러싸인 향이 부여된 곡면이라 하자. 그러면 다음이 성립한다:
$$
\oint_C \mathbf{F} \cdot d\mathbf{r} = \iint_S (\nabla \times \mathbf{F}) \cdot d\mathbf{S}
$$
Example 4.11 (Stokes' Theorem 활용)
\(\mathbf{F} = (y, -x, z^2)\)에 대해, 평면 \(z = 0\) 위의 단위원 \(C\) (반시계 방향)를 따른 선적분을 Stokes' Theorem으로 구하라.
풀이. \(\nabla \times \mathbf{F} = \left(\frac{\partial z^2}{\partial y} - \frac{\partial(-x)}{\partial z},\; \frac{\partial y}{\partial z} - \frac{\partial z^2}{\partial x},\; \frac{\partial(-x)}{\partial x} - \frac{\partial y}{\partial y}\right) = (0, 0, -2)\).
\(S\)를 \(z = 0\)인 단위 원판으로 택하면, 법선은 \(\hat{\mathbf{n}} = (0, 0, 1)\)이다.
$$
\oint_C \mathbf{F} \cdot d\mathbf{r} = \iint_S (0, 0, -2) \cdot (0, 0, 1)\,dA = \iint_S (-2)\,dA = -2\pi.
$$
Example 4.12 (Stokes' Theorem -- 곡면 선택의 자유)
\(\mathbf{F} = (-y^2, x, z^2)\)에 대해, 삼각형 \((1,0,0), (0,1,0), (0,0,1)\)의 경계 \(C\)를 따른 선적분을 구하라.
풀이. \(\nabla \times \mathbf{F} = (0, 0, 1 + 2y)\). 삼각형은 평면 \(x + y + z = 1\) 위에 있고, 법선 \(\hat{\mathbf{n}} = \frac{1}{\sqrt{3}}(1,1,1)\), \(dS = \sqrt{3}\,dA\)이다. \((\nabla \times \mathbf{F}) \cdot \hat{\mathbf{n}}\,dS = (1 + 2y)\,dA\).
$$
\oint_C \mathbf{F} \cdot d\mathbf{r} = \iint_D (1 + 2y)\,dA,
$$
여기서 \(D\)는 \(xy\)-평면 위의 삼각형 \(\{(x,y) : x \geq 0, y \geq 0, x+y \leq 1\}\)이다.
$$
= \int_0^1 \int_0^{1-x} (1 + 2y)\,dy\,dx = \int_0^1 \left[(1-x) + (1-x)^2\right] dx = \frac{1}{2} + \frac{1}{3} = \frac{5}{6}.
$$
Theorem 4.8 (Divergence Theorem / Gauss's Theorem)
\(V\)가 폐곡면 \(S\)로 둘러싸인 입체 영역이라 하자. 그러면 다음이 성립한다:
$$
\oiint_S \mathbf{F} \cdot d\mathbf{S} = \iiint_V (\nabla \cdot \mathbf{F})\,dV
$$
폐곡면을 통과하는 유량(flux)의 총합은 내부에서의 "생성량"(발산의 적분)과 같다. 전자기학의 가우스 법칙 \(\oiint \mathbf{E} \cdot d\mathbf{S} = Q_{\text{enc}}/\varepsilon_0\)이 바로 이 정리의 직접적인 적용이다.
Example 4.13 (Divergence Theorem 활용 -- 구)
\(\mathbf{F} = (x, y, z)\)에 대해, 반지름 \(R\)인 구면 \(S\)를 통과하는 유량을 구하라.
풀이. \(\nabla \cdot \mathbf{F} = 1 + 1 + 1 = 3\). Divergence Theorem에 의해:
$$
\oiint_S \mathbf{F} \cdot d\mathbf{S} = \iiint_V 3\,dV = 3 \cdot \frac{4}{3}\pi R^3 = 4\pi R^3.
$$
Example 4.14 (Divergence Theorem 활용 -- 원기둥)
\(\mathbf{F} = (x^2, y^2, z^2)\)에 대해, 원기둥 \(x^2 + y^2 \leq 1, 0 \leq z \leq 2\)의 폐곡면 \(S\)를 통과하는 유량을 구하라.
풀이. \(\nabla \cdot \mathbf{F} = 2x + 2y + 2z\). 원통좌표로:
$$
\iiint_V (2x + 2y + 2z)\,dV = \int_0^{2\pi}\int_0^1\int_0^2 (2r\cos\theta + 2r\sin\theta + 2z)\,r\,dz\,dr\,d\theta.
$$
\(\int_0^{2\pi} \cos\theta\,d\theta = \int_0^{2\pi} \sin\theta\,d\theta = 0\)이므로, \(2r\cos\theta\)와 \(2r\sin\theta\) 항은 사라진다. 남는 것은:
$$
\int_0^{2\pi}\int_0^1\int_0^2 2zr\,dz\,dr\,d\theta = 2\pi \cdot \int_0^1 r\,dr \cdot \int_0^2 2z\,dz = 2\pi \cdot \frac{1}{2} \cdot 4 = 4\pi.
$$
Sources: MIT 18.02 (Lectures 1-35), UC Berkeley Math 53, U Maryland Math 241, UoU Vector Calculus, UNSW Vector Calculus
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Calculus (Strang) — MIT OCW 무료 교재 PDF — Ch 11-16
- Stewart, Calculus: Early Transcendentals — Ch 12-16: 벡터, 편미분, 다중적분, 벡터미적분
- Apostol, Calculus, Vol. 2 — 다변수 미적분과 선형대수
- Hubbard & Hubbard, Vector Calculus, Linear Algebra, and Differential Forms — 현대적 통합 접근
- Marsden & Tromba, Vector Calculus — 벡터 해석학 표준 교재
- Calculus for Beginners and Artists (Kleitman, MIT)
5. Ordinary Differential Equations
자연 현상의 대부분은 변화율로 기술된다. 물체의 운동, 회로의 전류, 인구의 증가 — 이 모든 것이 미분방정식으로 표현된다. 미적분학에서 도함수를 배웠다면, 이제 '도함수를 포함하는 방정식'을 풀어야 한다. 주어진 함수의 도함수를 구하는 것이 미분이었다면, 미분방정식은 그 역문제다: 도함수에 대한 조건으로부터 원래 함수를 복원한다.
ODE(상미분방정식)는 공학 전반에 걸쳐 등장한다. RC 회로에 전압을 인가하면 커패시터 양단의 전압은 1차 ODE를 따라 지수적으로 변화하고, 스프링에 매달린 질량체의 운동은 2차 ODE로 기술되어 감쇠 진동이나 공명 현상을 예측할 수 있다. 로봇 팔의 각 관절 운동방정식이나 화학 반응조의 농도 속도론도 다르지 않다. 시간에 따라 변하는 시스템을 수학으로 기술하면 결국 ODE가 된다. 이 장의 풀이법들은 실제 시스템의 과도응답(transient response), 정상상태(steady state), 안정성(stability)을 분석하는 데 쓰인다.
ODE는 단일 독립변수의 함수와 그 도함수 사이의 관계식이다. 여기서는 독립변수를 \( t \), 종속변수를 \( x \), \( \dot{x} = dx/dt \), \( \ddot{x} = d^2x/dt^2 \)로 표기한다.
5.1. First-Order ODEs
가장 간단한 미분방정식인 1차 ODE부터 시작한다. 1차 ODE는 뉴턴의 냉각 법칙(Newton's law of cooling)에서 물체의 온도 변화, 탱크 혼합 문제에서 용액 농도의 시간 변화, 방사성 동위원소의 붕괴, RC 회로에서 커패시터 충전 과정 등을 기술한다. 이러한 문제들의 공통점은 변화율이 현재 상태의 함수라는 것이다.
Definition 5.1 (First-Order ODE)
1차 ODE는 다음 형태의 방정식이다:
$$ \dot{x} = f(t, x). $$
해(solution)란 어떤 구간에서 정의되어 이 관계식을 만족하는 함수 \( x(t) \)이다. 정의역이 구간이어야 한다는 조건은 그래프가 연결된 곡선임을 보장한다.
5.1.1. Separable Equations
분리가능 방정식은 가장 먼저 시도할 수 있는 풀이법이다. 방사성 붕괴 \( \dot{N} = -\lambda N \)이나 1차 화학 반응 \( \dot{c} = -kc \)처럼 변화율이 종속변수만의 함수와 독립변수만의 함수의 곱으로 분해되면, 양변을 분리하여 각각 적분할 수 있다.
Definition 5.2 (Separable Equation)
1차 ODE가 다음 형태로 쓸 수 있으면 separable(분리가능)하다고 한다:
$$ \dot{x} = g(t)\,h(x). $$
Example 5.1
\( \dot{x} = tx^2 \)를 풀어라. 변수 분리: \( x^{-2}\,dx = t\,dt \). 적분하면:
$$ -\frac{1}{x} = \frac{t^2}{2} + C \quad \Longrightarrow \quad x(t) = \frac{-1}{\tfrac{t^2}{2} + C} = \frac{-2}{t^2 + C_1}. $$
상수해 \( x(t) = 0 \)도 존재한다.
5.1.2. First-Order Linear Equations
분리가능하지 않더라도 방정식이 선형이면 적분인자(integrating factor)라는 체계적 방법으로 풀 수 있다. RC 회로에서 시간에 따라 변하는 전압원 \( V(t) \)가 인가될 때 커패시터 전하 \( q \)는 \( \dot{q} + q/(RC) = V(t)/R \)을 만족하며, 이것이 전형적인 1차 선형 ODE이다.
Definition 5.3 (First-Order Linear ODE)
1차 선형 ODE의 표준형은 다음과 같다:
$$ \dot{x} + p(t)\,x = q(t). $$
Theorem 5.1 (Integrating Factor)
\( \dot{x} + p(t)\,x = q(t) \)의 일반해는 다음과 같다:
$$ x(t) = e^{-\mu(t)} \left( \int e^{\mu(t)}\,q(t)\,dt + C \right), $$
여기서 \( \mu(t) = \int p(t)\,dt \)는 integrating factor(적분인자) 지수이다.
Proof
방정식의 양변에 \( e^{\mu(t)} \)를 곱한다. 좌변은 \( \frac{d}{dt}\!\bigl[e^{\mu(t)} x\bigr] \)가 되는데, 이는 다음과 같기 때문이다:
$$ \frac{d}{dt}\!\bigl[e^{\mu(t)} x\bigr] = e^{\mu(t)}\dot{x} + p(t)\,e^{\mu(t)} x = e^{\mu(t)}\bigl(\dot{x} + p(t)\,x\bigr). $$
양변을 적분하면 위의 공식을 얻는다. \(\square\)
5.1.3. Exact Equations
완전미분방정식은 다변수 미적분의 관점에서 자연스럽게 등장한다. 어떤 물리량 \( F(t,x) \)가 보존되는 시스템(예: 보존력장에서의 에너지)에서 \( F = \text{const} \)라는 조건을 전미분하면 완전방정식이 된다. 완전성 판정 조건은 "혼합 편도함수의 순서 교환"과 같다.
Definition 5.4 (Exact Equation)
방정식 \( M(t,x)\,dt + N(t,x)\,dx = 0 \)이 완전(exact)하다 함은 다음을 만족하는 함수 \( F(t,x) \)가 존재하는 것이다:
$$ \frac{\partial F}{\partial t} = M, \qquad \frac{\partial F}{\partial x} = N. $$
이때 해는 \( F(t,x) = C \)로 음함수적으로 주어진다.
Theorem 5.2 (Exactness Test)
\( M \)과 \( N \)이 단순 연결 영역에서 연속인 1차 편도함수를 가지면, \( M\,dt + N\,dx = 0 \)이 완전할 필요충분조건은 다음과 같다:
$$ \frac{\partial M}{\partial x} = \frac{\partial N}{\partial t}. $$
Example 5.2
\( (2tx + 3)\,dt + (t^2 + 4x)\,dx = 0 \)을 생각하자. 여기서 \( M = 2tx + 3 \), \( N = t^2 + 4x \)이다. 확인: \( M_x = 2t = N_t \)이므로 방정식은 완전하다. \( F \)를 적분으로 구하면:
$$ F = \int M\,dt = t^2 x + 3t + g(x), \quad F_x = t^2 + g'(x) = t^2 + 4x \implies g(x) = 2x^2. $$
해는 \( t^2 x + 3t + 2x^2 = C \)이다.
5.2. Existence and Uniqueness
풀이법을 적용하기 전에, 해가 존재하는지, 존재한다면 유일한지를 먼저 물어야 한다. 이는 단순한 이론적 호기심이 아니다. 공학 시뮬레이션에서 수치 해법이 의미 있는 결과를 내려면, 풀고 있는 초기값 문제가 유일한 해를 가져야 한다. 해가 유일하지 않다면 초기 조건의 미세한 오차가 전혀 다른 궤적으로 분기할 수 있고, 시뮬레이션 결과를 신뢰할 수 없게 된다.
Theorem 5.3 (Picard–Lindelöf / Existence and Uniqueness)
\( f(t,x) \)가 점 \( (a,b) \)를 포함하는 영역에서 연속이고, \( \partial f/\partial x \)가 그 영역에서 존재하며 연속이라고 하자. 그러면 초기값 문제
$$ \dot{x} = f(t,x), \qquad x(a) = b $$
는 \( a \)를 포함하는 어떤 열린 구간에서 유일한 해를 갖는다.
Sources: MIT 18.03, Chapter 1 (Notation and Language, §1.5)
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Notes on Diffy Qs (Lebl) — 무료 ODE 교재
- Elementary Differential Equations (Trench) — 무료 교재 PDF
- Boyce & DiPrima, Elementary Differential Equations and Boundary Value Problems — ODE 표준 교재
- Tenenbaum & Pollard, Ordinary Differential Equations — Dover 고전, 풍부한 예제
- Arnold, Ordinary Differential Equations — 기하학적 관점의 현대적 ODE
- Coddington & Levinson, Theory of Ordinary Differential Equations — 대학원 수준 이론
Picard-Lindelof 정리가 Lipschitz 조건을 요구하는 반면, Peano 정리는 연속성만으로 해의 존재(유일성은 아닌)를 보장한다. 유일성이 깨지는 상황을 알아야 비선형 시스템의 분기(bifurcation) 현상을 제대로 읽을 수 있다.
Theorem 5.4 (Peano Existence Theorem)
\( f(t,x) \)가 단순히 연속이기만 하면 (Lipschitz/미분가능성 조건 없이), 해가 적어도 하나 존재하지만, 유일성은 성립하지 않을 수 있다.
Example 5.3
초기값 문제 \( \dot{x} = x^{2/3},\; x(0) = 0 \)은 자명한 해 \( x(t) = 0 \)과 \( t \geq 0 \)에서 \( x(t) = (t/3)^3 \)을 모두 갖는다. 여기서 \( \partial f/\partial x = \tfrac{2}{3}x^{-1/3} \)은 \( x = 0 \)에서 연속이 아니므로, 원점에서 유일성이 성립하지 않는다.
1차 ODE의 풀이법을 익혔으니 차수를 높여 2차 ODE를 다룬다. 2차 ODE는 진동 현상과 직결된다. 스프링에 매달린 물체나 RLC 회로가 모두 2차 ODE로 모델링된다. 1차 ODE가 지수적 성장·감쇠만을 기술했다면, 2차 ODE에서는 진동과 공명이라는 질적으로 새로운 거동이 나타난다.
5.3. Second-Order Linear ODEs with Constant Coefficients
2차 ODE의 표준형 \( m\ddot{x} + b\dot{x} + kx = q(t) \)는 뉴턴의 제2법칙 그 자체이다. 질량 \( m \)인 물체에 스프링 복원력 \( -kx \), 점성 감쇠력 \( -b\dot{x} \), 외력 \( q(t) \)가 작용하는 상황을 그대로 기술한다. 전기공학에서는 RLC 직렬 회로의 전류가 동일한 형태의 방정식 \( L\ddot{q} + R\dot{q} + q/C = V(t) \)를 따르며, 기계공학의 스프링-질량-댐퍼 시스템과 수학적으로 완벽히 대응된다. 특성방정식의 근이 실수인지 복소수인지에 따라 시스템의 거동이 과감쇠, 임계감쇠, 부족감쇠로 갈라지며, 이 분류는 자동차 서스펜션 설계부터 전자 필터 설계까지 직접 적용된다.
Definition 5.5 (Second-Order Linear ODE)
상수 계수를 갖는 2차 선형 ODE는 다음 형태이다:
$$ m\ddot{x} + b\dot{x} + kx = q(t), $$
또는 동치인 형태로 \( p(D)x = q(t) \), 여기서 \( D = d/dt \)는 미분 연산자이고 \( p(s) = ms^2 + bs + k \)는 특성다항식(characteristic polynomial)이다.
5.3.1. Homogeneous Equations
Theorem 5.5 (Characteristic Equation Method)
\( m\ddot{x} + b\dot{x} + kx = 0 \)의 일반해는 특성방정식 \( ms^2 + bs + k = 0 \)의 근 \( r_1, r_2 \)에 따라 결정된다:
- 서로 다른 실근 \( r_1 \neq r_2 \): \( x(t) = c_1 e^{r_1 t} + c_2 e^{r_2 t} \).
- 중근 \( r_1 = r_2 = r \): \( x(t) = (c_1 + c_2 t)\,e^{rt} \).
- 복소 켤레근 \( r = \alpha \pm i\beta \): \( x(t) = e^{\alpha t}\bigl(c_1 \cos\beta t + c_2 \sin\beta t\bigr) \).
Definition 5.6 (Natural Frequency and Damping Ratio)
방정식 \( m\ddot{x} + b\dot{x} + kx = 0 \)에서 \( m, k > 0 \)일 때, 다음을 정의한다:
$$ \omega_n = \sqrt{\frac{k}{m}} \quad (\text{고유 각진동수}), \qquad \zeta = \frac{b}{2m\omega_n} \quad (\text{감쇠비}). $$
이 ODE는 \( \ddot{x} + 2\zeta\omega_n\dot{x} + \omega_n^2 x = 0 \)이 된다. 특성방정식의 근은
$$ s = \omega_n\!\left(-\zeta \pm \sqrt{\zeta^2 - 1}\right). $$
\( |\zeta| < 1 \)이면 부족 감쇠(underdamped), \( \zeta = 1 \)이면 임계 감쇠(critically damped), \( \zeta > 1 \)이면 과감쇠(overdamped)이다.
Sources: MIT 18.03, Chapters 13–14 (Natural Frequency, Damping Ratio, Frequency Response)
5.3.2. Inhomogeneous Equations: Exponential Response Formula
동차 방정식이 자유 진동(외력 없이 초기 조건만으로 결정되는 운동)을 기술한다면, 비동차 방정식은 외부 입력에 대한 시스템의 응답을 기술한다. 엔진 진동이 차체에 전달되거나, 교류 전압원이 RLC 회로에 인가되는 상황이다. Exponential Response Formula(지수응답공식)를 쓰면 지수함수 입력에 대한 특수해를 특성다항식 한 번의 평가로 즉시 구할 수 있다.
Theorem 5.6 (Exponential Response Formula)
\( p(D) \)를 상수 계수 선형 미분 연산자라 하자. 다음 방정식의 특수해는
$$ p(D)x = ae^{rt} $$
$$ x_p = a\,\frac{e^{rt}}{p(r)}, \qquad \text{단, } p(r) \neq 0. $$
이다. 이는 기본 항등식 \( p(D)e^{rt} = p(r)\,e^{rt} \)로부터 따라 나온다.
Theorem 5.7 (Resonant Exponential Response Formula)
\( r \)이 \( p(s) \)의 중복도 \( k \)인 근이면 (즉, \( j < k \)일 때 \( p^{(j)}(r) = 0 \)이고 \( p^{(k)}(r) \neq 0 \)), \( p(D)x = ae^{rt} \)의 특수해는
$$ x_p = a\,\frac{t^k e^{rt}}{p^{(k)}(r)}. $$
Example 5.4
\( 2\ddot{x} + \dot{x} + x = 1 + 2e^t \)를 풀어라. 특성다항식은 \( p(s) = 2s^2 + s + 1 \)이다.
동차해: 근은 \( (-1 \pm i\sqrt{7})/4 \)이므로
$$ x_h = e^{-t/4}\bigl(a\cos(\sqrt{7}\,t/4) + b\sin(\sqrt{7}\,t/4)\bigr). $$
특수해: 중첩 원리에 의해 \( p(D)x = 1 \)과 \( p(D)x = e^t \)를 각각 풀면 된다. \( 1 = e^{0 \cdot t} \)이므로 \( x_1 = 1/p(0) = 1 \)이다. 지수함수 항에 대해서는 \( x_2 = e^t/p(1) = e^t/4 \)이다. 따라서 \( x_p = 1 + 2 \cdot e^t/4 = 1 + e^t/2 \)이다.
Sources: MIT 18.03, Chapters 10 and 12 (Operators, Exponential Response Formula, Resonance)
5.3.3. Exponential Shift Law
Exponential Shift Law(지수이동법칙)는 \( e^{rt} \)로 변조된 입력을 갖는 ODE를 단순화하는 도구이다. 감쇠 정현파 \( e^{-at}\cos(\omega t) \)처럼 지수함수와 다른 함수의 곱으로 이루어진 입력이 공학에서 빈번히 등장하며, 이 법칙은 그러한 입력에 대한 특수해를 체계적으로 구하는 방법을 제공한다.
Theorem 5.8 (Exponential Shift Law)
임의의 상수 계수 연산자 \( p(D) \)와 임의의 함수 \( u(t) \)에 대해,
$$ p(D)\!\left(e^{rt}u\right) = e^{rt}\,p(D + rI)\,u. $$
이를 이용하면 \( e^{rt}q(t) \) 형태의 신호를 갖는 방정식을 단순화할 수 있다: \( x = e^{rt}u \)로 치환하면 \( p(D)x = e^{rt}q(t) \)가 \( p(D+rI)u = q(t) \)로 변환된다.
Example 5.5
\( \ddot{x} + \dot{x} + x = t^2 e^{3t} \)의 특수해를 구하라. \( x = e^{3t}u \)로 놓으면, \( p(s) = s^2 + s + 1 \)에 대한 Exponential Shift Law에 의해:
$$ p(D+3I)u = t^2, \quad \text{여기서 } p(s+3) = s^2 + 7s + 13. $$
미정 계수법으로 \( u_p = \frac{1}{13}t^2 - \frac{14}{169}t + \frac{72}{2197} \)를 얻으므로, \( x_p = e^{3t}u_p \)이다.
Sources: MIT 18.03, Chapter 12 (Exponential Shift Law)
5.3.4. Undetermined Coefficients
다항식 입력에 대한 비동차 ODE의 특수해를 구할 때 미정계수법(undetermined coefficients)이 가장 직접적인 방법이다. 해를 동일 차수의 다항식으로 가정하고 계수를 결정하는 이 접근법은, 기계적으로 적용 가능하여 계산 실수의 위험이 적다.
Theorem 5.9 (Undetermined Coefficients)
\( p(D) \)가 \( p(0) \neq 0 \)인 상수 계수 연산자이고, \( q(t) \)가 \( n \)차 다항식이면, \( p(D)x = q(t) \)는 정확히 하나의 다항식 해를 가지며, 그 차수는 \( n \)이다.
\( p(0) = 0 \)인 경우, \( p(D) \)에서 \( D \)의 최소 거듭제곱 \( D^m \)을 인수로 뽑아낸다. 그런 다음 \( y = D^m x \)로 치환하여 결과 방정식을 \( y \)에 대해 풀고, \( m \)번 적분하여 \( x \)를 구한다.
Example 5.6
\( \ddot{x} + 2\dot{x} + 3x = 4t^2 + 5 \)를 풀어라. \( x = at^2 + bt + c \)로 놓고 대입한 후 \( t \)의 거듭제곱 계수를 비교하면:
\( t^2 \): \( 3a = 4 \implies a = 4/3 \);
\( t^1 \): \( 4a + 3b = 0 \implies b = -16/9 \);
\( t^0 \): \( 2a + 2b + 3c = 5 \implies c = 53/27 \).
따라서 \( x_p = \frac{4}{3}t^2 - \frac{16}{9}t + \frac{53}{27} \)이다.
Sources: MIT 18.03, Chapter 11 (Undetermined Coefficients)
5.3.5. Sinusoidal Response and Frequency Analysis
공학에서 가장 중요한 입력은 정현파(sinusoidal signal)이다. 교류 전원, 음파, 기계적 주기 하중 등이 모두 정현파로 분해되기 때문이다. 주파수 응답(frequency response) 분석은 시스템이 각 주파수의 정현파 입력에 대해 얼마나 증폭하고 얼마나 위상을 지연시키는지를 파악하는 것이며, 이는 필터 설계, 구조물의 공명 회피, 제어 시스템의 안정성 분석의 기초가 된다.
Theorem 5.10 (Frequency Response of a Second-Order System)
정규화된 방정식 \( \ddot{x} + 2\zeta\omega_n\dot{x} + \omega_n^2 x = a\cos(\omega t) \)에서, 정상 상태 응답은 \( x_p = ga\cos(\omega t - \phi) \)이며, 여기서
$$ g(\omega) = \frac{1}{\sqrt{(\omega_n^2 - \omega^2)^2 + 4\zeta^2\omega_n^2\omega^2}}, \qquad \tan\phi = \frac{2\zeta\omega_n\omega}{\omega_n^2 - \omega^2}. $$
실용적 공명(practical resonance)(최대 이득)은 공명 진동수 \( \omega_r = \omega_n\sqrt{1 - 2\zeta^2} \)에서 발생하며, 이는 \( \zeta < 1/\sqrt{2} \)일 때 성립한다.
Example 5.7
비감쇠 조화 진동자 \( \ddot{x} + \omega_n^2 x = A\cos(\omega t) \)에서 \( \omega \neq \omega_n \)일 때:
$$ x_p = \frac{A\cos(\omega t)}{\omega_n^2 - \omega^2}. $$
공명 \( \omega = \omega_n \)에서는 주기적 해가 존재하지 않으며, 공명 ERF에 의해 증가하는 해를 얻는다:
$$ x_p = \frac{A}{2\omega_n}\,t\sin(\omega_n t). $$
Sources: MIT 18.03, Chapters 10, 12, 13, 14 (Sinusoidal Signals, Resonance, Natural Frequency, Frequency Response)
5.4. Systems of ODEs
실제 공학 시스템은 하나의 변수로 기술되는 경우가 드물다. 다자유도 진동계(multi-DOF vibration system)에서 각 질량의 변위와 전기 회로 네트워크에서 각 루프의 전류는 서로 결합된 연립 ODE로 기술된다. 연립 ODE를 행렬 형태 \( \dot{\mathbf{x}} = A\mathbf{x} \)로 쓰면 선형대수의 도구, 특히 고유값과 고유벡터가 해의 구조를 완전히 결정한다. 여기서 ODE와 선형대수가 만난다.
Definition 5.7 (Linear System of ODEs)
상수 계수를 갖는 1차 선형 ODE 연립계는 다음과 같다:
$$ \dot{\mathbf{x}} = A\mathbf{x} + \mathbf{f}(t), $$
여기서 \( \mathbf{x}(t) \in \mathbb{R}^n \), \( A \)는 \( n \times n \) 상수 행렬, \( \mathbf{f}(t) \)는 주어진 벡터값 함수이다. 동차 연립계는 \( \dot{\mathbf{x}} = A\mathbf{x} \)이다.
Theorem 5.11 (Solution via Eigenvalues)
\( A \)가 eigenvalue(고유값) \( \lambda_1, \ldots, \lambda_n \)에 대응하는 \( n \)개의 선형독립인 고유벡터 \( \mathbf{v}_1, \ldots, \mathbf{v}_n \)을 가지면, \( \dot{\mathbf{x}} = A\mathbf{x} \)의 일반해는
$$ \mathbf{x}(t) = c_1 e^{\lambda_1 t}\mathbf{v}_1 + c_2 e^{\lambda_2 t}\mathbf{v}_2 + \cdots + c_n e^{\lambda_n t}\mathbf{v}_n. $$
Theorem 5.12 (Matrix Exponential)
\( \dot{\mathbf{x}} = A\mathbf{x} \), \( \mathbf{x}(0) = \mathbf{x}_0 \)의 해는 \( \mathbf{x}(t) = e^{At}\mathbf{x}_0 \)이며, 여기서
$$ e^{At} = I + At + \frac{(At)^2}{2!} + \frac{(At)^3}{3!} + \cdots $$
비동차 연립계의 경우, 해는 매개변수 변환법(variation of parameters)에 의해 다음과 같다:
$$ \mathbf{x}(t) = e^{At}\mathbf{x}_0 + \int_0^t e^{A(t-s)}\mathbf{f}(s)\,ds. $$
Example 5.8
\( \dot{\mathbf{x}} = \begin{pmatrix} 1 & 3 \\ 0 & -2 \end{pmatrix}\mathbf{x} \)를 풀어라. 고유값은 \( \lambda_1 = 1 \) (고유벡터 \( \mathbf{v}_1 = (1,0)^\top \))과 \( \lambda_2 = -2 \) (고유벡터 \( \mathbf{v}_2 = (1,-1)^\top \))이다. 일반해는
$$ \mathbf{x}(t) = c_1 e^{t}\begin{pmatrix}1\\0\end{pmatrix} + c_2 e^{-2t}\begin{pmatrix}1\\-1\end{pmatrix}. $$
5.5. Laplace Transform Method
Laplace 변환은 미분방정식을 대수방정식으로 바꿔주는 도구이다. 초기값 문제를 풀 때, 시간 영역(time domain)에서 미분과 적분을 반복하는 대신 주파수 영역(s-domain)에서 다항식의 사칙연산만으로 해를 구할 수 있다. 제어공학에서 전달함수(transfer function) \( H(s) \)를 통해 시스템의 입출력 관계를 기술하고, 극점(pole)의 위치로 안정성을 판별하는 것이 대표적인 응용이다. 또한 불연속 입력(스위치 온/오프)이나 충격 입력(해머 타격)처럼, 고전적 방법으로는 다루기 번거로운 문제를 자연스럽게 처리할 수 있다.
Definition 5.8 (Laplace Transform)
\( t \geq 0 \)에서 정의된 함수 \( f(t) \)의 Laplace transform(라플라스 변환)은 다음과 같다:
$$ \mathcal{L}\{f\}(s) = F(s) = \int_0^\infty e^{-st} f(t)\,dt, $$
단, 이 적분이 수렴해야 한다.
Theorem 5.13 (Derivative Property)
\( \mathcal{L}\{x\} = X(s) \)이면,
$$ \mathcal{L}\{\dot{x}\} = sX(s) - x(0), \qquad \mathcal{L}\{\ddot{x}\} = s^2 X(s) - sx(0) - \dot{x}(0). $$
일반적으로, \( \mathcal{L}\{x^{(n)}\} = s^n X(s) - s^{n-1}x(0) - \cdots - x^{(n-1)}(0) \)이다.
Theorem 5.14 (Key Laplace Transform Pairs)
- \( \mathcal{L}\{1\} = 1/s \), \( s > 0 \)일 때.
- \( \mathcal{L}\{e^{at}\} = 1/(s-a) \), \( s > \operatorname{Re}(a) \)일 때.
- \( \mathcal{L}\{t^n\} = n!/s^{n+1} \), \( s > 0 \)일 때.
- \( \mathcal{L}\{\cos(\omega t)\} = s/(s^2+\omega^2) \).
- \( \mathcal{L}\{\sin(\omega t)\} = \omega/(s^2+\omega^2) \).
- 이동: \( \mathcal{L}\{e^{at}f(t)\} = F(s-a) \).
- 합성곱: \( \mathcal{L}\{(f*g)(t)\} = F(s)\,G(s) \), 여기서 \( (f*g)(t) = \int_0^t f(\tau)\,g(t-\tau)\,d\tau \).
Example 5.9
초기값 문제 \( \ddot{x} + 4x = \sin(2t) \), \( x(0) = 0 \), \( \dot{x}(0) = 0 \)를 풀어라.
Laplace 변환을 취하면: \( s^2 X + 4X = \frac{2}{s^2+4} \), 따라서 \( X(s) = \frac{2}{(s^2+4)^2} \)이다. 알려진 역변환을 사용하면:
$$ x(t) = \frac{1}{8}\bigl(\sin 2t - 2t\cos 2t\bigr). $$
이것은 공명의 경우(신호 진동수가 고유 진동수와 같음)이며, 증가 인자 \( t\cos 2t \)는 응답이 비유계임을 확인해 준다.
5.6. Series Solutions
앞에서 다룬 상수 계수 ODE는 지수함수와 삼각함수의 조합으로 닫힌 형태(closed-form)의 해를 갖는다. 그러나 계수가 변수에 의존하는 ODE — 예를 들어 양자역학의 수소 원자 슈뢰딩거 방정식이나 원통 좌표계에서의 파동 방정식 — 에서는 닫힌 형태의 해가 존재하지 않는 경우가 많다. 이때 해를 거듭제곱 급수(power series)로 가정하고 계수를 결정하는 급수해법이 필요하며, Bessel 함수, Legendre 다항식 등 공학에서 빈번히 등장하는 특수함수(special functions)가 이 방법으로부터 탄생한다.
Definition 5.9 (Ordinary Point)
ODE \( \ddot{x} + p(t)\dot{x} + q(t)x = 0 \)을 생각하자. 점 \( t_0 \)에서 \( p(t) \)와 \( q(t) \)가 해석적이면 \( t_0 \)는 정칙점(ordinary point)이다. 그렇지 않으면 \( t_0 \)는 특이점(singular point)이다.
Theorem 5.15 (Power Series Solutions at an Ordinary Point)
\( t_0 \)가 정칙점이면, 모든 해는 거듭제곱 급수로 표현할 수 있다:
$$ x(t) = \sum_{n=0}^{\infty} a_n (t - t_0)^n $$
이 급수는 적어도 \( |t - t_0| < R \) 구간에서 수렴하며, 여기서 \( R \)은 복소 평면에서 \( t_0 \)로부터 가장 가까운 특이점까지의 거리이다. 계수 \( a_n \)은 급수를 ODE에 대입하고 \( (t - t_0) \)의 거듭제곱을 비교하여 결정한다.
Definition 5.10 (Regular Singular Point)
특이점 \( t_0 \)에서 \( (t-t_0)\,p(t) \)와 \( (t-t_0)^2 q(t) \)가 해석적이면, \( t_0 \)는 정칙 특이점(regular singular point)이다. 그렇지 않으면 비정칙 특이점(irregular singular point)이다.
Theorem 5.16 (Frobenius Method)
정칙 특이점 \( t_0 \)에서, 적어도 하나의 해가 다음 형태를 갖는다:
$$ x(t) = (t - t_0)^r \sum_{n=0}^{\infty} a_n (t - t_0)^n, \qquad a_0 \neq 0, $$
여기서 \( r \)은 결정방정식(indicial equation)의 근이다. 결정방정식의 두 근 \( r_1, r_2 \)의 차이가 정수가 아니면, 이 형태의 선형독립인 해가 두 개 존재한다. 차이가 정수이면, 두 번째 해에 대수 항이 필요할 수 있다.
Example 5.10
\( \nu \)차 Bessel 방정식:
$$ t^2 \ddot{x} + t\dot{x} + (t^2 - \nu^2)x = 0. $$
점 \( t_0 = 0 \)은 정칙 특이점이다. 결정방정식은 \( r^2 - \nu^2 = 0 \)이며, 근은 \( r = \pm\nu \)이다. \( r = \nu \)에 대한 Frobenius 급수는 Bessel 함수 \( J_\nu(t) \)를 준다.
5.7. Additional First-Order ODE Methods
5.1절에서 다룬 분리가능, 선형, 완전 방정식이 1차 ODE의 기본 유형이라면, 여기서는 적절한 치환(substitution)을 통해 기본 유형으로 환원할 수 있는 방정식들을 다룬다. 기본 전략은 "알려진 형태로 변환하라"이다.
5.7.1. Bernoulli Equations
Bernoulli 방정식은 비선형이지만, 적절한 변수 치환 한 번으로 선형 ODE로 변환된다. 인구 역학의 로지스틱 모델(logistic model) \( \dot{P} = rP - aP^2 \)이 대표적인 Bernoulli 방정식(\( n = 2 \))이다.
Definition 5.11 (Bernoulli Equation)
다음 형태의 ODE를 Bernoulli 방정식이라 한다:
$$ \dot{x} + p(t)\,x = q(t)\,x^n, \qquad n \neq 0, 1. $$
\( n = 0 \)이면 선형, \( n = 1 \)이면 분리가능이므로 별도의 방법이 필요 없다.
Example 5.11
\( \dot{x} + x = x^3 \)을 풀어라.
\( n = 3 \)이므로 \( v = x^{1-3} = x^{-2} \)로 치환한다. \( \dot{v} = -2x^{-3}\dot{x} \)이다. 양변에 \( -2x^{-3} \)을 곱하면:
$$ \dot{v} - 2v = -2. $$
적분인자 \( e^{-2t} \)를 사용한다. \( \frac{d}{dt}[e^{-2t}v] = -2e^{-2t} \)를 적분하면:
$$ e^{-2t}v = e^{-2t} + C \implies v = 1 + Ce^{2t}. $$
\( v = x^{-2} \)이므로:
$$ x(t) = \pm\frac{1}{\sqrt{1 + Ce^{2t}}}. $$
Example 5.12
\( \dot{x} - \frac{2}{t}\,x = -t^2 x^2 \)을 풀어라.
\( n = 2 \)이므로 \( v = x^{-1} \)로 치환한다. \( \dot{v} = -x^{-2}\dot{x} \)이고, 양변에 \( -x^{-2} \)를 곱하면:
$$ \dot{v} + \frac{2}{t}\,v = t^2. $$
적분인자 \( \mu = e^{\int 2/t\,dt} = t^2 \)를 사용한다. \( \frac{d}{dt}[t^2 v] = t^4 \)를 적분하면:
$$ t^2 v = \frac{t^5}{5} + C \implies v = \frac{t^3}{5} + \frac{C}{t^2}. $$
따라서 \( x(t) = \dfrac{1}{\frac{t^3}{5} + C t^{-2}} = \dfrac{5t^2}{t^5 + 5C} \)이다.
5.7.2. Homogeneous Equations (동차 방정식)
Definition 5.12 (Homogeneous First-Order ODE)
1차 ODE \( \dot{x} = f(t, x) \)에서 \( f(t, x) \)가 \( x/t \)만의 함수, 즉
$$ \dot{x} = F\!\left(\frac{x}{t}\right) $$
로 쓸 수 있으면, 이 방정식을 동차(homogeneous)라 한다. 동치 조건으로, \( f(\lambda t, \lambda x) = f(t, x) \)이 모든 \( \lambda \neq 0 \)에 대해 성립한다.
Example 5.13
\( \dot{x} = \dfrac{x^2 + tx}{t^2} \)를 풀어라.
우변을 정리하면 \( \dot{x} = (x/t)^2 + (x/t) = F(x/t) \)이다. \( v = x/t \)로 놓으면:
$$ t\dot{v} = v^2 + v - v = v^2 \implies \frac{dv}{v^2} = \frac{dt}{t}. $$
적분하면:
$$ -\frac{1}{v} = \ln|t| + C \implies v = \frac{-1}{\ln|t| + C}. $$
따라서 \( x(t) = tv = \dfrac{-t}{\ln|t| + C} \)이다.
5.8. 2차 ODE: 매개변수 변환법과 비동차 전략
5.3절의 미정계수법과 ERF는 입력이 지수함수, 다항식, 정현파일 때 효과적이지만, 입력이 \( \sec t \)나 \( e^t/t^2 \)처럼 이런 범주에 속하지 않으면 적용할 수 없다. 매개변수 변환법(variation of parameters)은 입력의 형태에 무관하게 적용 가능한 일반적 방법이며, 동차해를 이미 알고 있다는 전제 하에 비동차 특수해를 적분으로 구한다.
5.8.1. Variation of Parameters (매개변수 변환법)
Theorem 5.17 (Variation of Parameters)
2차 선형 ODE \( \ddot{x} + p(t)\dot{x} + q(t)x = g(t) \)에서, 동차 방정식의 기본해를 \( x_1(t) \), \( x_2(t) \)라 하자. 비동차 방정식의 특수해는 다음과 같다:
$$ x_p(t) = -x_1(t)\int \frac{x_2(t)\,g(t)}{W(t)}\,dt + x_2(t)\int \frac{x_1(t)\,g(t)}{W(t)}\,dt, $$
여기서 \( W(t) = x_1 \dot{x}_2 - \dot{x}_1 x_2 \)는 Wronskian(론스키안)이다.
Proof
동차해의 일반해 \( x_h = c_1 x_1 + c_2 x_2 \)에서 상수 \( c_1, c_2 \)를 함수 \( u_1(t), u_2(t) \)로 바꾸어 \( x_p = u_1 x_1 + u_2 x_2 \)로 놓자. 조건
$$ \dot{u}_1 x_1 + \dot{u}_2 x_2 = 0 $$
을 부과하면, \( \dot{x}_p = u_1 \dot{x}_1 + u_2 \dot{x}_2 \)이고,
$$ \ddot{x}_p = u_1 \ddot{x}_1 + u_2 \ddot{x}_2 + \dot{u}_1 \dot{x}_1 + \dot{u}_2 \dot{x}_2. $$
ODE에 대입하면, \( x_1 \)과 \( x_2 \)가 동차해라는 사실에 의해:
$$ \dot{u}_1 \dot{x}_1 + \dot{u}_2 \dot{x}_2 = g(t). $$
두 조건을 연립하면:
$$ \begin{pmatrix} x_1 & x_2 \\ \dot{x}_1 & \dot{x}_2 \end{pmatrix} \begin{pmatrix} \dot{u}_1 \\ \dot{u}_2 \end{pmatrix} = \begin{pmatrix} 0 \\ g(t) \end{pmatrix}. $$
Cramer 법칙으로 풀면 \( \dot{u}_1 = -x_2 g/W \), \( \dot{u}_2 = x_1 g/W \)이다. 적분하면 위의 공식을 얻는다. \(\square\)
Example 5.14
\( \ddot{x} + x = \sec t \)의 특수해를 구하라.
동차해: \( x_1 = \cos t \), \( x_2 = \sin t \). Wronskian: \( W = \cos t \cdot \cos t - (-\sin t)\cdot \sin t = 1 \).
매개변수 변환법에 의해:
$$ \dot{u}_1 = -\sin t \cdot \sec t = -\tan t, \qquad \dot{u}_2 = \cos t \cdot \sec t = 1. $$
적분하면 \( u_1 = \ln|\cos t| \), \( u_2 = t \). 따라서:
$$ x_p = \cos t \cdot \ln|\cos t| + t\sin t. $$
Example 5.15
\( \ddot{x} - 2\dot{x} + x = \dfrac{e^t}{t^2} \)의 특수해를 구하라.
특성방정식 \( s^2 - 2s + 1 = (s-1)^2 = 0 \)이므로 중근 \( r = 1 \). 동차해: \( x_1 = e^t \), \( x_2 = te^t \).
Wronskian: \( W = e^t \cdot (e^t + te^t) - e^t \cdot te^t = e^{2t} \).
$$ \dot{u}_1 = \frac{-te^t \cdot e^t/t^2}{e^{2t}} = \frac{-1}{t}, \qquad \dot{u}_2 = \frac{e^t \cdot e^t/t^2}{e^{2t}} = \frac{1}{t^2}. $$
적분: \( u_1 = -\ln|t| \), \( u_2 = -1/t \). 따라서:
$$ x_p = -e^t \ln|t| + te^t \cdot \left(-\frac{1}{t}\right) = -e^t \ln|t| - e^t = -e^t(\ln|t| + 1). $$
5.8.2. 비동차 방정식 풀이 전략 요약
5.8.3. Forced Oscillations (강제 진동)
Example 5.16 (감쇠 강제 진동)
\( \ddot{x} + 2\dot{x} + 5x = 10\cos(t) \)를 풀어라.
동차해: \( p(s) = s^2 + 2s + 5 \), 근 \( s = -1 \pm 2i \). 따라서
$$ x_h = e^{-t}(c_1 \cos 2t + c_2 \sin 2t). $$
특수해: 복소화하여 \( p(D)z = 10e^{it} \)를 풀면:
$$ z_p = \frac{10e^{it}}{p(i)} = \frac{10e^{it}}{(4 + 2i)}. $$
\( p(i) = -1 + 2i + 5 = 4 + 2i \)이다. 유리화하면:
$$ \frac{10}{4+2i} = \frac{10(4-2i)}{20} = 2 - i. $$
따라서 \( z_p = (2-i)e^{it} = (2-i)(\cos t + i\sin t) \)이고,
$$ x_p = \operatorname{Re}(z_p) = 2\cos t + \sin t. $$
이득 \( g = |1/p(i)| = 1/\sqrt{20} = 1/(2\sqrt{5}) \), 위상 지연 \( \phi = \arctan(1/2) \)이다.
Example 5.17 (비감쇠 공명)
비감쇠 조화 진동자에 공명 진동수의 외력이 가해지는 경우:
$$ \ddot{x} + 4x = 3\cos(2t), \quad x(0) = 0, \;\dot{x}(0) = 0. $$
\( \omega_n = 2 = \omega \)이므로 공명이다. \( p(s) = s^2 + 4 \)에서 \( p(2i) = -4 + 4 = 0 \)이므로 ERF가 직접 적용되지 않는다.
공명 ERF(Theorem 5.7)를 복소화된 방정식 \( p(D)z = 3e^{2it} \)에 적용하면, \( r = 2i \)는 \( p(s) \)의 단순근이므로 \( k = 1 \):
$$ z_p = \frac{3\,t\,e^{2it}}{p'(2i)} = \frac{3t\,e^{2it}}{4i}. $$
실수부를 취하면:
$$ x_p = \operatorname{Re}\!\left(\frac{3t}{4i}(\cos 2t + i\sin 2t)\right) = \operatorname{Re}\!\left(\frac{3t}{4}(\sin 2t - i\cos 2t)\right) = \frac{3t}{4}\sin 2t. $$
진폭이 \( t \)에 비례하여 증가하는 전형적인 공명 현상이다.
5.9. Operator Method (연산자 방법)
연산자 방법은 상수 계수 ODE를 다항식의 대수적 조작으로 다룰 수 있게 해주는 관점의 전환이다. 미분을 연산자 \( D \)로, ODE를 다항식 \( p(D) \)로 표현하면, ERF와 Exponential Shift Law가 왜 성립하는지 통일적으로 이해할 수 있다. 이 관점은 나아가 제어공학에서 시스템을 전달함수 \( 1/p(s) \)로 기술하고 블록 다이어그램으로 분석하는 방법론의 수학적 기초가 된다.
Definition 5.13 (Differential Operator)
미분 연산자(differential operator) \( D \)는 함수를 그 도함수로 보내는 연산자이다: \( Df(t) = f'(t) \). 항등 연산자는 \( I \)로 쓴다. 상수 계수 선형 미분 연산자는 특성다항식 \( p(s) \)로부터 구성된다:
$$ p(D) = a_n D^n + a_{n-1} D^{n-1} + \cdots + a_1 D + a_0 I. $$
이 연산자는 선형(linear)이다: \( p(D)(cf + g) = c\,p(D)f + p(D)g \).
Theorem 5.18 (Exponential Input Theorem)
상수 계수 연산자 \( p(D) \)와 지수함수 \( e^{rt} \)에 대해:
$$ p(D)\,e^{rt} = p(r)\,e^{rt}. $$
\( e^{rt} \)는 연산자 \( p(D) \)의 고유값 \( p(r) \)에 대응하는 고유함수이다. ERF는 이로부터 따라 나온다.
Theorem 5.19 (Exponential Shift Rule, 상세)
임의의 다항식 연산자 \( p(D) \)와 함수 \( u(t) \)에 대해:
$$ p(D)\bigl[e^{rt}u(t)\bigr] = e^{rt}\,p(D+r)\,u(t). $$
이 법칙을 반복 적용할 수 있다. \( r \)이 \( p(s) \)의 \( k \)중근이면 \( p(s) = (s-r)^k q(s) \)이므로:
$$ p(D)\bigl[e^{rt}u\bigr] = e^{rt}\,(D)^k\,q(D+r)\,u. $$
\( u = 1 \)을 대입하면 \( p(D)[t^k e^{rt}/(k!)] = e^{rt}\,q(r) \cdot (t^k/(k!)) \cdot k!/1 \)... 이런 방식으로 공명 ERF를 유도할 수 있다.
Example 5.18
Exponential Shift를 이용하여 \( (D^2 + 1)x = te^{2t} \)의 특수해를 구하라.
\( x = e^{2t}u \)로 치환하면, Exponential Shift Rule에 의해:
$$ (D^2 + 1)[e^{2t}u] = e^{2t}((D+2)^2 + 1)u = e^{2t}(D^2 + 4D + 5)u. $$
따라서 \( (D^2 + 4D + 5)u = t \)를 미정 계수법으로 풀면 된다. \( u = at + b \)로 놓으면:
\( 5(at + b) + 4a = t \implies 5a = 1, \; 5b + 4a = 0 \implies a = 1/5, \; b = -4/25 \).
따라서 \( x_p = e^{2t}\!\left(\frac{t}{5} - \frac{4}{25}\right) \)이다.
5.10. Laplace Transform: Extended Topics
5.5절에서 Laplace 변환의 기본 원리를 다루었다. 이 절에서는 실제 공학 문제에서 빈번히 등장하는 불연속 입력(Heaviside 계단 함수), 순간 충격(Dirac 델타 함수), 그리고 전달함수(transfer function)를 통한 시스템 분석으로 확장한다. 이 도구들은 디지털 제어 시스템에서 샘플링 스위치의 동작, 구조물에 가해지는 충격 하중, 전자 회로의 펄스 응답 등을 모델링하는 데 필수적이다.
5.10.1. Extended Transform Table
Theorem 5.20 (확장 Laplace 변환표)
기본 변환쌍(Theorem 5.14)에 추가하여:
- \( \mathcal{L}\{t^n e^{at}\} = \dfrac{n!}{(s-a)^{n+1}} \), \( s > \operatorname{Re}(a) \).
- \( \mathcal{L}\{e^{at}\cos(\omega t)\} = \dfrac{s-a}{(s-a)^2 + \omega^2} \).
- \( \mathcal{L}\{e^{at}\sin(\omega t)\} = \dfrac{\omega}{(s-a)^2 + \omega^2} \).
- \( \mathcal{L}\{t\,f(t)\} = -F'(s) \). (일반적으로 \( \mathcal{L}\{t^n f(t)\} = (-1)^n F^{(n)}(s) \))
- \( \mathcal{L}\!\left\{\dfrac{f(t)}{t}\right\} = \displaystyle\int_s^\infty F(\sigma)\,d\sigma \), 단 극한이 존재하면.
- \( \mathcal{L}\{f(t-a)\,u(t-a)\} = e^{-as}F(s) \), \( a \geq 0 \) (시간 이동).
5.10.2. Unit Step Function (단위 계단 함수)
Definition 5.14 (Heaviside Step Function)
Heaviside 단위 계단 함수(unit step function)는 다음과 같이 정의된다:
$$ u(t-a) = \begin{cases} 0, & t < a, \\ 1, & t \geq a. \end{cases} $$
이동된 계단 함수의 Laplace 변환은:
$$ \mathcal{L}\{u(t-a)\} = \frac{e^{-as}}{s}, \qquad a \geq 0. $$
Theorem 5.21 (Second Shifting Theorem)
\( F(s) = \mathcal{L}\{f(t)\} \)이면:
$$ \mathcal{L}\{f(t-a)\,u(t-a)\} = e^{-as}F(s), \qquad a \geq 0. $$
역으로, \( \mathcal{L}^{-1}\{e^{-as}F(s)\} = f(t-a)\,u(t-a) \)이다.
Example 5.19
\( \ddot{x} + x = u(t-\pi) \), \( x(0) = 0 \), \( \dot{x}(0) = 1 \)을 Laplace 변환으로 풀어라.
변환하면: \( s^2 X + X = \dfrac{e^{-\pi s}}{s} + 1 \), 따라서
$$ X(s) = \frac{1}{s^2 + 1} + \frac{e^{-\pi s}}{s(s^2+1)}. $$
부분분수 분해: \( \dfrac{1}{s(s^2+1)} = \dfrac{1}{s} - \dfrac{s}{s^2+1} \). 역변환하면:
$$ x(t) = \sin t + u(t-\pi)\bigl[1 - \cos(t-\pi)\bigr] = \sin t + u(t-\pi)(1 + \cos t). $$
5.10.3. Dirac Delta Function (디랙 델타 함수)
Definition 5.15 (Dirac Delta Function)
디랙 델타 함수 \( \delta(t-a) \)는 다음 성질로 정의되는 일반화된 함수(generalized function)이다:
- \( \delta(t-a) = 0 \) for \( t \neq a \).
- \( \displaystyle\int_{-\infty}^{\infty} \delta(t-a)\,f(t)\,dt = f(a) \) (선별 성질, sifting property).
Laplace 변환은:
$$ \mathcal{L}\{\delta(t-a)\} = e^{-as}, \qquad a \geq 0. $$
\( \mathcal{L}\{\delta(t)\} = 1 \)이다.
Example 5.20
\( \ddot{x} + 4\dot{x} + 3x = \delta(t-1) \), \( x(0) = 0 \), \( \dot{x}(0) = 0 \)을 풀어라.
Laplace 변환: \( (s^2 + 4s + 3)X = e^{-s} \). 따라서:
$$ X(s) = \frac{e^{-s}}{(s+1)(s+3)}. $$
부분분수 분해: \( \dfrac{1}{(s+1)(s+3)} = \dfrac{1}{2}\!\left(\dfrac{1}{s+1} - \dfrac{1}{s+3}\right) \).
역변환 (Second Shifting Theorem):
$$ x(t) = \frac{1}{2}\,u(t-1)\bigl[e^{-(t-1)} - e^{-3(t-1)}\bigr]. $$
5.10.4. Transfer Function (전달함수)
Definition 5.16 (Transfer Function)
상수 계수 선형 시스템 \( p(D)x = q(t) \)의 전달함수(transfer function)는
$$ W(s) = H(s) = \frac{1}{p(s)} $$
이다. Laplace 변환 영역에서 입출력 관계는:
$$ X(s) = W(s) \cdot Q(s) + (\text{초기 조건 항}). $$
초기 조건이 모두 0인 경우(rest initial conditions), \( X(s) = W(s)\,Q(s) \)이고 시간 영역에서는 합성곱으로 표현된다:
$$ x(t) = (w * q)(t) = \int_0^t w(t - \tau)\,q(\tau)\,d\tau. $$
Example 5.21
전달함수를 이용하여 \( \ddot{x} + 3\dot{x} + 2x = e^{-3t} \), \( x(0) = \dot{x}(0) = 0 \)을 풀어라.
\( p(s) = s^2 + 3s + 2 = (s+1)(s+2) \)이므로 \( W(s) = \dfrac{1}{(s+1)(s+2)} \).
\( Q(s) = \mathcal{L}\{e^{-3t}\} = \dfrac{1}{s+3} \)이므로:
$$ X(s) = \frac{1}{(s+1)(s+2)(s+3)}. $$
부분분수 분해:
$$ X(s) = \frac{1/2}{s+1} - \frac{1}{s+2} + \frac{1/2}{s+3}. $$
역변환:
$$ x(t) = \frac{1}{2}e^{-t} - e^{-2t} + \frac{1}{2}e^{-3t}. $$
5.11. Phase Plane Analysis (위상 평면 분석)
2차원 자율 시스템(autonomous system)의 해를 시간의 함수로 구하는 대신, 상태 변수들의 관계를 위상 평면(phase plane)에 직접 그려 시스템의 정성적 거동을 파악하는 방법이다. 비선형 시스템의 경우 닫힌 형태의 해를 구하는 것이 불가능하더라도, 평형점 근방에서 선형화하여 안정성을 판단할 수 있다. 로봇 제어에서 관절의 위치-속도 평면 분석이나 생태학의 포식자-피식자 모델(Lotka-Volterra) 분석이 대표적인 응용이다.
Definition 5.17 (Phase Plane)
2차원 자율 시스템 \( \dot{\mathbf{x}} = \mathbf{F}(\mathbf{x}) \), \( \mathbf{x} = (x_1, x_2)^\top \)에 대해, \( (x_1, x_2) \)-평면을 위상 평면(phase plane)이라 한다. 해 \( \mathbf{x}(t) \)의 궤적을 궤도(orbit) 또는 위상 곡선(phase curve)이라 하고, 모든 궤도를 함께 나타낸 것을 위상 초상(phase portrait)이라 한다.
Definition 5.18 (Critical Point)
\( \mathbf{F}(\mathbf{x}_0) = \mathbf{0} \)을 만족하는 점 \( \mathbf{x}_0 \)를 임계점(critical point) 또는 평형점(equilibrium point)이라 한다. 임계점은 상수해 \( \mathbf{x}(t) = \mathbf{x}_0 \)에 대응한다.
5.11.1. 2x2 선형 시스템의 분류
Theorem 5.22 (2x2 선형 시스템의 위상 초상 분류)
선형 시스템 \( \dot{\mathbf{x}} = A\mathbf{x} \)에서 \( A \)가 \( 2 \times 2 \) 실수 행렬이고, 고유값이 \( \lambda_1, \lambda_2 \)일 때, 원점의 임계점 유형은 다음과 같이 분류된다:
(1) 실수 고유값, 같은 부호 (Node)
- \( \lambda_1, \lambda_2 < 0 \) (서로 다른 값): 안정 결절점(stable node). 모든 궤도가 원점으로 수렴한다. 더 작은 \( |\lambda| \)에 대응하는 고유벡터 방향으로 접선 진입한다.
- \( \lambda_1, \lambda_2 > 0 \) (서로 다른 값): 불안정 결절점(unstable node). 모든 궤도가 원점에서 발산한다.
- \( \lambda_1 = \lambda_2 = \lambda \), 고유벡터 2개: 항성 결절점(star node). 모든 직선이 궤도이다.
- \( \lambda_1 = \lambda_2 = \lambda \), 고유벡터 1개: 부적절 결절점(improper/degenerate node). 모든 궤도가 유일한 고유벡터 방향에 접하며 진입(또는 발산)한다.
(2) 실수 고유값, 반대 부호 (Saddle)
- \( \lambda_1 < 0 < \lambda_2 \): 안장점(saddle point). 원점은 불안정하다. \( \lambda_1 \)에 대응하는 고유벡터 방향으로 진입하는 궤도(stable manifold)와 \( \lambda_2 \)에 대응하는 고유벡터 방향으로 발산하는 궤도(unstable manifold)가 존재한다.
(3) 복소 고유값 \( \lambda = \alpha \pm i\beta \), \( \beta \neq 0 \)
- \( \alpha < 0 \): 안정 나선점(stable spiral/focus). 궤도가 원점을 향해 나선형으로 수렴한다.
- \( \alpha > 0 \): 불안정 나선점(unstable spiral/focus). 궤도가 원점에서 나선형으로 발산한다.
- \( \alpha = 0 \): 중심점(center). 궤도가 원점 주위의 닫힌 타원 곡선이다. Lyapunov 안정이지만 점근 안정은 아니다.
Example 5.22
다음 시스템의 임계점을 분류하라: \( \dot{\mathbf{x}} = \begin{pmatrix} -1 & 2 \\ -1 & -1 \end{pmatrix}\mathbf{x} \).
\( T = -2 \), \( \Delta = (-1)(-1) - (2)(-1) = 1 + 2 = 3 \). 판별식: \( T^2 - 4\Delta = 4 - 12 = -8 < 0 \).
고유값: \( \lambda = \frac{-2 \pm \sqrt{-8}}{2} = -1 \pm i\sqrt{2} \).
복소 고유값이고 \( \alpha = -1 < 0 \)이므로 원점은 안정 나선점(stable spiral)이다. 궤도는 원점으로 나선형으로 수렴한다.
Example 5.23
\( \dot{\mathbf{x}} = \begin{pmatrix} 2 & -5 \\ 1 & -2 \end{pmatrix}\mathbf{x} \)를 분류하고 일반해를 구하라.
\( T = 0 \), \( \Delta = (2)(-2) - (-5)(1) = -4 + 5 = 1 > 0 \). \( T = 0 \)이고 \( \Delta > 0 \)이므로 중심점(center)이다.
고유값: \( \lambda = \pm i \). 고유벡터: \( \lambda = i \)에 대해 \( (A - iI)\mathbf{v} = 0 \)을 풀면 \( \mathbf{v} = (5, 2-i)^\top \) (또는 적절한 배수).
일반해:
$$ \mathbf{x}(t) = c_1 \begin{pmatrix} 5\cos t \\ 2\cos t + \sin t \end{pmatrix} + c_2 \begin{pmatrix} 5\sin t \\ 2\sin t - \cos t \end{pmatrix}. $$
위상 초상은 원점 주위의 닫힌 타원형 궤도로 이루어진다.
Example 5.24
\( \dot{\mathbf{x}} = \begin{pmatrix} 1 & -1 \\ 4 & -3 \end{pmatrix}\mathbf{x} \)를 분류하고 일반해를 구하라.
\( T = -2 \), \( \Delta = (1)(-3) - (-1)(4) = -3 + 4 = 1 \). 판별식: \( T^2 - 4\Delta = 4 - 4 = 0 \).
고유값: \( \lambda = -1 \) (중근). 고유벡터: \( (A + I)\mathbf{v} = 0 \implies \begin{pmatrix} 2 & -1 \\ 4 & -2 \end{pmatrix}\mathbf{v} = 0 \implies \mathbf{v}_1 = (1, 2)^\top \).
고유벡터가 하나뿐이므로 일반화 고유벡터 \( \mathbf{w} \)를 \( (A + I)\mathbf{w} = \mathbf{v}_1 \)에서 구한다: \( \mathbf{w} = (1, 0)^\top \).
일반해:
$$ \mathbf{x}(t) = c_1 e^{-t}\begin{pmatrix}1\\2\end{pmatrix} + c_2 e^{-t}\left[\begin{pmatrix}1\\0\end{pmatrix} + t\begin{pmatrix}1\\2\end{pmatrix}\right]. $$
원점은 안정 부적절 결절점(stable improper node)이다. 모든 궤도가 \( (1,2)^\top \) 방향에 접하며 원점에 수렴한다.
Sources: MIT 18.03, Chapters 10–11 (Operators, Exponential Response Formula, Undetermined Coefficients); standard ODE references (Bernoulli, Variation of Parameters, Phase Plane Classification)
6. Partial Differential Equations
ODE가 하나의 독립변수에 대한 미분방정식이라면, PDE는 여러 독립변수에 대한 미분방정식이다. 열의 확산이나 파동의 전파처럼, 공간과 시간을 동시에 다루는 문제들은 PDE로 기술된다. ODE에서는 해가 곡선이었지만, PDE에서는 해가 곡면 또는 장(field)이 된다. 독립변수가 늘어난 만큼 경계 조건의 역할이 커지고, 해의 존재·유일성 문제도 한층 복잡해진다.
PDE는 공학의 거의 모든 분야에서 등장한다. 반도체 칩 위의 온도 분포를 예측하여 냉각 시스템을 설계하는 문제는 열전도 방정식(heat equation)으로 귀결되고, 건물의 내진 설계나 악기의 음향 특성은 파동방정식(wave equation)으로 분석된다. 정전기장의 전위 분포, 비행기 날개 주변의 유체 흐름, 반도체 내부의 전자 상태 — 이 모든 것이 Laplace 방정식, 나비에-스토크스(Navier-Stokes) 방정식, 슈뢰딩거(Schrodinger) 방정식이라는 PDE로 기술된다. 공간과 시간 모두에서 변하는 물리량을 다루어야 할 때, PDE가 필요하다.
PDE(편미분방정식)는 두 개 이상의 독립변수를 갖는 미지 함수와 그 편도함수를 포함하는 방정식이다. 여기서는 물리학과 공학 전반에 걸쳐 등장하는 두 변수의 2차 선형 PDE에 초점을 맞춘다.
6.1. Classification of Second-Order PDEs
2차 PDE를 타원형, 포물형, 쌍곡형으로 분류하면 해의 물리적 거동이 결정된다. 타원형(Laplace)은 정상상태(시간 독립) 문제에, 포물형(heat)은 확산 과정에, 쌍곡형(wave)은 파동 전파에 대응한다. 분류에 따라 적절한 경계/초기 조건이 달라지므로, 문제를 올바르게 설정하려면 먼저 PDE의 유형을 파악해야 한다.
Definition 6.1 (General Second-Order Linear PDE)
두 변수에 대한 일반적인 2차 선형 PDE는 다음과 같다:
$$ Au_{xx} + 2Bu_{xy} + Cu_{yy} + Du_x + Eu_y + Fu = G, $$
여기서 계수 \( A, B, C, D, E, F, G \)는 \( x \)와 \( y \)에 의존할 수 있다.
Definition 6.2 (Classification by Discriminant)
2차 PDE의 유형은 판별식 \( \Delta = B^2 - AC \)에 의해 결정된다:
- 타원형(Elliptic): \( \Delta < 0 \) (예: Laplace 방정식).
- 포물형(Parabolic): \( \Delta = 0 \) (예: heat equation(열 방정식)).
- 쌍곡형(Hyperbolic): \( \Delta > 0 \) (예: wave equation(파동 방정식)).
이 분류는 원뿔 곡선과 대응되며, 해의 정성적 거동을 결정한다.
6.2. The Three Canonical Equations
물리학과 공학에서 반복적으로 등장하는 세 가지 정준 PDE를 다룬다. 이 세 방정식(열 방정식, 파동 방정식, Laplace 방정식)은 각각 확산, 전파, 평형이라는 서로 다른 물리적 과정을 기술하며, 2차 선형 PDE의 세 가지 유형(포물형, 쌍곡형, 타원형)을 대표한다.
6.2.1. The Heat Equation (Parabolic)
열 방정식은 온도가 공간적으로 불균일할 때 열이 고온에서 저온으로 확산되는 과정을 기술한다. CPU 칩의 열 설계, 금속 가공에서의 열처리 공정 최적화, 토양의 온도 분포 예측 등에 직접 응용된다. 열확산율(thermal diffusivity) \( \alpha^2 \)는 재료의 열전도율, 밀도, 비열로 결정되며, 같은 방정식이 물질의 확산(Fick의 법칙)이나 금융의 Black-Scholes 모델에도 등장한다.
Definition 6.3 (Heat Equation)
1차원 heat equation(열 방정식)은 다음과 같다:
$$ u_t = \alpha^2 u_{xx}, \qquad 0 < x < L, \quad t > 0, $$
여기서 \( u(x,t) \)는 온도이고, \( \alpha^2 = k/(\rho c) \)는 열확산율이다 (\( k \) = 열전도율, \( \rho \) = 밀도, \( c \) = 비열).
Theorem 6.1 (Solution of the Heat Equation by Separation of Variables)
\( [0, L] \)에서 동차 Dirichlet 경계 조건 \( u(0,t) = u(L,t) = 0 \)과 초기 조건 \( u(x,0) = f(x) \)를 갖는 heat equation(열 방정식)의 해는 다음과 같다:
$$ u(x,t) = \sum_{n=1}^{\infty} b_n \sin\!\left(\frac{n\pi x}{L}\right) e^{-\alpha^2 n^2 \pi^2 t / L^2}, $$
여기서 \( b_n = \frac{2}{L}\int_0^L f(x)\sin\!\left(\frac{n\pi x}{L}\right)dx \)는 초기 데이터의 Fourier 사인 계수이다.
Proof
\( u(x,t) = X(x)\,T(t) \)로 가정한다. \( u_t = \alpha^2 u_{xx} \)에 대입하고 나누면:
$$ \frac{T'}{{\alpha^2 T}} = \frac{X''}{X} = -\lambda, $$
여기서 \( \lambda \)는 분리 상수이다. 이로부터 두 개의 ODE(상미분방정식)를 얻는다:
$$ X'' + \lambda X = 0, \qquad T' + \alpha^2 \lambda\,T = 0. $$
경계 조건 \( X(0) = X(L) = 0 \)은 eigenvalue(고유값) 문제를 준다. 비자명해는 \( \lambda_n = (n\pi/L)^2 \)일 때만 존재하며, 고유함수는 \( X_n(x) = \sin(n\pi x/L) \)이다. 대응하는 시간 인자는 \( T_n(t) = e^{-\alpha^2 \lambda_n t} \)이다. 중첩 원리에 의해 일반해는 위의 Fourier 급수이다. 계수 \( b_n \)은 사인 함수의 직교성을 이용하여 초기 조건으로부터 결정된다. \(\square\)
Example 6.1
길이 \( L = \pi \), 열확산율 \( \alpha^2 = 1 \)인 막대의 초기 온도가 \( u(x,0) = x(\pi - x) \)이고 양 끝점은 0으로 고정되어 있다. Fourier 사인 계수는
$$ b_n = \frac{2}{\pi}\int_0^\pi x(\pi - x)\sin(nx)\,dx = \begin{cases} \frac{8}{\pi n^3} & n \text{ 홀수},\\ 0 & n \text{ 짝수}. \end{cases} $$
해는
$$ u(x,t) = \frac{8}{\pi}\sum_{k=0}^{\infty} \frac{1}{(2k+1)^3}\sin\!\bigl((2k+1)x\bigr)\,e^{-(2k+1)^2 t}. $$
6.2.2. The Wave Equation (Hyperbolic)
파동 방정식은 에너지가 소산 없이 공간을 통해 전파되는 현상을 기술한다. 기타 줄의 진동, 음파의 전파, 지진파의 분석, 광섬유에서의 전자기파 전파가 모두 파동 방정식의 변형이다. 열 방정식과의 주된 차이는 에너지 보존과 유한 전파 속도이다. 열은 즉시 모든 곳에 영향을 미치지만(무한 전파 속도), 파동은 유한 속도 \( c \)로 전파되어 인과성(causality)을 보존한다.
Definition 6.4 (Wave Equation)
1차원 wave equation(파동 방정식)은 다음과 같다:
$$ u_{tt} = c^2 u_{xx}, \qquad 0 < x < L, \quad t > 0, $$
여기서 \( c \)는 파동 전파 속도이다.
Theorem 6.2 (D'Alembert's Solution)
전체 실수직선에서 \( u_{tt} = c^2 u_{xx} \)의 일반해는
$$ u(x,t) = F(x - ct) + G(x + ct), $$
여기서 \( F \)와 \( G \)는 임의의 (충분히 매끄러운) 함수이다. 초기 조건 \( u(x,0) = f(x) \), \( u_t(x,0) = g(x) \)가 주어지면,
$$ u(x,t) = \frac{1}{2}\bigl[f(x-ct) + f(x+ct)\bigr] + \frac{1}{2c}\int_{x-ct}^{x+ct} g(s)\,ds. $$
Theorem 6.3 (Wave Equation on a Finite Interval)
\( [0, L] \)에서 \( u(0,t) = u(L,t) = 0 \), 초기 변위 \( u(x,0) = f(x) \), 초기 속도 \( u_t(x,0) = g(x) \)를 갖는 wave equation(파동 방정식)의 해는 다음과 같다:
$$ u(x,t) = \sum_{n=1}^{\infty} \sin\!\left(\frac{n\pi x}{L}\right)\!\left[a_n \cos\!\left(\frac{n\pi c\,t}{L}\right) + b_n \sin\!\left(\frac{n\pi c\,t}{L}\right)\right], $$
여기서
$$ a_n = \frac{2}{L}\int_0^L f(x)\sin\!\left(\frac{n\pi x}{L}\right)dx, \qquad b_n = \frac{2}{n\pi c}\int_0^L g(x)\sin\!\left(\frac{n\pi x}{L}\right)dx. $$
Example 6.2
길이 \( L \)인 현의 중간점을 높이 \( h \)까지 당긴 후 정지 상태에서 놓는다 (\( g(x) = 0 \)). 초기 형태는 삼각형이다:
$$ f(x) = \begin{cases} 2hx/L & 0 \leq x \leq L/2, \\ 2h(L-x)/L & L/2 \leq x \leq L. \end{cases} $$
계수는 \( a_n = \frac{8h}{n^2\pi^2}\sin\!\left(\frac{n\pi}{2}\right) \)이며, 짝수 \( n \)에서 소멸한다. 해는
$$ u(x,t) = \frac{8h}{\pi^2}\sum_{k=0}^{\infty} \frac{(-1)^k}{(2k+1)^2} \sin\!\left(\frac{(2k+1)\pi x}{L}\right) \cos\!\left(\frac{(2k+1)\pi ct}{L}\right). $$
홀수 고조파만 존재하며, 이는 초기 변위의 대칭성에 기인한다.
6.2.3. Laplace's Equation (Elliptic)
Laplace 방정식은 정상상태(steady-state) 문제를 기술한다. 열 방정식에서 시간이 충분히 흐른 후의 온도 분포, 전하가 없는 영역에서의 정전기 전위, 비압축성 비회전 유체의 속도 포텐셜이 모두 Laplace 방정식을 만족한다. 시간 변수가 없으므로 초기 조건 대신 경계 조건만이 해를 결정하며, 최대값 원리(maximum principle)라는 유용한 정성적 성질을 갖는다.
Definition 6.5 (Laplace's Equation)
2차원 Laplace 방정식은 다음과 같다:
$$ \nabla^2 u = u_{xx} + u_{yy} = 0. $$
해를 조화함수(harmonic functions)라 한다. Poisson 방정식 \( \nabla^2 u = f \)는 비동차 형태이다.
Theorem 6.4 (Maximum Principle)
\( u \)가 유계 영역 \( \Omega \)에서 조화이고 \( \overline{\Omega} \)에서 연속이면, \( u \)는 경계 \( \partial\Omega \)에서 최대값과 최소값을 달성한다. \( u = 0 \)이 \( \partial\Omega \)에서 성립하면, \( \Omega \) 전체에서 \( u = 0 \)이다.
Example 6.3
직사각형 \( 0 < x < a \), \( 0 < y < b \)에서 Laplace 방정식을 풀어라. 세 변에서 \( u = 0 \)이고, 윗변에서 \( u(x, b) = f(x) \)이다. 변수 분리 \( u = X(x)Y(y) \)에서 \( X(0) = X(a) = 0 \) 조건을 적용하면 \( X_n = \sin(n\pi x/a) \)이고,
$$ Y_n(y) = \sinh\!\left(\frac{n\pi y}{a}\right). $$
해는
$$ u(x,y) = \sum_{n=1}^{\infty} c_n \sin\!\left(\frac{n\pi x}{a}\right) \frac{\sinh(n\pi y/a)}{\sinh(n\pi b/a)}, $$
여기서 \( c_n = \frac{2}{a}\int_0^a f(x)\sin(n\pi x/a)\,dx \)이다.
6.3. Separation of Variables
변수 분리법(separation of variables)은 PDE를 여러 개의 ODE로 분해하는 체계적 기법이다. 다변수 문제를 각 변수별 1차원 문제로 환원하여, 이미 알고 있는 ODE 풀이법을 적용할 수 있게 한다. 이 과정에서 고유값 문제(eigenvalue problem)가 자연스럽게 등장하며, 고유함수의 직교성과 완비성이 Fourier 급수 전개의 이론적 토대가 된다.
Theorem 6.5 (Sturm–Liouville Eigenvalue Problem)
변수 분리법의 기저에 있는 eigenvalue(고유값) 문제는 Sturm-Liouville 유형이다:
$$ \frac{d}{dx}\!\left[p(x)\frac{dX}{dx}\right] + q(x)X + \lambda\,w(x)\,X = 0, \qquad a < x < b, $$
적절한 경계 조건을 갖는다. 표준 정칙성 및 부호 조건 (\( p, w > 0 \)) 하에서:
- 모든 eigenvalue(고유값)는 실수이다.
- 서로 다른 eigenvalue(고유값)에 대응하는 고유함수는 가중함수 \( w(x) \)에 대해 직교한다.
- 고유함수는 \( L^2([a,b], w) \)에서 완비 직교계를 이룬다: 임의의 제곱적분 가능한 함수는 고유함수의 일반화된 Fourier 급수로 전개할 수 있다.
6.4. Boundary Value Problems
경계 조건(boundary condition)은 PDE 문제를 물리적으로 완전하게 규정한다. 막대 끝의 온도가 고정되어 있는가(Dirichlet), 단열되어 열 유속이 0인가(Neumann), 대류에 의해 주변 환경과 열 교환을 하는가(Robin) — 이러한 물리적 상황이 경계 조건의 유형을 결정한다. 잘못된 유형의 경계 조건을 설정하면 해가 존재하지 않거나, 데이터의 미세한 변동에 해가 폭발적으로 민감해지는 부적정(ill-posed) 문제가 된다.
Definition 6.6 (Standard Boundary Conditions)
영역 \( \Omega \)에서 경계 \( \partial\Omega \)를 갖는 PDE의 표준 경계 조건 유형은 다음과 같다:
- Dirichlet: \( u = g \) on \( \partial\Omega \) (값을 지정).
- Neumann: \( \partial u/\partial n = h \) on \( \partial\Omega \) (법선 도함수를 지정).
- Robin (혼합): \( \alpha u + \beta\,\partial u/\partial n = \gamma \) on \( \partial\Omega \).
Theorem 6.6 (Well-Posedness — Hadamard)
경계값 문제가
적정(well-posed)하려면 다음을 만족해야 한다:
- 존재성: 해가 존재한다.
- 유일성: 해가 유일하다.
- 안정성: 해가 데이터에 연속적으로 의존한다.
세 가지 정준 방정식에 대해, 자연스러운 적정 문제는 다음과 같다:
- 타원형 (Laplace): 유계 영역에서 Dirichlet 또는 Neumann 경계값 문제 (초기 조건 없음). Neumann 조건에는 양립 조건 \( \int_{\partial\Omega} h\,dS = \int_\Omega f\,dV \)이 필요하다.
- 포물형 (heat equation(열 방정식)): 초기 조건과 공간 경계에서의 Dirichlet, Neumann, 또는 Robin 경계 조건.
- 쌍곡형 (wave equation(파동 방정식)): 두 개의 초기 조건 (\( t = 0 \)에서 \( u \)와 \( u_t \))과 공간 경계에서의 경계 조건.
Example 6.4
단열된 끝점을 가진 heat equation(열 방정식) (Neumann 경계 조건): \( [0, L] \)에서 \( u_t = \alpha^2 u_{xx} \), \( u_x(0,t) = u_x(L,t) = 0 \). 변수 분리법을 적용하면 고유함수 \( \cos(n\pi x/L) \)을 얻고,
$$ u(x,t) = \frac{a_0}{2} + \sum_{n=1}^{\infty} a_n \cos\!\left(\frac{n\pi x}{L}\right) e^{-\alpha^2 n^2 \pi^2 t / L^2}, $$
여기서 \( a_n \)은 초기 온도의 Fourier 코사인 계수이다. 상수항 \( a_0/2 \)는 정상 상태 온도를 나타내며, 초기 데이터의 공간 평균과 같다 (총 열량 보존).
Example 6.5
반지름 \( R \)인 원판에서의 Laplace 방정식: 극좌표 \( (r, \theta) \)에서,
$$ u_{rr} + \frac{1}{r}u_r + \frac{1}{r^2}u_{\theta\theta} = 0, \qquad r < R, $$
경계 조건은 \( u(R, \theta) = f(\theta) \). 변수 분리 \( u = \mathcal{R}(r)\,\Theta(\theta) \)를 적용하면 Poisson 적분 공식을 얻는다:
$$ u(r,\theta) = \frac{a_0}{2} + \sum_{n=1}^{\infty} \left(\frac{r}{R}\right)^n \bigl(a_n\cos n\theta + b_n\sin n\theta\bigr), $$
여기서 \( a_n, b_n \)은 \( f(\theta) \)의 Fourier 계수이다. 중심에서 \( u(0) = a_0/2 \)이며, 이는 경계값의 평균이다 (조화함수의 평균값 성질).
6.5. Additional Examples and Methods
6.2절은 유한 영역 경계값 문제를 다뤘다. 여기서는 무한 영역 초기값 문제와 비직교 기하 영역으로 나아간다. 무한 영역의 열 방정식은 반도체 웨이퍼의 순간 레이저 가열, 지구 표면의 일주기 온도 변동 깊이 추정 등에 응용되며, 해의 형태인 Gauss 함수(열 핵)는 확산 현상의 보편적 특성을 드러낸다.
6.5.1. 열 방정식 초기값 문제 (무한 영역)
Theorem 6.7 (Heat Kernel on \(\mathbb{R}\))
무한 직선 \( x \in \mathbb{R} \), \( t > 0 \)에서 열 방정식 \( u_t = \alpha^2 u_{xx} \)의 초기 조건 \( u(x,0) = f(x) \)에 대한 해는 다음과 같다:
$$ u(x,t) = \frac{1}{2\alpha\sqrt{\pi t}} \int_{-\infty}^{\infty} f(\xi)\, \exp\!\left(-\frac{(x-\xi)^2}{4\alpha^2 t}\right) d\xi. $$
여기서 \( K(x,t) = \frac{1}{2\alpha\sqrt{\pi t}} e^{-x^2/(4\alpha^2 t)} \)를 열 핵(heat kernel) 또는 기본해(fundamental solution)라 한다.
Example 6.6 (열 방정식 초기값 문제 풀이)
\( \alpha = 1 \)이고 초기 조건이 \( u(x,0) = e^{-x^2} \)인 무한 영역 열 방정식을 풀어라.
열 핵 공식에 대입하면:
$$ u(x,t) = \frac{1}{2\sqrt{\pi t}} \int_{-\infty}^{\infty} e^{-\xi^2} \exp\!\left(-\frac{(x-\xi)^2}{4t}\right) d\xi. $$
피적분함수를 \( \xi \)에 대해 정리하면 Gauss 적분을 얻는다. 지수부를 완전제곱식으로 변환하면:
$$ -\xi^2 - \frac{(x-\xi)^2}{4t} = -\frac{1+4t}{4t}\left(\xi - \frac{x}{1+4t}\right)^2 - \frac{x^2}{1+4t}. $$
따라서
$$ u(x,t) = \frac{1}{\sqrt{1+4t}}\, \exp\!\left(-\frac{x^2}{1+4t}\right). $$
\( t = 0 \)에서 \( u(x,0) = e^{-x^2} \)이 복원되며, \( t \to \infty \)일 때 \( u \to 0 \)으로 감쇠한다. Gauss 함수의 폭은 \( \sqrt{1+4t} \)에 비례하여 증가하며, 이는 열 확산의 전형적 거동이다.
6.5.2. 파동 방정식: d'Alembert 해 예제
d'Alembert 해는 무한 영역에서 파동이 좌행파와 우행파로 분리되어 전파되는 모습을 명시적으로 보여준다. 지진파 분석에서 P파의 전파 패턴 예측, 광섬유에서 펄스 신호의 분산 없는 전달 등이 이 형태의 해로 표현된다.
Example 6.7 (d'Alembert 해 적용)
무한 현에서 \( c = 1 \), 초기 변위 \( f(x) = \frac{1}{1+x^2} \), 초기 속도 \( g(x) = 0 \)일 때 파동 방정식의 해를 구하라.
d'Alembert 공식 (Theorem 6.2)에 의해:
$$ u(x,t) = \frac{1}{2}\bigl[f(x-t) + f(x+t)\bigr] + \frac{1}{2}\int_{x-t}^{x+t} g(s)\,ds. $$
\( g = 0 \)이므로 적분항이 소멸하고:
$$ u(x,t) = \frac{1}{2}\left[\frac{1}{1+(x-t)^2} + \frac{1}{1+(x+t)^2}\right]. $$
초기의 단봉 형태가 좌행파 \( \frac{1}{2(1+(x+t)^2)} \)와 우행파 \( \frac{1}{2(1+(x-t)^2)} \)로 분리되어 각각 속도 \( c = 1 \)로 전파된다. \( t \) 시간이 경과하면 두 봉우리의 중심 사이 거리는 \( 2t \)이다.
Example 6.8 (초기 속도가 있는 d'Alembert 해)
\( c = 2 \), \( f(x) = 0 \), \( g(x) = \cos x \)일 때 무한 영역 파동 방정식의 해를 구하라.
d'Alembert 공식에 대입:
$$ u(x,t) = \frac{1}{2 \cdot 2}\int_{x-2t}^{x+2t} \cos s\,ds = \frac{1}{4}\bigl[\sin(x+2t) - \sin(x-2t)\bigr]. $$
합차 공식을 적용하면:
$$ u(x,t) = \frac{1}{2}\cos x\, \sin 2t. $$
이 해는 정상파 형태로, 공간적으로 \( \cos x \)의 모양을 유지하면서 시간에 따라 \( \sin 2t \)로 진동한다.
6.5.3. Laplace 방정식 극좌표 풀이
원형 또는 원환(annular) 영역에서의 Laplace 방정식은 동축 케이블의 전위 분포, 원통형 도체의 정상 온도장, 파이프 단면의 응력 분포 등에 직접 응용된다. 극좌표에서의 변수 분리는 Euler 형 ODE와 주기 경계 조건을 결합하며, 직사각형과 달리 고유값이 정수가 아닌 값을 취할 수 있다.
Example 6.9 (원환 영역에서의 Laplace 방정식)
내부 반지름 \( a \), 외부 반지름 \( b \)인 원환(annulus)에서 Laplace 방정식을 풀어라. 경계 조건은 \( u(a,\theta) = 0 \), \( u(b,\theta) = \sin 3\theta \)이다.
극좌표에서 변수 분리 \( u(r,\theta) = R(r)\Theta(\theta) \)를 적용한다. \( \Theta \) 방정식의 주기성 조건으로부터 \( \Theta_n(\theta) = A_n\cos n\theta + B_n\sin n\theta \)이다. 대응하는 \( R \) 방정식은 Euler 형이며, 원환 영역에서의 일반해는:
$$ R_0(r) = C_0 + D_0 \ln r, \qquad R_n(r) = C_n r^n + D_n r^{-n} \quad (n \geq 1). $$
경계 조건에 의해 \( n = 3 \)인 사인 항만 남으므로:
$$ u(r,\theta) = B_3\bigl(C_3 r^3 + D_3 r^{-3}\bigr)\sin 3\theta. $$
\( u(a,\theta) = 0 \)에서 \( C_3 a^3 + D_3 a^{-3} = 0 \), 즉 \( D_3 = -C_3 a^6 \). \( u(b,\theta) = \sin 3\theta \)에서:
$$ B_3 C_3\bigl(b^3 - a^6 b^{-3}\bigr) = 1. $$
따라서
$$ u(r,\theta) = \frac{r^3 - a^6 r^{-3}}{b^3 - a^6 b^{-3}} \sin 3\theta. $$
Example 6.10 (쐐기 영역에서의 Laplace 방정식)
꼭지각 \( \beta \)인 쐐기(wedge) 영역 \( 0 < \theta < \beta \), \( 0 < r < R \)에서 Laplace 방정식을 풀어라. 경계 조건: \( u(r,0) = u(r,\beta) = 0 \), \( u(R,\theta) = f(\theta) \).
\( \theta \) 방향의 동차 Dirichlet 조건에서 \( \Theta(0) = \Theta(\beta) = 0 \)이므로:
$$ \Theta_n(\theta) = \sin\!\left(\frac{n\pi\theta}{\beta}\right), \qquad n = 1, 2, 3, \ldots $$
원점에서의 유계 조건에서 \( R_n(r) = r^{n\pi/\beta} \)만 허용된다 (음의 거듭제곱은 발산). 따라서:
$$ u(r,\theta) = \sum_{n=1}^{\infty} c_n \left(\frac{r}{R}\right)^{n\pi/\beta} \sin\!\left(\frac{n\pi\theta}{\beta}\right), $$
여기서 \( c_n = \frac{2}{\beta}\int_0^\beta f(\theta)\sin\!\left(\frac{n\pi\theta}{\beta}\right) d\theta \)이다. 고유값이 \( \lambda_n = (n\pi/\beta)^2 \)으로, \( \beta \)가 \( \pi \)의 유리수 배가 아닐 때 정수가 아닌 값을 취한다는 점이 직사각형의 경우와 다르다.
6.6. Green 함수
Green 함수는 점 소스(point source)에 대한 시스템의 응답이다. 이를 한 번 구해 놓으면, 임의의 소스 분포에 대한 해를 적분(중첩)으로 구성할 수 있다. 이는 ODE에서의 충격 응답(impulse response)을 다변수로 확장한 것이며, 전자기학에서 점 전하에 의한 Coulomb 전위, 구조역학에서 집중 하중에 의한 보(beam)의 처짐이 대표적인 예이다.
Definition 6.7 (Green 함수)
선형 미분 작용소 \( \mathcal{L} \)에 대한 Green 함수 \( G(\mathbf{x}; \boldsymbol{\xi}) \)는 점 소스에 대한 응답으로, 다음을 만족한다:
$$ \mathcal{L}\, G(\mathbf{x}; \boldsymbol{\xi}) = \delta(\mathbf{x} - \boldsymbol{\xi}), $$
여기서 \( \delta \)는 Dirac 델타 함수이고, 경계 조건은 동차이다. Green 함수가 알려지면, 비동차 방정식 \( \mathcal{L}\, u = f \)의 해는 중첩 원리에 의해 다음과 같이 주어진다:
$$ u(\mathbf{x}) = \int_\Omega G(\mathbf{x}; \boldsymbol{\xi})\, f(\boldsymbol{\xi})\, d\boldsymbol{\xi}. $$
Theorem 6.8 (Laplace 방정식의 자유 공간 Green 함수)
\( \mathbb{R}^n \)에서 Laplace 작용소 \( \nabla^2 \)의 자유 공간 Green 함수는:
- \( n = 2 \): \( G(\mathbf{x}; \boldsymbol{\xi}) = -\frac{1}{2\pi}\ln|\mathbf{x} - \boldsymbol{\xi}| \),
- \( n = 3 \): \( G(\mathbf{x}; \boldsymbol{\xi}) = \frac{1}{4\pi|\mathbf{x} - \boldsymbol{\xi}|} \).
3차원의 경우 이는 점 전하에 의한 전위(Coulomb 전위)에 해당한다.
Example 6.11 (1차원 열 방정식의 Green 함수)
\( [0, L] \)에서 동차 Dirichlet 경계 조건을 갖는 비동차 열 방정식 \( u_t - \alpha^2 u_{xx} = h(x,t) \)의 Green 함수를 구하라.
고유함수 전개법을 사용한다. 동차 문제의 고유함수 \( \phi_n(x) = \sin(n\pi x/L) \), 고유값 \( \lambda_n = (n\pi/L)^2 \)을 이용하면, Green 함수는:
$$ G(x,t;\xi,\tau) = \frac{2}{L}\sum_{n=1}^{\infty} \sin\!\left(\frac{n\pi x}{L}\right)\sin\!\left(\frac{n\pi \xi}{L}\right) e^{-\alpha^2 \lambda_n (t-\tau)}, \qquad t > \tau. $$
비동차 방정식의 해는:
$$ u(x,t) = \int_0^t \int_0^L G(x,t;\xi,\tau)\, h(\xi,\tau)\, d\xi\, d\tau + \int_0^L G(x,t;\xi,0)\, f(\xi)\, d\xi, $$
여기서 \( f(\xi) = u(\xi,0) \)는 초기 조건이다. 첫째 항은 소스 \( h \)에 의한 기여이고, 둘째 항은 초기 조건에 의한 기여이다.
Example 6.12 (Poisson 방정식의 Green 함수: 반평면)
상반평면 \( y > 0 \)에서 Dirichlet 경계 조건 \( u(x,0) = 0 \)을 갖는 2차원 Poisson 방정식 \( \nabla^2 u = f \)의 Green 함수를 구하라.
상법(method of images)을 사용한다. 소스점 \( \boldsymbol{\xi} = (\xi, \eta) \) (\( \eta > 0 \))에 대해, \( x \)축에 대한 상점(image point)은 \( \boldsymbol{\xi}^* = (\xi, -\eta) \)이다. Green 함수는:
$$ G(\mathbf{x}; \boldsymbol{\xi}) = -\frac{1}{2\pi}\ln|\mathbf{x} - \boldsymbol{\xi}| + \frac{1}{2\pi}\ln|\mathbf{x} - \boldsymbol{\xi}^*|
= -\frac{1}{4\pi}\ln\!\frac{(x-\xi)^2 + (y-\eta)^2}{(x-\xi)^2 + (y+\eta)^2}. $$
\( y = 0 \)에서 \( |\mathbf{x} - \boldsymbol{\xi}| = |\mathbf{x} - \boldsymbol{\xi}^*| \)이므로 \( G = 0 \)이 성립하여 Dirichlet 경계 조건이 만족된다.
Example 6.13 (비동차 파동 방정식)
무한 직선에서 비동차 파동 방정식 \( u_{tt} - c^2 u_{xx} = h(x,t) \), \( u(x,0) = 0 \), \( u_t(x,0) = 0 \)의 해를 구하라.
Duhamel 원리(파동 방정식의 Green 함수 방법)에 의해:
$$ u(x,t) = \frac{1}{2c}\int_0^t \int_{x-c(t-\tau)}^{x+c(t-\tau)} h(\xi, \tau)\, d\xi\, d\tau. $$
적분 영역은 \( (x,t) \)-평면에서 꼭짓점 \( (x,t) \)을 가진 특성 삼각형(domain of dependence)이다. 예를 들어, \( h(x,t) = \delta(x)\delta(t) \) (원점에서의 순간 점 소스)이면:
$$ u(x,t) = \frac{1}{2c}\, H(ct - |x|), $$
여기서 \( H \)는 Heaviside 함수이다. 교란은 \( |x| < ct \)인 영역에서만 감지되며, 이는 유한 전파 속도의 표현이다.
6.7. 에너지 방법과 유일성
에너지 방법(energy method)은 PDE 해의 유일성과 안정성을 증명하는 기법이다. 해를 명시적으로 구하지 않고도, 에너지 범함수의 시간 변화율을 분석하여 해의 정성적 성질을 도출할 수 있다. 파동 방정식에서는 에너지가 보존되어 해의 유일성이 따라 나오고, 열 방정식에서는 에너지가 단조 감소하여 해가 시간에 따라 평형 상태로 수렴함을 증명할 수 있다. 이 접근법은 비선형 PDE나 복잡한 영역에서도 적용 가능하여 수치 해법의 안정성 분석에도 사용된다.
Theorem 6.9 (파동 방정식의 에너지 보존)
유한 구간 \( [0,L] \)에서 동차 Dirichlet 경계 조건을 갖는 파동 방정식 \( u_{tt} = c^2 u_{xx} \)에 대해, 전체 에너지
$$ E(t) = \frac{1}{2}\int_0^L \bigl(u_t^2 + c^2 u_x^2\bigr)\,dx $$
는 시간에 대해 불변이다: \( E'(t) = 0 \). 이로부터 해의 유일성이 즉시 따른다.
Proof
\( E(t) \)를 미분하면:
$$ E'(t) = \int_0^L \bigl(u_t u_{tt} + c^2 u_x u_{xt}\bigr)\,dx = \int_0^L u_t\bigl(u_{tt} - c^2 u_{xx}\bigr)\,dx + c^2\bigl[u_t u_x\bigr]_0^L. $$
PDE에 의해 첫째 적분은 0이고, Dirichlet 경계 조건 \( u(0,t) = u(L,t) = 0 \)으로부터 \( u_t(0,t) = u_t(L,t) = 0 \)이므로 경계항도 0이다. 유일성: 두 해의 차 \( w = u_1 - u_2 \)는 영 초기 조건을 가지므로 \( E(0) = 0 \)이고, \( E(t) = 0 \)이므로 \( w_t = w_x = 0 \), 따라서 \( w \equiv 0 \). \(\square\)
Example 6.14 (열 방정식의 에너지 감쇠)
열 방정식에서는 에너지가 보존되지 않는다. \( u_t = \alpha^2 u_{xx} \), \( u(0,t) = u(L,t) = 0 \)에서
$$ \frac{d}{dt}\int_0^L u^2\,dx = 2\int_0^L u\, u_t\,dx = 2\alpha^2\int_0^L u\, u_{xx}\,dx = -2\alpha^2\int_0^L u_x^2\,dx \leq 0, $$
여기서 부분적분과 경계 조건을 사용하였다. 이는 \( \|u(\cdot,t)\|_{L^2} \)가 단조감소함을 의미하며, 열이 시간에 따라 소산됨을 정량적으로 확인해 준다.
Example 6.15 (2차원 파동 방정식: 원형 막의 진동)
반지름 \( R \)인 원형 막(drum)의 진동은 극좌표에서:
$$ u_{tt} = c^2\!\left(u_{rr} + \frac{1}{r}u_r + \frac{1}{r^2}u_{\theta\theta}\right), \qquad u(R,\theta,t) = 0. $$
축대칭 모드 (\( u \)가 \( \theta \)에 무관한 경우)에 대해 변수 분리 \( u = R(r)T(t) \)를 적용하면 \( R \) 방정식은 Bessel 방정식이 된다:
$$ r^2 R'' + r R' + (\lambda r^2) R = 0. $$
유계 조건에서 \( R(r) = J_0(\sqrt{\lambda}\, r) \)이고, \( R(R) = 0 \)에서 \( \sqrt{\lambda_n}\, R = j_{0,n} \) (\( J_0 \)의 \( n \)번째 영점)이다. 기본 진동수는 \( \omega_1 = c\, j_{0,1}/R \approx 2.405\, c/R \)이다.
Example 6.16 (Fourier 변환을 이용한 열 방정식 풀이)
무한 영역에서 \( u_t = u_{xx} \), \( u(x,0) = e^{-|x|} \)를 Fourier 변환으로 풀어라.
\( x \)에 대한 Fourier 변환 \( \hat{u}(k,t) = \int_{-\infty}^{\infty} u(x,t) e^{-ikx}\,dx \)를 적용하면, PDE는 ODE \( \hat{u}_t = -k^2 \hat{u} \)가 된다. 따라서 \( \hat{u}(k,t) = \hat{f}(k) e^{-k^2 t} \). 초기 조건의 변환은:
$$ \hat{f}(k) = \int_{-\infty}^{\infty} e^{-|x|} e^{-ikx}\,dx = \frac{2}{1+k^2}. $$
역변환으로 해를 구하면:
$$ u(x,t) = \frac{1}{2\pi}\int_{-\infty}^{\infty} \frac{2}{1+k^2}\, e^{-k^2 t}\, e^{ikx}\, dk. $$
\( t = 0 \)에서 \( e^{-|x|} \)이 복원되며, \( t \) 증가에 따라 고주파 성분(\( |k| \) 큰 항)이 \( e^{-k^2 t} \) 인자에 의해 지수적으로 감쇠하여 해가 점차 평탄해진다.
선형대수는 현대 수학과 응용의 공통 언어이다. 미분방정식, 최적화, 통계, 양자역학 등 거의 모든 분야에서 선형대수의 도구를 사용한다. Part I–II에서 다룬 미분방정식조차 선형대수의 관점에서 재해석하면 구조가 명료해진다 — 해 공간의 차원, 고유값에 의한 안정성 판별, 직교 분해에 의한 근사가 모두 선형대수의 언어로 기술된다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Finite Difference Methods for PDEs (LeVeque, UW) — 강의노트
- Evans, Partial Differential Equations — 대학원 PDE 표준 교재 (AMS GSM 19)
- Strauss, Partial Differential Equations: An Introduction — 학부 PDE 표준 교재
- Haberman, Applied Partial Differential Equations — 물리/공학 응용 중심
- John, Partial Differential Equations — Springer 고전 입문서
- Folland, Introduction to Partial Differential Equations — 해석학 관점
7. Linear Algebra
선형대수는 선형 연립방정식을 푸는 문제에서 출발했다. Gauss 소거법이라는 구체적 알고리즘에서 시작해, 벡터 공간이라는 추상적 구조로 발전했다. 벡터와 행렬의 연산을 먼저 정의하고, 소거법으로 연립방정식을 풀면서, 벡터 공간·부분공간·차원의 개념에 이른다.
선형대수는 현대 공학에서 폭넓게 쓰인다. 키르히호프 법칙(Kirchhoff's law)으로 전기 회로를 해석하고, 유한요소법(FEM)으로 구조물 응력을 계산하면, 결국 대규모 연립방정식 \( A\mathbf{x} = \mathbf{b} \)를 풀게 된다. 고유값(eigenvalue)은 건축물의 고유진동 모드 분석, 양자역학의 에너지 준위 계산, Google PageRank 알고리즘에 쓰인다. 특이값 분해(SVD)는 이미지 압축, 추천 시스템, 자연어 처리의 기반 기술이며, 최소제곱법(least squares)은 GPS 위치 결정, 센서 융합(sensor fusion), 실험 데이터 회귀 분석에 매일 사용된다. 이렇게 적용 범위가 넓은 이유는, "여러 물리량을 하나의 객체(벡터)로 묶고, 그들 사이의 선형 관계를 행렬로 표현한다"는 구조가 보편적이기 때문이다.
선형대수학(linear algebra)은 벡터, 행렬, 선형 변환을 다루는 학문이다.
연립일차방정식, 벡터 공간, 고유값 문제, 행렬 분해 등을 위한 언어와 계산 체계를 제공한다.
구성은 MIT 18.06 (Strang) 강의를 따른다.
7.1 Vectors and Matrices
벡터가 왜 필요한가? 3차원 공간에서 힘, 속도, 전기장은 크기와 방향을 가지므로 단일 숫자로는 기술할 수 없다. \( n \)개의 물리량을 하나의 수학적 객체로 묶어 다루는 것이 벡터이고, 벡터들 사이의 선형 관계를 간결하게 표현하는 것이 행렬이다. 행렬-벡터 곱 \( A\mathbf{x} \)는 "시스템 \( A \)에 입력 \( \mathbf{x} \)를 넣었을 때의 출력"으로 읽을 수 있으며, 이 관점은 회로, 제어 시스템, 컴퓨터 그래픽스의 좌표 변환에 그대로 적용된다.
Definition 7.1 (Vector in \(\mathbb{R}^n\))
\(\mathbb{R}^n\)에서의 벡터는 실수 \(n\)개의 순서쌍으로, 열(column)로 표기한다:
$$
\mathbf{x} = \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix} \in \mathbb{R}^n.
$$
Definition 7.2 (Linear Combination)
벡터 \(\mathbf{v}_1, \ldots, \mathbf{v}_k \in \mathbb{R}^n\)와 스칼라 \(c_1, \ldots, c_k \in \mathbb{R}\)가 주어졌을 때,
\(c_1 \mathbf{v}_1 + c_2 \mathbf{v}_2 + \cdots + c_k \mathbf{v}_k\)를 벡터 \(\mathbf{v}_i\)의 일차결합(linear combination)이라 한다.
Definition 7.3 (Matrix)
\(m \times n\) 행렬 \(A\)는 \(m\)개의 행과 \(n\)개의 열을 갖는 실수의 직사각 배열이다.
\(a_{ij}\)는 \(i\)행 \(j\)열의 성분을 나타낸다.
행렬–벡터 곱
\(A\)가 \(m \times n\)이고 \(\mathbf{x} \in \mathbb{R}^n\)이면, 곱 \(A\mathbf{x}\)는 \(\mathbb{R}^m\)의 벡터이다.
두 가지 동치인 관점이 있다:
- 행(row) 관점. \(A\mathbf{x}\)의 각 성분은 \(A\)의 행과 \(\mathbf{x}\)의 내적이다:
\((A\mathbf{x})_i = \sum_{k=1}^{n} a_{ik} x_k\).
- 열(column) 관점. \(A\mathbf{x}\)는 \(A\)의 열들의 일차결합이다:
\(A\mathbf{x} = x_1 \mathbf{a}_1 + x_2 \mathbf{a}_2 + \cdots + x_n \mathbf{a}_n\).
행렬–행렬 곱
\(A\)가 \(m \times n\)이고 \(B\)가 \(n \times p\)이면, \(C = AB\)는 \(m \times p\)이며 다음과 같다:
$$
c_{ij} = \sum_{k=1}^{n} a_{ik}\, b_{kj}.
$$
\(AB\)를 생각하는 네 가지 방법:
- 내적: \(c_{ij}\) = (\(A\)의 행 \(i\)) \(\cdot\) (\(B\)의 열 \(j\)).
- 열: \(C\)의 열 \(j\) = \(A\) 곱하기 \(B\)의 열 \(j\).
- 행: \(C\)의 행 \(i\) = (\(A\)의 행 \(i\)) 곱하기 \(B\).
- 열 \(\times\) 행: \(AB = \sum_{k=1}^{n}(\text{col } k \text{ of } A)(\text{row } k \text{ of } B)\).
행렬 곱은 결합법칙이 성립하지만—\(A(BC)=(AB)C\)—일반적으로 교환법칙은 성립하지 않는다.
전치(Transpose)
전치 연산은 행과 열을 교환하는 단순한 조작이지만, 대칭행렬(\(A^T = A\))의 정의부터 최소제곱법의 정규방정식 \(A^T A \hat{\mathbf{x}} = A^T \mathbf{b}\)까지 선형대수 전반에서 등장한다.
Definition 7.4 (Transpose)
\(m \times n\) 행렬 \(A\)의 전치행렬은 \(n \times m\) 행렬 \(A^T\)로,
\((A^T)_{ij} = a_{ji}\)로 정의된다.
\(A^T = A\)인 행렬을 대칭행렬(symmetric matrix)이라 한다.
Theorem 7.1 (Transpose of a product)
적합한 크기의 행렬 \(A\)와 \(B\)에 대해,
$$(AB)^T = B^T A^T.$$
Theorem 7.2 (\(R^T R\) is symmetric)
임의의 행렬 \(R\) (정방행렬일 필요 없음)에 대해, 곱 \(R^T R\)은 대칭이다:
\((R^T R)^T = R^T (R^T)^T = R^T R\).
역행렬(Inverse)
연립방정식 \(A\mathbf{x} = \mathbf{b}\)에서 \(A\)가 가역이면 해는 \(\mathbf{x} = A^{-1}\mathbf{b}\)로 유일하게 결정된다. 가역성은 시스템이 "완전히 결정된" 상태인지 아닌지를 판별하는 기준이며, 행렬식(determinant)이 0이 아닌 것과 동치이다.
Definition 7.5 (Invertible matrix)
정방행렬 \(A\)가 가역(invertible) (비특이, nonsingular)이란 \(A^{-1}A = I = A A^{-1}\)을 만족하는 행렬 \(A^{-1}\)이 존재함을 뜻한다.
가역이 아닌 행렬을 특이행렬(singular)이라 한다.
\(\det A = ad - bc \neq 0\)인 \(2 \times 2\) 행렬의 경우:
$$
\begin{pmatrix} a & b \\ c & d \end{pmatrix}^{-1}
= \frac{1}{ad - bc}\begin{pmatrix} d & -b \\ -c & a \end{pmatrix}.
$$
Theorem 7.3 (Inverse of a product)
\(A\)와 \(B\)가 가역이면, \((AB)^{-1} = B^{-1}A^{-1}\)이다.
Theorem 7.4 (Inverse via cofactors)
\(A\)가 가역이면,
$$A^{-1} = \frac{1}{\det A}\, C^T,$$
여기서 \(C\)는 \(A\)의 여인자(cofactor) 행렬이다.
Example 7.1
\(A = \begin{pmatrix} 1 & 3 \\ 2 & 7 \end{pmatrix}\)의 역행렬을 구하라.
Gauss–Jordan 소거법을 사용하여 \([A \mid I]\)를 확대 행렬로 만들고 기약행 사다리꼴로 변환한다:
$$
\begin{pmatrix} 1 & 3 & 1 & 0 \\ 2 & 7 & 0 & 1 \end{pmatrix}
\;\longrightarrow\;
\begin{pmatrix} 1 & 0 & 7 & -3 \\ 0 & 1 & -2 & 1 \end{pmatrix}.
$$
따라서 \(A^{-1} = \begin{pmatrix} 7 & -3 \\ -2 & 1 \end{pmatrix}\)이다.
치환행렬(Permutation matrices)
치환행렬 \(P\)는 단위행렬의 행을 재배열하여 얻는다.
\(PA\)는 \(A\)의 행을 교환하고, \(AP\)는 열을 교환한다.
치환행렬의 역행렬은 전치와 같다: \(P^{-1} = P^T\).
Determinant(행렬식)의 성질
정방행렬의 determinant(행렬식) \(\det A\)는 세 가지 공리로 특성화된다:
- \(\det I = 1\).
- 두 행을 교환하면 \(\det A\)의 부호가 바뀐다.
- determinant(행렬식)은 각 행에 대해 개별적으로 선형이다.
주요 결과:
- 두 행이 같으면 \(\det A = 0\)이다.
- \(\det A = 0\)인 것은 \(A\)가 특이행렬인 것과 동치이다.
- 삼각행렬에서 \(\det A = \) 대각 성분의 곱이다.
- \(\det(AB) = (\det A)(\det B)\).
- \(\det A^T = \det A\).
- \(|\det A|\)는 \(A\)의 열(또는 행)이 이루는 평행육면체의 부피와 같다.
[Source: MIT 18.06SC, Sessions 1.1–1.4, 2.4–2.7]
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
7.2 Systems of Linear Equations
연립방정식을 푸는 것은 선형대수의 가장 기본적이고 실용적인 문제이다. 키르히호프 법칙을 적용하면 회로의 각 루프와 노드에서 전류와 전압에 대한 연립방정식이 나오고, 구조역학에서 트러스(truss)의 각 절점에 힘의 평형 조건을 세우면 역시 연립방정식이 된다. Gauss 소거법은 이러한 연립방정식을 체계적으로 푸는 알고리즘이며, 컴퓨터에서 수천 개의 미지수를 가진 시스템을 풀 때에도 기본 연산은 Gauss 소거법이다.
선형대수학의 기본 문제: \(m \times n\) 행렬 \(A\)와 벡터 \(\mathbf{b} \in \mathbb{R}^m\)가 주어졌을 때,
다음을 풀어라.
$$A\mathbf{x} = \mathbf{b}.$$
가우스 소거법(Gaussian elimination)
Definition 7.6 (Pivot)
소거 과정에서 피벗(pivot)이란 현재 행렬의 한 행에서 그 아래(및 이후 위)의 성분을 소거하는 데 사용되는
첫 번째 영이 아닌 성분을 말한다.
피벗 위치에 0이 나타나면 행 교환을 수행한다.
소거법은 행 연산(한 행의 배수를 다른 행에서 빼는 것)을 통해 \(A\)를 상삼각행렬 \(U\)로 변환한다.
동일한 연산을 \(\mathbf{b}\)에 적용하면 벡터 \(\mathbf{c}\)가 되고,
\(U\mathbf{x} = \mathbf{c}\)를 후진 대입(back substitution)으로 풀 수 있다.
Example 7.2
\(A = \begin{pmatrix} 1 & 2 & 1 \\ 3 & 8 & 1 \\ 0 & 4 & 1 \end{pmatrix}\),
\(\mathbf{b} = \begin{pmatrix} 2 \\ 12 \\ 2 \end{pmatrix}\)일 때
\(A\mathbf{x} = \mathbf{b}\)를 풀어라.
소거(피벗 1, 2, 5)를 수행하면
\(U = \begin{pmatrix} 1 & 2 & 1 \\ 0 & 2 & -2 \\ 0 & 0 & 5 \end{pmatrix}\),
\(\mathbf{c} = \begin{pmatrix} 2 \\ 6 \\ -10 \end{pmatrix}\)을 얻는다.
후진 대입: \(z = -2\), \(y = 1\), \(x = 2\).
소거 행렬과 LU 분해
각 소거 단계는 소거 행렬(elimination matrix) \(E_{ij}\)의 좌곱에 해당한다.
행 교환이 필요 없는 경우,
$$
E_{32}\, E_{31}\, E_{21}\, A = U
\quad\Longrightarrow\quad
A = \underbrace{E_{21}^{-1} E_{31}^{-1} E_{32}^{-1}}_{L}\; U = LU.
$$
Theorem 7.5 (LU factorization)
행 교환 없이 \(A\)를 상삼각형 \(U\)로 변환할 수 있으면,
\(A = LU\)가 성립한다. 여기서 \(L\)은 대각 성분이 1인 하삼각행렬이고,
대각 아래 성분은 소거 과정의 승수(multiplier)이다.
일반적으로 행 교환을 반영하는 치환행렬 \(P\)를 포함하여 \(PA = LU\)로 쓴다.
\(n \times n\) 행렬에 대한 소거법의 연산량은 약 \(\tfrac{1}{3}n^3\)이다.
사다리꼴과 RREF
Definition 7.7 (Reduced row echelon form)
행렬이
기약행 사다리꼴(reduced row echelon form, RREF)에 있다 함은 다음을 의미한다:
- 모든 피벗이 1이다.
- 피벗은 해당 열에서 유일한 영이 아닌 성분이다.
- 각 피벗은 윗 행의 피벗보다 오른쪽에 있다.
- 모든 성분이 0인 행은 아래에 위치한다.
피벗 열을 앞에 배치하면 RREF는 블록 구조
\(R = \begin{pmatrix} I & F \\ 0 & 0 \end{pmatrix}\)를 갖는다.
풀이 가능성과 완전해
Theorem 7.6 (Solvability of \(A\mathbf{x} = \mathbf{b}\))
연립방정식 \(A\mathbf{x} = \mathbf{b}\)가 풀이 가능한 것은 \(\mathbf{b}\)가 \(A\)의 열공간에 속하는 것과 동치이다.
동치 조건으로, \(A\)의 행들의 일차결합이 영 행을 줄 때 \(\mathbf{b}\) 성분의 같은 결합도 0이어야 한다.
완전해는 다음과 같다:
$$
\mathbf{x} = \mathbf{x}_p + \mathbf{x}_n,
$$
여기서 \(\mathbf{x}_p\)는 임의의 특수해 (자유 변수를 0으로 놓아 구함)이고,
\(\mathbf{x}_n\)은 영공간 \(N(A)\)의 일반 원소이다.
Theorem 7.7 (Solution count by rank)
\(A\)가 계수 \(r\)인 \(m \times n\) 행렬일 때,
- \(r = m = n\): 모든 \(\mathbf{b}\)에 대해 유일한 해가 존재한다.
- \(r = n < m\): 해가 0개 또는 1개이다.
- \(r = m < n\): 모든 \(\mathbf{b}\)에 대해 무한히 많은 해가 존재한다.
- \(r < m\)이고 \(r < n\): 해가 0개 또는 무한히 많다.
Example 7.3
\(A = \begin{pmatrix} 1 & 2 & 2 & 2 \\ 2 & 4 & 6 & 8 \\ 3 & 6 & 8 & 10 \end{pmatrix}\)일 때,
계수 \(r = 2\), 피벗 열은 1, 3번째이고, 자유 변수는 \(x_2, x_4\)이다.
RREF: \(R = \begin{pmatrix} 1 & 2 & 0 & -2 \\ 0 & 0 & 1 & 2 \\ 0 & 0 & 0 & 0 \end{pmatrix}\).
특수해 (영공간 기저): 자유 변수 하나를 1로, 나머지를 0으로 놓는다.
$$
\mathbf{x}_1 = \begin{pmatrix} -2\\1\\0\\0 \end{pmatrix}, \qquad
\mathbf{x}_2 = \begin{pmatrix} 2\\0\\-2\\1 \end{pmatrix}.
$$
영공간 \(N(A)\)의 차원은 \(n - r = 4 - 2 = 2\)이다.
크래머 법칙(Cramer's rule)
Theorem 7.8 (Cramer's rule)
\(A\)가 가역인 \(n \times n\) 행렬이면, \(A\mathbf{x} = \mathbf{b}\)의 해는 다음과 같다.
$$x_j = \frac{\det B_j}{\det A},$$
여기서 \(B_j\)는 \(A\)의 \(j\)번째 열을 \(\mathbf{b}\)로 대체한 행렬이다.
[Source: MIT 18.06SC, Sessions 1.2–1.8, 2.7]
Gaussian 소거법은 해를 찾는 실용적 도구이다. 그런데 해가 '어디에 사는지'를 이해하려면 더 추상적인 틀이 필요하다. 이것이 벡터 공간이다. 소거법의 결과를 해석하면(pivot 열은 독립인 방향을 나타내고, free variable은 해 공간의 차원을 결정한다) 벡터 공간의 개념으로 이어진다.
7.3 Vector Spaces
소거법은 특정 연립방정식의 해를 찾는 도구이다. 그런데 "해 전체가 어떤 구조를 이루는가?"라는 더 깊은 질문에 답하려면, 벡터 공간(vector space)이라는 추상적 틀이 필요하다. 연립방정식 \( A\mathbf{x} = \mathbf{0} \)의 해 전체(null space)가 벡터 공간을 이루고, 그 차원이 자유 변수의 수와 일치한다. 해의 구조를 기저(basis) 몇 개로 완전히 기술할 수 있다는 뜻이다. 같은 틀이 신호 처리의 신호 공간, 양자역학의 상태 공간, 통계학의 모델 공간으로 확장되며, "선형 구조를 가진 모든 대상"에 같은 도구를 쓸 수 있게 된다.
Definition 7.8 (Vector space)
Vector space(벡터 공간)란 덧셈과 스칼라 곱(일차결합)에 대해 닫혀 있으며
통상적인 공리(결합법칙, 덧셈의 교환법칙, 영벡터의 존재 등)를 만족하는 대상(벡터)들의 모임이다.
Definition 7.9 (Subspace)
벡터 공간 \(V\)의 부분공간(subspace)은 그 자체가 벡터 공간인
공집합이 아닌 부분집합 \(S \subseteq V\)이다. 일차결합에 대해 닫혀 있어야 한다.
모든 부분공간은 영벡터를 포함해야 한다.
\(\mathbb{R}^2\)의 부분공간은: \(\mathbb{R}^2\) 자체, 원점을 지나는 직선, 그리고 \(\{\mathbf{0}\}\)이다.
\(\mathbb{R}^3\)의 부분공간은: \(\mathbb{R}^3\) 자체, 원점을 지나는 평면,
원점을 지나는 직선, 그리고 \(\{\mathbf{0}\}\)이다.
일차독립, 생성, 기저, 차원
Definition 7.10 (Linear independence)
벡터 \(\mathbf{v}_1, \ldots, \mathbf{v}_k\)가 일차독립(linearly independent)이란
\(c_1 \mathbf{v}_1 + \cdots + c_k \mathbf{v}_k = \mathbf{0}\)이면 \(c_1 = c_2 = \cdots = c_k = 0\)임을 뜻한다.
벡터들이 행렬 \(A\)의 열일 때, 독립이란 \(N(A) = \{\mathbf{0}\}\)을 의미한다.
Definition 7.11 (Span)
벡터 \(\mathbf{v}_1, \ldots, \mathbf{v}_k\)가 공간 \(S\)를 생성(span)한다는 것은 \(S\)가 그 벡터들의
모든 일차결합으로 이루어짐을 의미한다.
Definition 7.12 (Basis and dimension)
벡터 공간 \(V\)의 기저(basis)는 일차독립이면서 \(V\)를 생성하는 벡터 집합이다.
\(V\)의 모든 기저는 같은 수의 벡터를 가지며, 이 수를 \(V\)의 차원(dimension)이라 한다.
Theorem 7.9 (Basis from pivot columns)
행렬 \(A\)의 피벗 열은 열공간 \(C(A)\)의 기저를 이룬다.
\(\dim C(A) = r = \operatorname{rank}(A)\)이다.
네 가지 기본 부분공간
Definition 7.13 (Four fundamental subspaces)
rank(계수) \(r\)인 \(m \times n\) 행렬 \(A\)에 대해:
- Column space(열공간) \(C(A) \subseteq \mathbb{R}^m\): \(A\)의 열들의 모든 일차결합. 차원 \(r\).
- Null space(영공간) \(N(A) \subseteq \mathbb{R}^n\): \(A\mathbf{x} = \mathbf{0}\)의 모든 해. 차원 \(n - r\).
- 행공간(Row space) \(C(A^T) \subseteq \mathbb{R}^n\): \(A\)의 행들의 모든 일차결합
(\(A^T\)의 열공간과 동일). 차원 \(r\).
- 좌 null space(좌영공간, Left nullspace) \(N(A^T) \subseteq \mathbb{R}^m\): \(A^T\mathbf{y} = \mathbf{0}\)인 모든 \(\mathbf{y}\)
(\(\mathbf{y}^T A = \mathbf{0}^T\)와 동치). 차원 \(m - r\).
Theorem 7.10 (Fundamental theorem of linear algebra, Part I)
네 가지 기본 부분공간의 차원은 다음을 만족한다:
$$
\dim C(A) + \dim N(A) = n, \qquad \dim C(A^T) + \dim N(A^T) = m.
$$
\(r + (n - r) = n\)이고 \(r + (m - r) = m\)이다.
Theorem 7.11 (Fundamental theorem of linear algebra, Part II)
네 가지 부분공간은 직교 쌍을 이룬다:
- 행공간 \(C(A^T)\)과 영공간 \(N(A)\)는 \(\mathbb{R}^n\)에서 직교 여공간이다.
- 열공간 \(C(A)\)과 좌영공간 \(N(A^T)\)는 \(\mathbb{R}^m\)에서 직교 여공간이다.
Proof
\(\mathbf{x} \in N(A)\)이면 \(A\mathbf{x} = \mathbf{0}\)이므로, \(\mathbf{x}\)와 \(A\)의 모든 행의
내적이 0이다. 행공간의 모든 벡터는 \(A\)의 행들의 결합이므로, \(\mathbf{x}\)는 행공간 전체에 직교한다.
차원의 합이 \(n\)이므로, 이들은 단순히 직교인 부분공간이 아닌 직교 여공간이다.
열공간/좌영공간 쌍은 \(A^T\)에 같은 논증을 적용하여 얻는다.
Rank(계수)
Definition 7.14 (Rank)
행렬 \(A\)의 rank(계수)는 사다리꼴에서의 피벗 수이다.
동치로,
$$\operatorname{rank}(A) = \dim C(A) = \dim C(A^T).$$
Theorem 7.12 (Rank of \(A^T A\))
임의의 행렬 \(A\)에 대해,
\(N(A^T A) = N(A)\)이고 \(\operatorname{rank}(A^T A) = \operatorname{rank}(A)\)이다.
따라서 \(A^T A\)가 가역인 것은 \(A\)의 열이 독립인 것과 동치이다.
Example 7.4
\(A = \begin{pmatrix} 1 & 2 & 3 & 1 \\ 1 & 1 & 2 & 1 \\ 1 & 2 & 3 & 1 \end{pmatrix}\)로 놓자.
행 축소하면
\(R = \begin{pmatrix} 1 & 0 & 1 & 1 \\ 0 & 1 & 1 & 0 \\ 0 & 0 & 0 & 0 \end{pmatrix}\)을 얻는다.
열공간: 피벗 열 1, 2가 \(C(A)\)의 기저이다; \(\dim C(A) = 2\).
영공간: \(\dim N(A) = 4 - 2 = 2\). 기저:
\(\begin{pmatrix}-1\\-1\\1\\0\end{pmatrix}\)과 \(\begin{pmatrix}-1\\0\\0\\1\end{pmatrix}\).
행공간: \(R\)의 처음 2행이 기저이다; \(\dim C(A^T) = 2\).
좌영공간: \(\dim N(A^T) = 3 - 2 = 1\). \(EA = R\)에서
\(E\)의 마지막 행이 기저 벡터를 준다.
[Source: MIT 18.06SC, Sessions 1.5–1.11, 2.1]
7.4 Eigenvalues and Eigenvectors
행렬이 벡터에 작용하면 방향과 크기가 모두 바뀐다. 그런데 특별한 방향이 있어, 그 방향의 벡터는 방향이 바뀌지 않고 크기만 스케일링된다 — 이것이 고유벡터(eigenvector)이고, 스케일링 비율이 고유값(eigenvalue)이다. 고유값은 시스템의 고유한 특성을 담는다. 건물의 고유진동수, ODE 시스템의 안정성 지표, 주성분 분석(PCA)에서 데이터의 주요 변동 방향이 모두 고유값 문제로 귀결된다.
Definition 7.15 (Eigenvalue and eigenvector)
\(A\)를 \(n \times n\) 행렬이라 하자. 영이 아닌 벡터 \(\mathbf{x}\)가 \(A\)의 eigenvector(고유벡터)이고
eigenvalue(고유값)가 \(\lambda\)라 함은 다음을 만족함을 뜻한다:
$$A\mathbf{x} = \lambda \mathbf{x}.$$
동치로, \(\mathbf{x} \in N(A - \lambda I)\)이고 \(\mathbf{x} \neq \mathbf{0}\)이다.
특성 다항식(Characteristic polynomial)
Theorem 7.13 (Characteristic equation)
\(\lambda\)가 \(A\)의 고유값인 것과
$$\det(A - \lambda I) = 0$$
인 것은 동치이다.
이것은 \(\lambda\)에 대한 \(n\)차 다항식 (특성 다항식)이므로,
\(A\)는 중복도를 포함하여 정확히 \(n\)개의 고유값을 가진다 (\(\mathbb{C}\)에서).
Theorem 7.14 (Trace and determinant)
고유값이 \(\lambda_1, \ldots, \lambda_n\)인 \(n \times n\) 행렬 \(A\)에 대해:
$$\lambda_1 + \lambda_2 + \cdots + \lambda_n = \operatorname{tr}(A) = a_{11} + a_{22} + \cdots + a_{nn},$$
$$\lambda_1 \lambda_2 \cdots \lambda_n = \det A.$$
Example 7.5
\(A = \begin{pmatrix} 3 & 1 \\ 1 & 3 \end{pmatrix}\)로 놓자.
$$\det(A - \lambda I) = (3-\lambda)^2 - 1 = \lambda^2 - 6\lambda + 8 = (\lambda - 4)(\lambda - 2).$$
고유값: \(\lambda_1 = 4\), \(\lambda_2 = 2\).
고유벡터: \(\mathbf{x}_1 = \begin{pmatrix}1\\1\end{pmatrix}\),
\(\mathbf{x}_2 = \begin{pmatrix}1\\-1\end{pmatrix}\).
확인: \(\operatorname{tr}(A) = 6 = 4 + 2\), \(\det A = 8 = 4 \cdot 2\).
대각화(Diagonalization)
대각화는 행렬을 고유벡터 기저에서 바라보는 것이다. 대각화된 행렬의 거듭제곱은 \(A^k = S\Lambda^k S^{-1}\)으로 즉시 계산되므로, 이산 동역학계(\(\mathbf{x}_{k+1} = A\mathbf{x}_k\))의 장기 거동을 고유값의 크기만으로 예측할 수 있다. 같은 원리로 Google PageRank 알고리즘, 마르코프 체인(Markov chain)의 정상 분포 계산, 구조물의 진동 모드 분석을 다룬다.
Theorem 7.15 (Diagonalization)
\(A\)가 \(n\)개의 일차독립인 고유벡터 \(\mathbf{x}_1, \ldots, \mathbf{x}_n\)를 가지면,
행렬 \(S = \begin{pmatrix} \mathbf{x}_1 & \cdots & \mathbf{x}_n \end{pmatrix}\)를 구성하자. 그러면
$$S^{-1}AS = \Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_n),$$
또는 동치로 \(A = S\Lambda S^{-1}\)이다.
서로 다른 \(n\)개의 고유값을 갖는 행렬은 항상 대각화 가능하다.
중복 고유값을 갖는 행렬은 독립인 고유벡터의 완전한 집합이 존재하느냐에 따라
대각화 가능할 수도, 불가능할 수도 있다.
Theorem 7.16 (Powers of \(A\))
\(A = S\Lambda S^{-1}\)이면, \(A^k = S\Lambda^k S^{-1}\)이다.
\(A^k \to 0\) (\(k \to \infty\))인 것은 모든 \(|\lambda_i| < 1\)인 것과 동치이다.
대칭 행렬(Symmetric matrices)
대칭 행렬(\(A = A^T\))은 물리학과 공학에서 가장 자주 등장하는 행렬 유형이다. 관성 텐서, 응력 텐서, 공분산 행렬(covariance matrix), 유한요소법의 강성 행렬(stiffness matrix)이 모두 대칭이다. 스펙트럼 정리(spectral theorem)에 따르면 대칭 행렬은 항상 실수 고유값과 정규직교 고유벡터를 가진다. 대각화가 보장되고 물리적 해석이 명료해진다.
Theorem 7.17 (Spectral theorem for symmetric matrices)
\(A = A^T\) (실대칭행렬)이면:
- \(A\)의 모든 고유값은 실수이다.
- \(A\)는 정규직교 고유벡터의 완전한 집합을 갖는다.
- \(A\)는 다음과 같이 분해된다:
$$A = Q\Lambda Q^T,$$
여기서 \(Q\)는 직교행렬 (\(Q^T Q = I\))이고 \(\Lambda\)는 대각행렬이다.
이를 다음과 같이 쓸 수도 있다:
\(A = \lambda_1 \mathbf{q}_1 \mathbf{q}_1^T + \lambda_2 \mathbf{q}_2 \mathbf{q}_2^T + \cdots + \lambda_n \mathbf{q}_n \mathbf{q}_n^T\),
고유값으로 스케일링된 계수-1 사영행렬의 합이다.
Proof (고유값이 실수임의 증명)
\(A\mathbf{x} = \lambda \mathbf{x}\)라 하자. 켤레를 취하면: \(A\bar{\mathbf{x}} = \bar{\lambda}\bar{\mathbf{x}}\)
(\(A\)의 성분이 실수이므로). 켤레 등식을 전치하면:
\(\bar{\mathbf{x}}^T A^T = \bar{\mathbf{x}}^T \bar{\lambda}\).
\(A = A^T\)이므로 오른쪽에 \(\mathbf{x}\)를 곱하면:
\(\bar{\mathbf{x}}^T A \mathbf{x} = \bar{\lambda}\, \bar{\mathbf{x}}^T \mathbf{x}\).
한편 \(\bar{\mathbf{x}}^T A \mathbf{x} = \bar{\mathbf{x}}^T \lambda \mathbf{x} = \lambda\, \bar{\mathbf{x}}^T \mathbf{x}\).
\(\bar{\mathbf{x}}^T \mathbf{x} = |\mathbf{x}|^2 > 0\)이므로 \(\lambda = \bar{\lambda}\)를 얻고, 따라서 \(\lambda\)는 실수이다.
Example 7.6
비대칭 행렬에서는 복소 고유값이 나타난다.
회전 행렬 \(Q = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}\)는
\(\det(Q - \lambda I) = \lambda^2 + 1 = 0\)이므로, 고유값은 \(\lambda = \pm i\)이다.
실행렬의 복소 고유값은 항상 켤레 쌍으로 나타난다.
[Source: MIT 18.06SC, Sessions 2.8–2.10, 3.1, 3.4]
7.5 SVD and Applications
SVD(Singular Value Decomposition, 특이값 분해)는 선형대수에서 가장 범용적인 행렬 분해이다. 고유값 분해가 정방행렬에만 적용되는 데 반해, SVD는 임의의 직사각행렬에 적용된다. 이미지 압축에서 저랭크 근사(low-rank approximation)로 데이터를 효율적으로 저장하고, 추천 시스템에서 사용자-아이템 행렬의 잠재 요인(latent factor)을 추출하며, GPS 위치결정이나 센서 융합에서 과결정 시스템의 최소제곱해를 구하는 데 SVD가 사용된다. 양정치 행렬, 최소제곱법, 직교화의 개념이 SVD에서 한곳으로 모인다.
양정치(Positive Definite) 행렬
Definition 7.16 (Positive definite matrix)
대칭 행렬 \(A\)가 양정치(positive definite)라 함은 모든 고유값이 양수인 것,
또는 동치로, 영이 아닌 모든 벡터 \(\mathbf{x}\)에 대해 \(\mathbf{x}^T A \mathbf{x} > 0\)인 것을 말한다.
Theorem 7.18 (Tests for positive definiteness)
대칭 행렬 \(A\)에 대해 다음은 동치이다:
- \(A\)의 모든 고유값이 양수이다.
- (행 교환 없이) 소거로 얻은 모든 피벗이 양수이다.
- 모든 좌상 \(k \times k\) 소행렬식이 양수이다, \(1 \le k \le n\).
- 모든 \(\mathbf{x} \neq \mathbf{0}\)에 대해 \(\mathbf{x}^T A \mathbf{x} > 0\)이다.
Theorem 7.19 (\(A^T A\) is positive semidefinite)
임의의 \(m \times n\) 행렬 \(A\)에 대해:
$$\mathbf{x}^T(A^T A)\mathbf{x} = (A\mathbf{x})^T(A\mathbf{x}) = \|A\mathbf{x}\|^2 \ge 0.$$
\(A\)의 열이 독립(계수 \(n\))이면 \(A^T A\)는 양정치이다.
최소제곱법(Least squares)
Definition 7.17 (Least squares solution)
\(A\mathbf{x} = \mathbf{b}\)에 해가 없을 때(과결정 연립방정식), 최소제곱해
\(\hat{\mathbf{x}}\)는 \(\|A\mathbf{x} - \mathbf{b}\|^2\)를 최소화한다. 이는 정규방정식(normal equations)을 풀어 구한다:
$$A^T A \hat{\mathbf{x}} = A^T \mathbf{b}.$$
\(\mathbf{b}\)를 \(A\)의 열공간에 사영하면
\(\mathbf{p} = A\hat{\mathbf{x}} = A(A^T A)^{-1} A^T \mathbf{b}\)이고,
사영행렬은 \(P = A(A^T A)^{-1} A^T\)이다.
사영행렬은 \(P^T = P\)이고 \(P^2 = P\)를 만족한다.
Example 7.7
점 \((1,1), (2,2), (3,2)\)를 지나는 최적 적합 직선 \(b = C + Dt\)를 구하라.
이는 과결정 연립방정식
\(\begin{pmatrix}1&1\\1&2\\1&3\end{pmatrix}\begin{pmatrix}C\\D\end{pmatrix}
= \begin{pmatrix}1\\2\\2\end{pmatrix}\)
을 푸는 문제이다.
정규방정식:
\(\begin{pmatrix}3&6\\6&14\end{pmatrix}\begin{pmatrix}\hat{C}\\\hat{D}\end{pmatrix}
= \begin{pmatrix}5\\11\end{pmatrix}\).
해: \(\hat{D} = 1/2\), \(\hat{C} = 2/3\). 최적 적합 직선은 \(b = \tfrac{2}{3} + \tfrac{1}{2}t\)이다.
SVD
Definition 7.18 (SVD)
임의의 \(m \times n\) 행렬 \(A\) (계수 \(r\))의
SVD(특이값 분해)는 다음과 같다:
$$A = U \Sigma V^T,$$
여기서:
- \(U\)는 \(m \times m\) 직교행렬 (열이 좌 특이벡터),
- \(V\)는 \(n \times n\) 직교행렬 (열이 우 특이벡터),
- \(\Sigma\)는 \(m \times n\)이며 음이 아닌 대각 성분 \(\sigma_1 \ge \sigma_2 \ge \cdots \ge \sigma_r > 0\)
(특이값)을 갖고 나머지는 0이다.
Theorem 7.20 (Existence of the SVD)
모든 실 \(m \times n\) 행렬 \(A\)는 SVD \(A = U\Sigma V^T\)를 갖는다.
특이값 \(\sigma_i\)는 \(A^T A\) (또는 동치로 \(AA^T\))의 고유값의 양의 제곱근이다.
\(V\)의 열은 \(A^T A\)의 고유벡터이고,
\(U\)의 열은 \(AA^T\)의 고유벡터이다.
Theorem 7.21 (SVD and the four fundamental subspaces)
SVD \(A = U\Sigma V^T\)에서:
- \(\mathbf{v}_1, \ldots, \mathbf{v}_r\)은 행공간 \(C(A^T)\)의 정규직교 기저를 이룬다.
- \(\mathbf{u}_1, \ldots, \mathbf{u}_r\)은 열공간 \(C(A)\)의 정규직교 기저를 이룬다.
- \(\mathbf{v}_{r+1}, \ldots, \mathbf{v}_n\)은 영공간 \(N(A)\)의 정규직교 기저를 이룬다.
- \(\mathbf{u}_{r+1}, \ldots, \mathbf{u}_m\)은 좌영공간 \(N(A^T)\)의 정규직교 기저를 이룬다.
핵심 관계식은 \(A\mathbf{v}_i = \sigma_i \mathbf{u}_i\) (\(i = 1, \ldots, r\))이다.
SVD 계산
절차:
- \(A^T A\)를 계산하고, 고유값 \(\sigma_1^2 \ge \sigma_2^2 \ge \cdots \ge 0\)과
정규직교 고유벡터 \(\mathbf{v}_i\)를 구한다. 이들이 \(V\)를 이룬다.
- \(\sigma_i = \sqrt{\lambda_i}\)로 놓는다.
- \(i = 1, \ldots, r\)에 대해 \(\mathbf{u}_i = \frac{1}{\sigma_i} A \mathbf{v}_i\)를 구하고,
\(\mathbb{R}^m\)의 완전한 정규직교 기저로 확장한다. 이들이 \(U\)를 이룬다.
Example 7.8
\(A = \begin{pmatrix} 4 & 4 \\ -3 & 3 \end{pmatrix}\)로 놓자.
\(A^T A = \begin{pmatrix} 25 & 7 \\ 7 & 25 \end{pmatrix}\)이고, 고유값은 32, 18이다.
따라서 \(\sigma_1 = 4\sqrt{2}\), \(\sigma_2 = 3\sqrt{2}\).
\(A^T A\)의 고유벡터:
\(\mathbf{v}_1 = \frac{1}{\sqrt{2}}\begin{pmatrix}1\\1\end{pmatrix}\),
\(\mathbf{v}_2 = \frac{1}{\sqrt{2}}\begin{pmatrix}1\\-1\end{pmatrix}\).
\(AA^T = \begin{pmatrix}32 & 0 \\ 0 & 18\end{pmatrix}\)이므로,
\(\mathbf{u}_1 = \begin{pmatrix}1\\0\end{pmatrix}\),
\(\mathbf{u}_2 = \begin{pmatrix}0\\-1\end{pmatrix}\)
(\(A\mathbf{v}_2 = \sigma_2 \mathbf{u}_2\)를 만족하도록 부호를 선택).
$$
A = \begin{pmatrix}1&0\\0&-1\end{pmatrix}
\begin{pmatrix}4\sqrt{2}&0\\0&3\sqrt{2}\end{pmatrix}
\begin{pmatrix}1/\sqrt{2}&1/\sqrt{2}\\1/\sqrt{2}&-1/\sqrt{2}\end{pmatrix}.
$$
유사역행렬(Pseudoinverse)
Definition 7.19 (Moore–Penrose pseudoinverse)
\(A = U\Sigma V^T\)이고 계수가 \(r\)일 때, 유사역행렬(pseudoinverse)은 다음과 같다:
$$A^+ = V \Sigma^+ U^T,$$
여기서 \(\Sigma^+\)는 \(\Sigma\)의 각 영이 아닌 특이값의 역수를 취하고 전치하여 얻는다:
\((\Sigma^+)_{ii} = 1/\sigma_i\) (\(i \le r\)), 나머지는 0이다.
\(A\)의 열이 독립이면, \(A^+ = (A^T A)^{-1} A^T\)이고 최소제곱해는
\(\hat{\mathbf{x}} = A^+ \mathbf{b}\)이다.
유사역행렬은 이를 계수 부족 및 비정방 행렬로 일반화한다:
\(\|A\mathbf{x} - \mathbf{b}\|\)를 최소화하는 모든 벡터 \(\mathbf{x}\) 중에서,
\(\mathbf{x} = A^+ \mathbf{b}\)는 노름이 가장 작은 것이다.
직교행렬과 Gram–Schmidt
Definition 7.20 (Orthogonal matrix)
정방행렬 \(Q\)의 열이 정규직교이면 직교행렬이라 한다:
\(Q^T Q = I\), 따라서 \(Q^{-1} = Q^T\).
Theorem 7.22 (Gram–Schmidt and QR factorization)
일차독립인 벡터 \(\mathbf{a}_1, \ldots, \mathbf{a}_n\)가 주어지면, Gram–Schmidt
과정은 같은 공간을 생성하는 정규직교 벡터 \(\mathbf{q}_1, \ldots, \mathbf{q}_n\)을 생산한다.
행렬 형태로 쓰면 QR 분해를 얻는다:
$$A = QR,$$
여기서 \(Q\)는 정규직교 열을 갖고, \(R\)은 양의 대각 성분을 갖는 상삼각행렬이다.
Gram–Schmidt 절차: \(\mathbf{A}_1 = \mathbf{a}_1\)로 놓는다. 이후 각 벡터에 대해,
이전에 구한 모든 방향에 대한 사영을 빼준다:
$$\mathbf{A}_k = \mathbf{a}_k - \sum_{j=1}^{k-1} \frac{\mathbf{A}_j^T \mathbf{a}_k}{\mathbf{A}_j^T \mathbf{A}_j}\, \mathbf{A}_j.$$
그런 다음 정규화한다: \(\mathbf{q}_k = \mathbf{A}_k / \|\mathbf{A}_k\|\).
[Source: MIT 18.06SC, Sessions 2.2–2.5, 3.4–3.5]
7.6 행렬 분해 확장
행렬 분해(matrix decomposition)는 복잡한 행렬을 구조가 단순한 행렬들의 곱으로 표현하여, 연립방정식 풀이, 고유값 계산, 수치적 안정성을 확보하는 기법이다. LU 분해는 Gauss 소거법을 행렬 언어로 기록한 것이고, Cholesky 분해는 대칭 양정치 행렬에 대한 효율적인 변형이며, Schur 분해는 고유값 분해의 일반화이다. 이들은 수치 선형대수(numerical linear algebra)의 기초이며, MATLAB이나 NumPy의 `solve`, `eig`, `svd` 함수 내부에서 실제로 수행되는 연산이다.
LU 분해 상세 과정
LU 분해의 요점은 가우스 소거법의 각 단계를 하삼각 행렬 \(L\)에 기록하는 것이다.
소거 과정에서 \(i\)행을 제거하기 위해 \(j\)행에서 뺀 배수 \(\ell_{ji}\)가 \(L\)의 \((j,i)\) 성분이 된다.
\(L\)의 대각 성분은 모두 1이다.
Example 7.9 (LU 분해 상세)
\(A = \begin{pmatrix} 2 & 1 & 1 \\ 4 & 3 & 3 \\ 8 & 7 & 9 \end{pmatrix}\)를 LU 분해하라.
1단계: 피벗 \(a_{11} = 2\). 승수: \(\ell_{21} = 4/2 = 2\), \(\ell_{31} = 8/2 = 4\).
$$
\begin{pmatrix} 2 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 3 & 5 \end{pmatrix}.
$$
2단계: 피벗 \(a_{22}' = 1\). 승수: \(\ell_{32} = 3/1 = 3\).
$$
U = \begin{pmatrix} 2 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 2 \end{pmatrix}.
$$
따라서
$$
L = \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0 \\ 4 & 3 & 1 \end{pmatrix}, \quad
U = \begin{pmatrix} 2 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 2 \end{pmatrix}.
$$
검산: \(LU\)의 \((3,3)\) 성분 = \(4 \cdot 1 + 3 \cdot 1 + 1 \cdot 2 = 9 = a_{33}\). \(\checkmark\)
Example 7.10 (PA = LU)
\(A = \begin{pmatrix} 0 & 2 \\ 3 & 4 \end{pmatrix}\)는 \(a_{11} = 0\)이므로 행 교환이 필요하다.
치환행렬 \(P = \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}\)를 적용하면
\(PA = \begin{pmatrix} 3 & 4 \\ 0 & 2 \end{pmatrix}\)이다.
이 경우 \(L = I\), \(U = PA\)이므로 \(PA = LU\)가 성립한다.
LDU 분해
\(A = LU\)에서 \(U\)의 대각 성분(피벗)을 분리하면 \(A = LDU'\)로 쓸 수 있다.
여기서 \(D = \operatorname{diag}(d_1, \ldots, d_n)\)이고,
\(U' = D^{-1}U\)는 대각 성분이 1인 상삼각행렬이다.
대칭 행렬 \(A = A^T\)이면 \(U' = L^T\)이므로 \(A = LDL^T\)가 된다.
Cholesky 분해
Theorem 7.23 (Cholesky decomposition)
대칭 양정치 행렬 \(A\)는 유일하게
$$A = R^T R$$
로 분해된다. 여기서 \(R\)은 양의 대각 성분을 갖는 상삼각행렬이다.
이는 \(A = LDL^T\)에서 \(R = \sqrt{D}\, L^T\) (\(\sqrt{D} = \operatorname{diag}(\sqrt{d_1}, \ldots, \sqrt{d_n})\))로 얻어진다.
Example 7.11 (Cholesky 분해)
\(A = \begin{pmatrix} 4 & 2 \\ 2 & 5 \end{pmatrix}\)를 Cholesky 분해하라.
\(A\)는 대칭이고, 고유값이 \(\frac{9 + \sqrt{17}}{2} \approx 6.56\), \(\frac{9 - \sqrt{17}}{2} \approx 2.44\)이므로 양정치이다.
LDL\(^T\) 분해: \(L = \begin{pmatrix}1&0\\1/2&1\end{pmatrix}\),
\(D = \begin{pmatrix}4&0\\0&4\end{pmatrix}\).
\(R = \sqrt{D}\,L^T = \begin{pmatrix}2&0\\0&2\end{pmatrix}\begin{pmatrix}1&1/2\\0&1\end{pmatrix}
= \begin{pmatrix}2&1\\0&2\end{pmatrix}\).
검산: \(R^T R = \begin{pmatrix}2&0\\1&2\end{pmatrix}\begin{pmatrix}2&1\\0&2\end{pmatrix}
= \begin{pmatrix}4&2\\2&5\end{pmatrix} = A\). \(\checkmark\)
Schur 분해
Theorem 7.24 (Schur decomposition)
임의의 정방행렬 \(A \in \mathbb{C}^{n \times n}\)에 대해,
$$A = UTU^*$$
를 만족하는 유니터리(unitary) 행렬 \(U\)와 상삼각행렬 \(T\)가 존재한다.
\(T\)의 대각 성분은 \(A\)의 고유값이다.
\(A\)가 실수 행렬이면 고유값이 모두 실수일 때에만 직교행렬 \(Q\)에 대해 \(A = QTQ^T\)로 쓸 수 있다.
\(A\)가 정규행렬(normal, \(A^*A = AA^*\))이면 \(T\)는 대각행렬이 되며, 대칭(Hermitian) 행렬의 경우 스펙트럼 정리와 일치한다.
Schur 분해의 존재성은 귀납법으로 증명된다:
\(A\)의 고유값 \(\lambda_1\)과 대응하는 단위 고유벡터 \(\mathbf{u}_1\)을 취하고,
\(\mathbf{u}_1\)을 포함하는 정규직교 기저를 구성한다.
이 기저에 대한 \(A\)의 표현 행렬은 첫 열이 \((\lambda_1, 0, \ldots, 0)^T\)인 블록 상삼각 형태가 되고,
나머지 \((n-1) \times (n-1)\) 블록에 귀납법을 적용한다.
[Source: MIT 18.06SC, Sessions 1.4–1.5, 3.4]
7.7 사영(Projection)
사영(projection)은 "주어진 부분공간에서 가장 가까운 점을 찾는" 문제이다. 바로 이 기하학이 최소제곱법(least squares)으로 이어진다. GPS 위치결정에서 과결정 연립방정식의 최적해를 구하거나, 실험 데이터에 회귀 직선을 적합(fitting)하거나, 칼만 필터(Kalman filter)에서 측정 업데이트를 수행하는 것이 모두 사영의 응용이다. 오차 벡터가 부분공간에 직교해야 한다는 조건에서 정규방정식(normal equations)이 나온다.
직교 사영
벡터 \(\mathbf{b}\)를 부분공간 \(V\) 위로 직교 사영한다는 것은,
\(V\) 안에서 \(\mathbf{b}\)에 가장 가까운 벡터 \(\mathbf{p}\)를 찾는 것이다.
이때 오차 벡터 \(\mathbf{e} = \mathbf{b} - \mathbf{p}\)는 \(V\)에 직교한다.
직선 위로의 사영
\(V = \operatorname{span}(\mathbf{a})\), 즉 1차원 부분공간(직선) 위로 \(\mathbf{b}\)를 사영하면:
$$
\mathbf{p} = \frac{\mathbf{a}^T \mathbf{b}}{\mathbf{a}^T \mathbf{a}}\,\mathbf{a}, \qquad
P = \frac{\mathbf{a}\mathbf{a}^T}{\mathbf{a}^T \mathbf{a}}.
$$
사영행렬 \(P\)는 계수 1이고, \(P = P^T\), \(P^2 = P\)를 만족한다.
Example 7.12 (직선 위 사영)
\(\mathbf{a} = \begin{pmatrix}1\\1\\1\end{pmatrix}\),
\(\mathbf{b} = \begin{pmatrix}1\\2\\2\end{pmatrix}\)로 놓자.
\(\mathbf{a}^T\mathbf{b} = 1 + 2 + 2 = 5\),
\(\mathbf{a}^T\mathbf{a} = 3\).
$$\mathbf{p} = \frac{5}{3}\begin{pmatrix}1\\1\\1\end{pmatrix}
= \begin{pmatrix}5/3\\5/3\\5/3\end{pmatrix}.$$
오차: \(\mathbf{e} = \mathbf{b} - \mathbf{p} = \begin{pmatrix}-2/3\\1/3\\1/3\end{pmatrix}\).
확인: \(\mathbf{a}^T\mathbf{e} = -2/3 + 1/3 + 1/3 = 0\). \(\checkmark\)
부분공간 위로의 사영
\(A\)의 열이 부분공간 \(V\)의 기저를 이룰 때, \(\mathbf{b}\)를 \(V\) 위로 사영하면:
Theorem 7.25 (Projection onto column space)
\(A\)의 열이 일차독립이면,
$$
\mathbf{p} = A(A^T A)^{-1} A^T \mathbf{b}, \qquad P = A(A^T A)^{-1} A^T.
$$
사영행렬 \(P\)는 다음을 만족한다:
- \(P^T = P\) (대칭)
- \(P^2 = P\) (멱등)
- \(C(P) = C(A)\)
- \(N(P) = N(A^T)\)
최소제곱법의 기하학적 해석
과결정 연립방정식 \(A\mathbf{x} = \mathbf{b}\)에서 해가 존재하지 않을 때,
\(\mathbf{b}\)를 \(C(A)\) 위로 사영한 \(\mathbf{p} = A\hat{\mathbf{x}}\)를 구한다.
오차 \(\mathbf{e} = \mathbf{b} - A\hat{\mathbf{x}}\)는 \(C(A)\)에 직교하므로,
\(A^T(\mathbf{b} - A\hat{\mathbf{x}}) = \mathbf{0}\), 즉 \(A^T A \hat{\mathbf{x}} = A^T \mathbf{b}\)를 얻는다.
기하학적으로 말하면, 정규방정식은 "오차를 열공간에 수직으로 만들어라"는 조건의 직접적 표현이다.
Example 7.13 (2차원 부분공간 위 사영과 최소제곱)
\(A = \begin{pmatrix}1&0\\1&1\\1&2\end{pmatrix}\),
\(\mathbf{b} = \begin{pmatrix}6\\0\\0\end{pmatrix}\)로 놓자.
\(A^T A = \begin{pmatrix}3&3\\3&5\end{pmatrix}\),
\(A^T \mathbf{b} = \begin{pmatrix}6\\0\end{pmatrix}\).
정규방정식: \(\begin{pmatrix}3&3\\3&5\end{pmatrix}\hat{\mathbf{x}} = \begin{pmatrix}6\\0\end{pmatrix}\).
해: \(\hat{x}_2 = -3\), \(\hat{x}_1 = 5\).
사영: \(\mathbf{p} = A\hat{\mathbf{x}} = \begin{pmatrix}5\\2\\-1\end{pmatrix}\).
오차: \(\mathbf{e} = \begin{pmatrix}1\\-2\\1\end{pmatrix}\).
확인: \(A^T\mathbf{e} = \begin{pmatrix}1-2+1\\-2+2\end{pmatrix} = \begin{pmatrix}0\\0\end{pmatrix}\). \(\checkmark\)
Example 7.14 (이차 다항식 적합)
점 \((0,1), (1,1), (2,3)\)에 이차식 \(y = c_0 + c_1 t + c_2 t^2\)를 적합하라.
이 경우 데이터 수 = 미지수 수 = 3이므로, 연립방정식
$$
\begin{pmatrix}1&0&0\\1&1&1\\1&2&4\end{pmatrix}
\begin{pmatrix}c_0\\c_1\\c_2\end{pmatrix}
= \begin{pmatrix}1\\1\\3\end{pmatrix}
$$
은 정확한 해를 갖는다.
소거하면: \(c_0 = 1\), \(c_1 = -1\), \(c_2 = 1\).
따라서 \(y = 1 - t + t^2\).
만약 네 번째 점 \((3,2)\)가 추가되면 과결정이 되어, 최소제곱법으로 최적 이차 적합을 구해야 한다.
[Source: MIT 18.06SC, Sessions 2.2–2.5]
7.8 고유값 확장
7.4절에서 고유값의 기본 이론을 보았다. 여기서는 고유값 분해의 구체적 응용과, 대각화가 불가능한 경우의 처리(Jordan 표준형)를 다룬다. 행렬 거듭제곱 \(A^k\)는 이산 시간 동역학계, 재귀적 수열(피보나치 등), 마르코프 체인의 장기 거동 분석에 필수적이다. 행렬 지수함수 \(e^{At}\)는 연립 미분방정식(5.4절)의 해를 고유값으로 표현한다.
고유값 분해와 행렬 거듭제곱
\(A = S\Lambda S^{-1}\)이면, 행렬의 \(k\)제곱은
$$A^k = S\Lambda^k S^{-1} = S\,\operatorname{diag}(\lambda_1^k, \ldots, \lambda_n^k)\, S^{-1}$$
이다. 이는 \(\mathbf{u}_k = A^k \mathbf{u}_0\) 형태의 동역학계에서 해를 고유벡터 성분별로 분해하여
장기 거동을 분석하는 데 쓰인다.
Example 7.15 (피보나치 수열과 행렬 거듭제곱)
피보나치 수열 \(F_{k+2} = F_{k+1} + F_k\)를 행렬 형태로 쓰면
$$
\begin{pmatrix}F_{k+2}\\F_{k+1}\end{pmatrix}
= \begin{pmatrix}1&1\\1&0\end{pmatrix}
\begin{pmatrix}F_{k+1}\\F_k\end{pmatrix},
\quad A = \begin{pmatrix}1&1\\1&0\end{pmatrix}.
$$
특성 다항식: \(\lambda^2 - \lambda - 1 = 0\), 고유값: \(\lambda_1 = \frac{1+\sqrt{5}}{2}\) (황금비), \(\lambda_2 = \frac{1-\sqrt{5}}{2}\).
\(|\lambda_1| > |\lambda_2|\)이므로, \(k\)가 커질수록 \(F_k \approx c \cdot \lambda_1^k\)이다.
정확하게는 \(F_k = \frac{\lambda_1^k - \lambda_2^k}{\sqrt{5}}\)이다.
미분방정식에의 응용
상수 계수 선형 미분방정식 \(\frac{d\mathbf{u}}{dt} = A\mathbf{u}\)의 해는
$$\mathbf{u}(t) = e^{At}\,\mathbf{u}(0), \qquad e^{At} = S\,\operatorname{diag}(e^{\lambda_1 t}, \ldots, e^{\lambda_n t})\,S^{-1}$$
이다 (단, \(A = S\Lambda S^{-1}\)).
따라서 모든 \(\operatorname{Re}(\lambda_i) < 0\)이면 \(\mathbf{u}(t) \to \mathbf{0}\) (안정),
어떤 \(\operatorname{Re}(\lambda_i) > 0\)이면 \(\|\mathbf{u}(t)\| \to \infty\) (불안정)이다.
Example 7.16 (연립 미분방정식)
\(\frac{d\mathbf{u}}{dt} = \begin{pmatrix}-1&2\\0&-3\end{pmatrix}\mathbf{u}\),
\(\mathbf{u}(0) = \begin{pmatrix}1\\1\end{pmatrix}\)를 풀어라.
고유값: \(\lambda_1 = -1\), \(\lambda_2 = -3\).
고유벡터: \(\mathbf{x}_1 = \begin{pmatrix}1\\0\end{pmatrix}\),
\(\mathbf{x}_2 = \begin{pmatrix}1\\-1\end{pmatrix}\).
일반해: \(\mathbf{u}(t) = c_1 e^{-t}\begin{pmatrix}1\\0\end{pmatrix} + c_2 e^{-3t}\begin{pmatrix}1\\-1\end{pmatrix}\).
초기 조건: \(c_1 + c_2 = 1\), \(-c_2 = 1\), 즉 \(c_2 = -1\), \(c_1 = 2\).
$$\mathbf{u}(t) = 2e^{-t}\begin{pmatrix}1\\0\end{pmatrix} - e^{-3t}\begin{pmatrix}1\\-1\end{pmatrix}
= \begin{pmatrix}2e^{-t} - e^{-3t}\\e^{-3t}\end{pmatrix}.$$
두 고유값이 모두 음수이므로 \(\mathbf{u}(t) \to \mathbf{0}\). 안정계이다.
대각화 불가능한 행렬 (Defective matrix)
중복 고유값을 가지면서 독립인 고유벡터가 부족한 행렬을
defective하다고 한다. 이런 행렬은 대각화할 수 없다.
Example 7.17 (Defective matrix)
\(A = \begin{pmatrix}3&1\\0&3\end{pmatrix}\)의 고유값은 \(\lambda = 3\) (중복도 2)이다.
\(A - 3I = \begin{pmatrix}0&1\\0&0\end{pmatrix}\)이므로
\(N(A - 3I) = \operatorname{span}\left(\begin{pmatrix}1\\0\end{pmatrix}\right)\).
고유벡터가 하나뿐이므로 \(A\)는 대각화 불가능하다.
Jordan 표준형
Theorem 7.26 (Jordan normal form)
임의의 정방행렬 \(A\)에 대해, 가역행렬 \(M\)이 존재하여
$$M^{-1}AM = J = \operatorname{diag}(J_1, J_2, \ldots, J_s)$$
가 성립한다. 각 Jordan 블록 \(J_k\)는
$$
J_k = \begin{pmatrix}
\lambda_k & 1 & & \\
& \lambda_k & \ddots & \\
& & \ddots & 1 \\
& & & \lambda_k
\end{pmatrix}
$$
형태의 \(n_k \times n_k\) 행렬이다.
\(A\)가 대각화 가능하면 모든 Jordan 블록의 크기가 1이 되어 \(J = \Lambda\)가 된다.
Jordan 표준형은 대각화의 일반화이다.
defective 행렬의 경우 고유벡터가 부족하므로,
일반화 고유벡터(generalized eigenvector)를 도입한다:
\((A - \lambda I)^p \mathbf{v} = \mathbf{0}\)을 만족하되 \((A - \lambda I)^{p-1}\mathbf{v} \neq \mathbf{0}\)인 벡터가 그것이다.
Example 7.18 (Jordan 표준형)
Example 7.17의 \(A = \begin{pmatrix}3&1\\0&3\end{pmatrix}\)는 이미 Jordan 표준형이다:
고유값 \(\lambda = 3\)에 대한 크기 2의 Jordan 블록 하나로 이루어져 있다.
\(A^k\)를 구하면:
$$A^k = \begin{pmatrix}3^k & k\cdot 3^{k-1}\\0&3^k\end{pmatrix}.$$
대각행렬이 아니므로 off-diagonal 항 \(k \cdot 3^{k-1}\)이 나타난다.
이는 defective 경우의 전형적 특징이다.
[Source: MIT 18.06SC, Sessions 2.8–2.10, 3.1–3.4]
7.9 SVD 확장
7.5절에서 SVD의 정의와 계산법을 보았다. 여기서는 SVD의 기하학적 의미와 실용적 응용(저랭크 근사로 데이터를 압축하고, 주성분 분석(PCA)으로 차원을 줄이는 것)을 다룬다. SVD가 "임의의 선형 변환을 회전-스케일링-회전으로 분해한다"는 해석이 행렬의 구조를 가장 명료하게 보여준다.
SVD의 기하학적 의미
\(A = U\Sigma V^T\)는 선형 변환 \(A\)를 세 단계로 분해한다:
- \(V^T\): 입력 공간에서의 회전(또는 반사). 정규직교 기저 \(\{\mathbf{v}_i\}\)를 표준 기저로 보낸다.
- \(\Sigma\): 각 축 방향의 스케일링. \(i\)번째 축을 \(\sigma_i\)배 늘린다.
- \(U\): 출력 공간에서의 회전(또는 반사). 표준 기저를 \(\{\mathbf{u}_i\}\)로 보낸다.
임의의 행렬이 만드는 선형 변환은 "회전 - 스케일링 - 회전"의 합성이다.
\(\mathbb{R}^n\)의 단위구(unit sphere)는 \(A\)가 작용하면 \(\mathbb{R}^m\)에서 축의 길이가 \(\sigma_1, \ldots, \sigma_r\)인 타원체(ellipsoid)로 바뀐다.
저랭크 근사와 이미지 압축
Theorem 7.27 (Eckart–Young theorem)
계수 \(r\)인 행렬 \(A\)의 SVD에서, \(k < r\)에 대해
$$A_k = \sum_{i=1}^{k} \sigma_i\, \mathbf{u}_i \mathbf{v}_i^T$$
는 계수 \(k\)인 행렬 중 \(\|A - A_k\|\) (연산자 노름 또는 Frobenius 노름)를 최소화한다.
연산자 노름의 경우 \(\|A - A_k\|_2 = \sigma_{k+1}\)이고,
Frobenius 노름의 경우 \(\|A - A_k\|_F = \sqrt{\sigma_{k+1}^2 + \cdots + \sigma_r^2}\)이다.
이미지 압축에의 응용: \(m \times n\) 그레이스케일 이미지를 행렬 \(A\)로 간주하고 SVD를 적용한다.
원래 저장에 \(mn\)개의 수가 필요하지만, rank-\(k\) 근사 \(A_k\)는
\(k(m + n + 1)\)개의 수(\(\mathbf{u}_i\), \(\mathbf{v}_i\), \(\sigma_i\))만으로 표현된다.
특이값이 급격히 감소하면 작은 \(k\)로도 원본에 가까운 근사가 가능하다.
차원 축소
데이터 행렬 \(A\)의 각 행이 하나의 데이터 포인트일 때,
SVD를 통해 가장 큰 특이값에 대응하는 \(k\)개의 우 특이벡터 \(\mathbf{v}_1, \ldots, \mathbf{v}_k\)를 선택하면,
원래의 \(n\)차원 데이터를 \(k\)차원으로 사영할 수 있다.
이것이 주성분 분석(PCA)이다.
투영된 좌표는 \(AV_k\)이고, 정보 손실은 \(\sigma_{k+1}^2 + \cdots + \sigma_r^2\)에 비례한다.
유사역행렬 활용 예제
Example 7.19 (Pseudoinverse를 이용한 최소 노름 해)
\(A = \begin{pmatrix}1&2\\2&4\end{pmatrix}\), \(\mathbf{b} = \begin{pmatrix}3\\6\end{pmatrix}\)를 풀어라.
\(A\)는 계수 1이므로 해가 무한히 많다: \(x_1 + 2x_2 = 3\).
SVD를 구하면: \(A^T A = \begin{pmatrix}5&10\\10&20\end{pmatrix}\).
고유값: 25, 0.
\(\sigma_1 = 5\),
\(\mathbf{v}_1 = \frac{1}{\sqrt{5}}\begin{pmatrix}1\\2\end{pmatrix}\),
\(\mathbf{v}_2 = \frac{1}{\sqrt{5}}\begin{pmatrix}-2\\1\end{pmatrix}\).
\(AA^T = \begin{pmatrix}5&10\\10&20\end{pmatrix}\).
\(\mathbf{u}_1 = \frac{1}{\sqrt{5}}\begin{pmatrix}1\\2\end{pmatrix}\),
\(\mathbf{u}_2 = \frac{1}{\sqrt{5}}\begin{pmatrix}-2\\1\end{pmatrix}\).
\(\Sigma^+ = \begin{pmatrix}1/5&0\\0&0\end{pmatrix}\).
$$A^+ = V\Sigma^+ U^T
= \frac{1}{25}\begin{pmatrix}1&2\\2&4\end{pmatrix}.$$
최소 노름 해: \(\hat{\mathbf{x}} = A^+\mathbf{b} = \frac{1}{25}\begin{pmatrix}1&2\\2&4\end{pmatrix}\begin{pmatrix}3\\6\end{pmatrix}
= \frac{1}{25}\begin{pmatrix}15\\30\end{pmatrix}
= \begin{pmatrix}3/5\\6/5\end{pmatrix}\).
확인: \(A\hat{\mathbf{x}} = \begin{pmatrix}3/5 + 12/5\\6/5+24/5\end{pmatrix} = \begin{pmatrix}3\\6\end{pmatrix} = \mathbf{b}\). \(\checkmark\)
이 해의 노름 \(\|\hat{\mathbf{x}}\| = \frac{3}{\sqrt{5}}\)는 \(x_1 + 2x_2 = 3\)을 만족하는 모든 벡터 중 가장 작다.
Example 7.20 (비호환 연립방정식의 Pseudoinverse)
\(A = \begin{pmatrix}1\\1\\1\end{pmatrix}\), \(\mathbf{b} = \begin{pmatrix}2\\4\\6\end{pmatrix}\)이면
(이 경우 \(A\)는 \(3 \times 1\), 계수 1),
\(A^+ = (A^T A)^{-1}A^T = \frac{1}{3}\begin{pmatrix}1&1&1\end{pmatrix}\).
\(\hat{x} = A^+\mathbf{b} = \frac{1}{3}(2+4+6) = 4\).
이는 \(x = 4\)가 \(\|A x - \mathbf{b}\|^2 = (x-2)^2 + (x-4)^2 + (x-6)^2\)를 최소화함을 뜻한다
(평균값).
[Source: MIT 18.06SC, Sessions 3.4–3.5]
7.10 내적 공간과 QR 분해
내적(inner product)은 벡터의 길이와 각도를 정의하는 대수적 도구이다. 직교성(orthogonality)은 내적이 0임을 뜻하며, 직교 기저는 수치 계산의 안정성과 효율성을 동시에 보장한다. Gram-Schmidt 과정은 임의의 기저를 정규직교 기저로 변환하는 알고리즘이며, 그 결과인 QR 분해는 최소제곱 문제의 수치적으로 안정한 풀이법과 QR 알고리즘(고유값 계산의 표준 방법)의 기초가 된다.
내적(Inner product)
Definition 7.21 (Inner product)
실 벡터 공간 \(V\) 위의
내적이란 함수 \(\langle \cdot, \cdot \rangle : V \times V \to \mathbb{R}\)로서,
- 대칭: \(\langle \mathbf{u}, \mathbf{v} \rangle = \langle \mathbf{v}, \mathbf{u} \rangle\).
- 선형: \(\langle a\mathbf{u} + b\mathbf{w}, \mathbf{v} \rangle = a\langle \mathbf{u}, \mathbf{v} \rangle + b\langle \mathbf{w}, \mathbf{v} \rangle\).
- 양정치: \(\langle \mathbf{v}, \mathbf{v} \rangle > 0\) (\(\mathbf{v} \neq \mathbf{0}\)).
\(\mathbb{R}^n\)에서 표준 내적은 \(\langle \mathbf{u}, \mathbf{v} \rangle = \mathbf{u}^T \mathbf{v}\)이다.
내적으로부터 노름 \(\|\mathbf{v}\| = \sqrt{\langle \mathbf{v}, \mathbf{v} \rangle}\)과
각도 \(\cos\theta = \frac{\langle \mathbf{u}, \mathbf{v} \rangle}{\|\mathbf{u}\|\,\|\mathbf{v}\|}\)가 정의된다.
Gram–Schmidt 과정 상세 예제
Example 7.21 (Gram–Schmidt, 3차원)
\(\mathbf{a}_1 = \begin{pmatrix}1\\1\\1\end{pmatrix}\),
\(\mathbf{a}_2 = \begin{pmatrix}1\\0\\2\end{pmatrix}\),
\(\mathbf{a}_3 = \begin{pmatrix}2\\1\\0\end{pmatrix}\)에 Gram–Schmidt를 적용하라.
1단계:
\(\mathbf{A}_1 = \mathbf{a}_1 = \begin{pmatrix}1\\1\\1\end{pmatrix}\),
\(\mathbf{q}_1 = \frac{\mathbf{A}_1}{\|\mathbf{A}_1\|} = \frac{1}{\sqrt{3}}\begin{pmatrix}1\\1\\1\end{pmatrix}\).
2단계:
\(\mathbf{a}_2\)에서 \(\mathbf{q}_1\) 방향 성분을 뺀다.
\(\mathbf{q}_1^T\mathbf{a}_2 = \frac{1}{\sqrt{3}}(1+0+2) = \frac{3}{\sqrt{3}} = \sqrt{3}\).
$$\mathbf{A}_2 = \mathbf{a}_2 - (\mathbf{q}_1^T\mathbf{a}_2)\,\mathbf{q}_1
= \begin{pmatrix}1\\0\\2\end{pmatrix} - \sqrt{3}\cdot\frac{1}{\sqrt{3}}\begin{pmatrix}1\\1\\1\end{pmatrix}
= \begin{pmatrix}0\\-1\\1\end{pmatrix}.$$
\(\mathbf{q}_2 = \frac{1}{\sqrt{2}}\begin{pmatrix}0\\-1\\1\end{pmatrix}\).
3단계:
\(\mathbf{q}_1^T\mathbf{a}_3 = \frac{1}{\sqrt{3}}(2+1+0) = \sqrt{3}\),
\(\mathbf{q}_2^T\mathbf{a}_3 = \frac{1}{\sqrt{2}}(-1+0) = -\frac{1}{\sqrt{2}}\).
$$\mathbf{A}_3 = \mathbf{a}_3 - \sqrt{3}\,\mathbf{q}_1 - \left(-\tfrac{1}{\sqrt{2}}\right)\mathbf{q}_2
= \begin{pmatrix}2\\1\\0\end{pmatrix} - \begin{pmatrix}1\\1\\1\end{pmatrix} + \frac{1}{2}\begin{pmatrix}0\\-1\\1\end{pmatrix}
= \begin{pmatrix}1\\-1/2\\-1/2\end{pmatrix}.$$
\(\|\mathbf{A}_3\| = \sqrt{1 + 1/4 + 1/4} = \sqrt{3/2}\).
\(\mathbf{q}_3 = \sqrt{\frac{2}{3}}\begin{pmatrix}1\\-1/2\\-1/2\end{pmatrix}
= \frac{1}{\sqrt{6}}\begin{pmatrix}2\\-1\\-1\end{pmatrix}\).
확인: \(\mathbf{q}_1^T\mathbf{q}_2 = 0\), \(\mathbf{q}_1^T\mathbf{q}_3 = 0\), \(\mathbf{q}_2^T\mathbf{q}_3 = 0\). \(\checkmark\)
QR 분해 활용
Gram–Schmidt 과정은 \(A = QR\) 분해를 직접 생산한다.
\(Q\)의 열은 \(\mathbf{q}_i\)이고, \(R\)의 성분은
\(r_{ij} = \mathbf{q}_i^T \mathbf{a}_j\) (\(i \le j\))이다.
Example 7.22 (QR 분해)
Example 7.21의 결과를 이용하면:
$$
Q = \begin{pmatrix}
1/\sqrt{3} & 0 & 2/\sqrt{6} \\
1/\sqrt{3} & -1/\sqrt{2} & -1/\sqrt{6} \\
1/\sqrt{3} & 1/\sqrt{2} & -1/\sqrt{6}
\end{pmatrix},
$$
$$
R = \begin{pmatrix}
\sqrt{3} & \sqrt{3} & \sqrt{3} \\
0 & \sqrt{2} & -1/\sqrt{2} \\
0 & 0 & \sqrt{3/2}
\end{pmatrix}.
$$
QR 분해의 응용:
- 최소제곱: \(A^T A \hat{\mathbf{x}} = A^T\mathbf{b}\) 대신
\(R\hat{\mathbf{x}} = Q^T\mathbf{b}\)를 풀면 된다 (계산이 더 안정적).
- 고유값 알고리즘 (QR algorithm): \(A_0 = A\), \(A_k = Q_k R_k\), \(A_{k+1} = R_k Q_k\)를
반복하면 \(A_k\)가 상삼각(또는 대각) 행렬로 수렴하여 고유값을 구할 수 있다.
[Source: MIT 18.06SC, Sessions 2.4–2.5]
7.11 네 가지 기본 부분공간의 관계
선형대수의 기본 정리(Fundamental Theorem of Linear Algebra)는 행렬 하나에서 파생되는 네 가지 부분공간(열공간, 영공간, 행공간, 좌영공간)이 두 쌍의 직교 여공간을 형성한다는 구조적 결과이다. 이를 통해 최소제곱 문제의 기하학적 구조가 분명해지고, SVD가 네 부분공간 각각의 정규직교 기저를 동시에 제공하는 이유도 여기서 나온다.
\(m \times n\) 행렬 \(A\)의 네 가지 기본 부분공간은 \(\mathbb{R}^n\)과 \(\mathbb{R}^m\)을 각각 직교 여공간 쌍으로 분할한다.
이 구조가 선형대수학의 기본 정리이다.
직교 여공간 관계
\(\mathbb{R}^n\)에서:
$$\mathbb{R}^n = C(A^T) \oplus N(A) \quad (\text{직교 직합}),$$
모든 \(\mathbf{x} \in \mathbb{R}^n\)은 행공간 성분 \(\mathbf{x}_r \in C(A^T)\)과 영공간 성분 \(\mathbf{x}_n \in N(A)\)의 합으로 유일하게 분해된다.
\(\mathbb{R}^m\)에서:
$$\mathbb{R}^m = C(A) \oplus N(A^T) \quad (\text{직교 직합}).$$
\(A\)의 작용 해석
\(A: \mathbb{R}^n \to \mathbb{R}^m\)에서, \(A\)는 행공간 \(C(A^T)\)을 열공간 \(C(A)\)로 일대일(단사)이면서
위로(전사)인 사상을 유도한다. 영공간은 \(\mathbf{0}\)으로 보내진다.
SVD는 이 사상의 정확한 구조를 보여준다: \(A\mathbf{v}_i = \sigma_i \mathbf{u}_i\).
Example 7.23 (네 부분공간 관계)
\(A = \begin{pmatrix}1&3&5\\2&6&10\end{pmatrix}\)로 놓자.
계수 \(r = 1\).
행공간 \(C(A^T)\): \(\operatorname{span}\left(\begin{pmatrix}1\\3\\5\end{pmatrix}\right)\),
차원 1, \(\mathbb{R}^3\)의 부분공간.
영공간 \(N(A)\): \(x_1 + 3x_2 + 5x_3 = 0\)의 해공간.
기저: \(\begin{pmatrix}-3\\1\\0\end{pmatrix}\), \(\begin{pmatrix}-5\\0\\1\end{pmatrix}\).
차원 2, \(\mathbb{R}^3\)의 부분공간.
확인: 행공간과 영공간의 차원의 합 = \(1 + 2 = 3 = n\).
내적: \(\begin{pmatrix}1\\3\\5\end{pmatrix} \cdot \begin{pmatrix}-3\\1\\0\end{pmatrix} = -3+3+0 = 0\). \(\checkmark\)
열공간 \(C(A)\): \(\operatorname{span}\left(\begin{pmatrix}1\\2\end{pmatrix}\right)\),
차원 1, \(\mathbb{R}^2\)의 부분공간.
좌영공간 \(N(A^T)\):
\(\operatorname{span}\left(\begin{pmatrix}-2\\1\end{pmatrix}\right)\),
차원 \(m - r = 1\).
확인: \(\begin{pmatrix}1\\2\end{pmatrix} \cdot \begin{pmatrix}-2\\1\end{pmatrix} = 0\). \(\checkmark\)
\(A\)의 작용: 행공간의 벡터 \(c\begin{pmatrix}1\\3\\5\end{pmatrix}\)는
\(A \cdot c\begin{pmatrix}1\\3\\5\end{pmatrix} = c(1+9+25)\begin{pmatrix}1\\2\end{pmatrix}/\sqrt{35}\)... 로
열공간에 대응된다.
영공간의 벡터는 \(\mathbf{0}\)으로 보내진다.
Rank–nullity 정리의 의미
계수-nullity 정리 \(\operatorname{rank}(A) + \dim N(A) = n\)은 다음을 뜻한다:
행렬의 "자유도"(\(n\))는 행렬이 실제로 활용하는 차원(계수)과
잃어버리는 차원(nullity)의 합이다.
이것은 모든 선형 사상에 대한 보편적 보존 법칙이다.
기저의 선택과 RREF
RREF \(R = \begin{pmatrix}I & F\\0&0\end{pmatrix}\)로부터 네 부분공간의 기저를 읽을 수 있다:
- 열공간: \(A\)의 피벗 열 (RREF에서 단위 열에 대응하는 원래 열).
- 영공간: 특수해 \(\begin{pmatrix}-F\\I\end{pmatrix}\)의 열.
- 행공간: \(R\)의 영이 아닌 행.
- 좌영공간: \(EA = R\)에서 \(E\)의 마지막 \(m-r\)개 행.
[Source: MIT 18.06SC, Sessions 1.10–1.11]
Part IV: Analysis
해석학(Analysis)은 미적분학의 기초를 엄밀하게 세우고, 그 위에 도구들을 구축하는 분야이다. 미적분학에서 직관적으로 사용한 극한, 연속, 수렴 같은 개념들을 ε-δ 논법으로 정밀하게 재정의한다.
8. Real Analysis
실해석학은 실수 위에서 정의된 함수의 성질을 엄밀하게 연구한다. 미적분학 수업에서 '당연하다'고 넘겼던 것들 — 연속함수가 중간값을 가진다, 닫힌 구간에서 최댓값이 존재한다 — 을 증명하는 것이 이 분야의 목표이다.
공학에서 실해석학이 왜 필요한가? 수치해석(numerical analysis)에서 반복 알고리즘이 올바른 해로 수렴하는지, 그 오차 한계가 얼마인지를 보장하려면 ε-δ 논법이 필수이다. 푸리에 급수(Fourier series)로 신호를 복원할 때 급수가 원래 함수로 수렴하려면 균등수렴(uniform convergence) 조건이 필요하다. 최적화 문제에서 최적해가 존재함을 보장하는 것은 컴팩트성(compactness)과 연속 함수의 최댓값 정리이다.
8.1 Sequences and Limits
수열의 수렴은 해석학 전체의 출발점이다. 수치해석에서 Newton 법이나 고정점 반복법(fixed-point iteration)이 올바른 근으로 다가가는지, 유한요소법(FEM)의 메쉬를 세밀하게 할수록 근사해가 참해에 수렴하는지 — 이 모든 문제가 수열의 수렴으로 귀결된다. ε-N 논법은 "충분히 많이 반복하면 오차를 원하는 만큼 줄일 수 있다"는 직관을 정밀한 수학적 언어로 표현한다.
수열이 수렴한다는 것을 엄밀하게 정의하는 것이 첫 번째 과제이다.
Definition 8.1 (Convergence of a Sequence)
\(\mathbb{R}\)에서의 수열 \((a_n)\)이 \(L \in \mathbb{R}\)로 convergence(수렴)한다는 것은, 모든 \(\varepsilon > 0\)에 대해 \(N \in \mathbb{N}\)이 존재하여
$$ n \geq N \implies |a_n - L| < \varepsilon $$
을 만족하는 것을 말한다. 이를 \(\lim_{n\to\infty} a_n = L\) 또는 \(a_n \to L\)로 표기한다.
수렴의 정의는 극한값 \(L\)을 미리 알아야 적용할 수 있다. 그런데 극한값을 모르는 상태에서 수열이 수렴하는지 판별할 수는 없을까? Cauchy 수열의 개념이 이 질문에 답한다.
Definition 8.2 (Cauchy Sequence)
\(\mathbb{R}\)에서의 수열 \((a_n)\)이 Cauchy sequence(코시 수열)이라 함은, 모든 \(\varepsilon > 0\)에 대해 \(N \in \mathbb{N}\)이 존재하여
$$ m, n \geq N \implies |a_m - a_n| < \varepsilon $$
을 만족하는 것을 말한다.
실수의 완비성(completeness)이 해석학이 작동하는 이유이다. 유리수 체계에서는 Cauchy 수열이 수렴하지 않을 수 있지만(\(\sqrt{2}\)에 수렴하는 유리수 Cauchy 수열), 실수에서는 이런 일이 발생하지 않는다.
Theorem 8.1 (Completeness of \(\mathbb{R}\))
\(\mathbb{R}\)에서의 모든 Cauchy sequence(코시 수열)은 수렴한다. 동치적으로, \(\mathbb{R}\)은 표준 거리 \(d(x,y) = |x-y|\) 하에서 완비 거리 공간이다.
Theorem 8.2 (Monotone Convergence for Sequences)
\(\mathbb{R}\)에서의 유계 단조 수열은 수렴한다. 구체적으로:
- \((a_n)\)이 단조 비감소이고 위로 유계이면, \(a_n \to \sup\{a_n : n \in \mathbb{N}\}\)이다.
- \((a_n)\)이 단조 비증가이고 아래로 유계이면, \(a_n \to \inf\{a_n : n \in \mathbb{N}\}\)이다.
Bolzano-Weierstrass 정리는 유계 수열에서 반드시 수렴하는 부분수열을 뽑아낼 수 있다는 결과이다. 이 정리는 최적화에서 최적해의 존재성, 제어 이론에서 유계 궤적의 극한 거동 분석 등의 이론적 토대가 된다.
Theorem 8.3 (Bolzano-Weierstrass)
\(\mathbb{R}\)에서의 모든 유계 수열은 수렴하는 부분수열을 갖는다.
Theorem 8.3a (Squeeze Theorem)
수열 \((a_n)\), \((b_n)\), \((c_n)\)이 모든 \(n \geq N_0\)에 대해 \(a_n \leq b_n \leq c_n\)을 만족하고, \(\lim_{n\to\infty} a_n = \lim_{n\to\infty} c_n = L\)이면, \(\lim_{n\to\infty} b_n = L\)이다.
Proof
임의의 \(\varepsilon > 0\)이 주어졌다고 하자. \(a_n \to L\)이므로 \(N_1\)이 존재하여 \(n \geq N_1\)이면 \(|a_n - L| < \varepsilon\), 즉 \(L - \varepsilon < a_n\)이다. 마찬가지로 \(c_n \to L\)이므로 \(N_2\)가 존재하여 \(n \geq N_2\)이면 \(c_n < L + \varepsilon\)이다. \(N = \max(N_0, N_1, N_2)\)로 놓으면, \(n \geq N\)일 때
$$ L - \varepsilon < a_n \leq b_n \leq c_n < L + \varepsilon $$
이므로 \(|b_n - L| < \varepsilon\)이다.
8.1.1 수열 수렴 증명 테크닉
수열의 수렴을 엄밀히 증명하려면 \(\varepsilon\)-\(N\) 논법을 직접 적용하거나, Squeeze Theorem 등의 도구를 활용한다. 아래에 대표적인 증명 기법 예제를 든다.
Example 8.1a (\(\varepsilon\)-\(N\) 논법 직접 적용)
\(a_n = \dfrac{3n+1}{n+2}\)이 \(3\)으로 수렴함을 증명하자.
증명. 임의의 \(\varepsilon > 0\)이 주어졌다고 하자.
$$ |a_n - 3| = \left|\frac{3n+1}{n+2} - 3\right| = \left|\frac{3n+1 - 3n - 6}{n+2}\right| = \frac{5}{n+2} < \frac{5}{n}. $$
따라서 \(N > 5/\varepsilon\)를 만족하는 자연수 \(N\)을 택하면, \(n \geq N\)일 때
$$ |a_n - 3| < \frac{5}{n} \leq \frac{5}{N} < \varepsilon $$
이 성립한다. 그러므로 \(\lim_{n\to\infty} a_n = 3\)이다.
Example 8.1b (\(\varepsilon\)-\(N\) 논법: \(n^2\) 분모)
\(a_n = \dfrac{n}{n^2 + 1}\)이 \(0\)으로 수렴함을 증명하자.
증명. 임의의 \(\varepsilon > 0\)에 대해,
$$ |a_n - 0| = \frac{n}{n^2+1} < \frac{n}{n^2} = \frac{1}{n}. $$
따라서 \(N > 1/\varepsilon\)인 \(N\)을 택하면, \(n \geq N\)일 때 \(|a_n| < 1/n \leq 1/N < \varepsilon\)이다.
Example 8.1c (Squeeze Theorem 활용 1)
\(a_n = \dfrac{\sin n}{n}\)이 \(0\)으로 수렴함을 보이자.
증명. 모든 \(n \geq 1\)에 대해 \(-1 \leq \sin n \leq 1\)이므로,
$$ -\frac{1}{n} \leq \frac{\sin n}{n} \leq \frac{1}{n}. $$
\(\lim_{n\to\infty} (-1/n) = 0 = \lim_{n\to\infty} (1/n)\)이므로, Squeeze Theorem에 의해 \(\lim_{n\to\infty} \frac{\sin n}{n} = 0\)이다.
Example 8.1d (Squeeze Theorem 활용 2)
\(a_n = \dfrac{(-1)^n n}{n^2 + 3}\)이 \(0\)으로 수렴함을 보이자.
증명. 모든 \(n \geq 1\)에 대해
$$ |a_n| = \frac{n}{n^2+3} \leq \frac{n}{n^2} = \frac{1}{n}, $$
따라서 \(-1/n \leq a_n \leq 1/n\)이다. 양변의 극한이 모두 \(0\)이므로, Squeeze Theorem에 의해 \(a_n \to 0\)이다.
8.1.2 상극한과 하극한 (Limit Superior / Limit Inferior)
Definition 8.3 (Limit Superior and Inferior)
유계 수열 \((a_n)\)에 대해:
$$ \limsup_{n\to\infty} a_n = \lim_{n\to\infty} \sup_{k \geq n} a_k, \qquad \liminf_{n\to\infty} a_n = \lim_{n\to\infty} \inf_{k \geq n} a_k. $$
수열이 수렴할 필요충분조건은 \(\limsup a_n = \liminf a_n\)이며, 이 경우 두 값 모두 극한과 같다.
직관적으로, \(s_n = \sup_{k \geq n} a_k\)는 비증가 수열이고 아래로 유계이므로 Monotone Convergence Theorem에 의해 수렴한다. 마찬가지로 \(i_n = \inf_{k \geq n} a_k\)는 비감소 수열이고 위로 유계이므로 수렴한다. 항상 \(\liminf a_n \leq \limsup a_n\)이 성립한다.
Theorem 8.3b (상극한/하극한의 부분수열 특성화)
유계 수열 \((a_n)\)에 대해, \(\limsup_{n\to\infty} a_n\)은 수렴하는 부분수열의 극한값들의 상한이다. 즉,
$$ \limsup_{n\to\infty} a_n = \sup\left\{ L \in \mathbb{R} : \text{부분수열 } (a_{n_k}) \text{가 존재하여 } a_{n_k} \to L \right\}. $$
마찬가지로, \(\liminf_{n\to\infty} a_n\)은 수렴하는 부분수열의 극한값들의 하한이다.
Example 8.1e (상극한/하극한 기본)
\(a_n = (-1)^n + 1/n\)을 생각하자. 짝수 항의 부분수열은 \(1 + 1/(2k) \to 1\)이 되고, 홀수 항은 \(-1 + 1/(2k-1) \to -1\)이 된다. 따라서 \(\limsup a_n = 1\)이고 \(\liminf a_n = -1\)이므로, 이 수열은 발산한다.
Example 8.1f (상극한/하극한 계산)
\(a_n = (-1)^n \dfrac{n}{n+1}\)로 정의하자. 짝수 항은 \(a_{2k} = \frac{2k}{2k+1} \to 1\)이고, 홀수 항은 \(a_{2k-1} = -\frac{2k-1}{2k} \to -1\)이다.
\(s_n = \sup_{k \geq n} a_k\)를 계산하면, 충분히 큰 \(n\)에 대해 \(s_n\)은 \(n\) 이상의 가장 가까운 짝수 항의 값이므로 \(s_n \to 1\)이다. 마찬가지로 \(i_n = \inf_{k \geq n} a_k \to -1\)이다.
따라서 \(\limsup a_n = 1\), \(\liminf a_n = -1\)이고, \(\limsup a_n \neq \liminf a_n\)이므로 수열은 발산한다. 수렴하는 부분수열의 극한값 집합은 \(\{-1, 1\}\)이다.
Example 8.1g (상극한/하극한이 일치하는 경우)
\(a_n = \dfrac{2n + (-1)^n}{n}\)으로 정의하자. \(a_n = 2 + (-1)^n / n\)이므로, 짝수 항은 \(2 + 1/(2k) \to 2\), 홀수 항은 \(2 - 1/(2k-1) \to 2\)이다.
\(\sup_{k \geq n} a_k = 2 + 1/n_{\text{even}} \to 2\)이고 \(\inf_{k \geq n} a_k = 2 - 1/n_{\text{odd}} \to 2\)이므로, \(\limsup a_n = \liminf a_n = 2\)이다. 따라서 \(\lim_{n\to\infty} a_n = 2\)이다.
수열의 수렴을 엄밀하게 정의했으니, 함수의 연속성으로 넘어간다. 연속성은 수열의 극한 개념을 함수에 적용한 것이며, 같은 ε-δ 언어로 정의된다.
8.2 Continuity
연속성은 "입력의 작은 변화가 출력의 작은 변화만을 유발한다"는 직관을 형식화한 것이다. 센서 측정에서 물리량의 미세한 변동이 센서 출력의 급격한 도약을 초래하지 않아야 하고, 제어 시스템에서 기준 입력의 소폭 변경이 출력의 폭발적 변화를 일으키지 않아야 한다. 균등연속성(uniform continuity)은 이 안정성이 정의역 전체에서 균일하게 성립하는 더 강한 조건이며, 수치 적분의 오차 추정과 함수 근사의 정확도 보장에 쓰인다. 극값 정리(Extreme Value Theorem)는 유계 폐구간에서 연속함수가 최대·최소를 달성함을 보장하여, 공학 최적화 문제에서 최적해의 존재를 이론적으로 뒷받침한다.
Definition 8.4 (Continuity, Epsilon-Delta)
\(D \subseteq \mathbb{R}\)이고 \(f: D \to \mathbb{R}\), \(c \in D\)라 하자. \(f\)가 \(c\)에서 연속이라 함은, 모든 \(\varepsilon > 0\)에 대해 \(\delta > 0\)이 존재하여
$$ x \in D,\; |x - c| < \delta \implies |f(x) - f(c)| < \varepsilon $$
을 만족하는 것을 말한다. 동치적으로, \(f\)가 \(c\)에서 연속일 필요충분조건은, \(D\)에서의 모든 수열 \((x_n)\)이 \(x_n \to c\)이면 \(f(x_n) \to f(c)\)인 것이다.
Definition 8.5 (Uniform Continuity)
함수 \(f: D \to \mathbb{R}\)가 \(D\)에서 uniform continuity(균등연속)라 함은, 모든 \(\varepsilon > 0\)에 대해 \(\delta > 0\)이 존재하여
$$ x, y \in D,\; |x - y| < \delta \implies |f(x) - f(y)| < \varepsilon $$
을 만족하는 것을 말한다. 점별 연속과의 차이점은, \(\delta\)가 \(\varepsilon\)에만 의존하고 특정 점에 의존하지 않는다는 것이다.
Theorem 8.4 (Heine-Cantor)
\(f: [a,b] \to \mathbb{R}\)가 닫힌 유계 구간에서 연속이면, \(f\)는 \([a,b]\)에서 균등연속이다.
Theorem 8.5 (Extreme Value Theorem)
\(f: [a,b] \to \mathbb{R}\)가 연속이면, \(f\)는 \([a,b]\)에서 최댓값과 최솟값을 달성한다. 즉, \(x_*, x^* \in [a,b]\)이 존재하여 모든 \(x \in [a,b]\)에 대해 \(f(x_*) \leq f(x) \leq f(x^*)\)이다.
Proof (EVT)
\(M = \sup_{x \in [a,b]} f(x)\)로 놓자 (유계성은 별도로 증명 필요; 아래 참조).
Step 1 (유계성): \(f\)가 \([a,b]\)에서 유계가 아니라고 가정하면, 각 \(n\)에 대해 \(|f(x_n)| > n\)인 \(x_n \in [a,b]\)이 존재한다. Bolzano-Weierstrass 정리에 의해 수렴하는 부분수열 \(x_{n_k} \to c \in [a,b]\)가 존재하고, 연속성에 의해 \(f(x_{n_k}) \to f(c)\)이므로 유계여야 하는데, \(|f(x_{n_k})| > n_k \to \infty\)이므로 모순이다.
Step 2 (최댓값 달성): \(M = \sup f\)이면, 각 \(n\)에 대해 \(f(y_n) > M - 1/n\)인 \(y_n \in [a,b]\)가 존재한다. Bolzano-Weierstrass에 의해 \(y_{n_k} \to c^* \in [a,b]\)인 부분수열이 존재하고, 연속성에 의해 \(f(c^*) = M\)이다. 최솟값도 동일한 방법으로 증명된다.
Theorem 8.6 (Intermediate Value Theorem)
\(f: [a,b] \to \mathbb{R}\)가 연속이고 \(f(a) < v < f(b)\) (또는 \(f(b) < v < f(a)\))이면, \(c \in (a,b)\)가 존재하여 \(f(c) = v\)이다.
Proof (IVT)
\(f(a) < v < f(b)\)인 경우를 증명한다 (\(f(a) > v > f(b)\)인 경우는 \(-f\)에 적용).
집합 \(S = \{x \in [a,b] : f(x) < v\}\)을 정의하자. \(a \in S\)이므로 \(S \neq \emptyset\)이고, \(S \subseteq [a,b]\)이므로 위로 유계이다. 상한 공리에 의해 \(c = \sup S\)가 존재한다.
\(f(c) = v\)임을 보인다:
(i) \(f(c) < v\)라 가정하자. \(f\)의 연속성에 의해, \(c\)의 근방에서 \(f(x) < v\)인 점 \(x > c\)가 존재하여 \(x \in S\)가 되고, 이는 \(c = \sup S\)에 모순이다.
(ii) \(f(c) > v\)라 가정하자. \(f\)의 연속성에 의해, \(\delta > 0\)이 존재하여 \((c-\delta, c+\delta) \cap [a,b]\)에서 \(f(x) > v\)이다. 따라서 \((c-\delta, c]\)에 \(S\)의 원소가 없으므로 \(\sup S \leq c - \delta < c\)가 되어 모순이다.
따라서 \(f(c) = v\)이다.
Example 8.2a (IVT 응용: 근의 존재)
\(f(x) = x^3 + x - 1\)로 정의하자. \(f(0) = -1 < 0\)이고 \(f(1) = 1 > 0\)이므로, IVT에 의해 \(c \in (0,1)\)이 존재하여 \(f(c) = 0\)이다. 즉, \(x^3 + x = 1\)은 \((0,1)\)에서 실수 해를 갖는다.
8.2.1 균등연속 vs 점별연속 비교
점별 연속에서는 \(\delta\)가 \(\varepsilon\)과 점 \(c\) 모두에 의존할 수 있다. 균등연속에서는 \(\delta\)가 \(\varepsilon\)에만 의존하며, 정의역의 모든 점에서 동시에 작동한다. 개념적으로 미묘한 차이지만, 해석학적 결과에 큰 영향을 준다.
Example 8.2b (균등연속 vs 점별연속: \(x^2\))
함수 \(f(x) = x^2\)는 임의의 \(M > 0\)에 대해 \([0, M]\)에서 균등연속이지만, \(\mathbb{R}\) 전체에서는 균등연속이 아니다. 후자를 보이려면, \(x_n = n\)과 \(y_n = n + 1/n\)을 잡으면 된다. 그러면 \(|x_n - y_n| = 1/n \to 0\)이지만 \(|f(x_n) - f(y_n)| = |2 + 1/n^2| \to 2\)이다.
Example 8.2c (균등연속: \(\sqrt{x}\))
\(f(x) = \sqrt{x}\)는 \([0, \infty)\)에서 균등연속이다.
증명. 임의의 \(\varepsilon > 0\)에 대해 \(\delta = \varepsilon^2\)으로 택한다. \(x, y \geq 0\)이고 \(|x - y| < \delta\)이면,
$$ |\sqrt{x} - \sqrt{y}| = \frac{|x-y|}{\sqrt{x}+\sqrt{y}} \leq \frac{|x-y|}{\max(\sqrt{x}, \sqrt{y})} \leq \sqrt{|x-y|} < \sqrt{\delta} = \varepsilon. $$
여기서 두 번째 부등식은 \(|\sqrt{x}-\sqrt{y}| \leq \sqrt{|x-y|}\)라는 사실을 이용한 것이다 (이 부등식은 양변을 제곱하면 확인할 수 있다). \(\delta\)가 점에 무관하므로, 균등연속이다.
Example 8.2d (점별연속이지만 균등연속이 아닌 함수: \(\sin(1/x)\))
\(f(x) = \sin(1/x)\)는 \((0, 1]\)에서 (점별) 연속이지만 균등연속이 아니다.
증명. 연속성은 합성함수의 연속성으로부터 따른다. 균등연속이 아님을 보이기 위해, \(x_n = \frac{1}{2n\pi}\)와 \(y_n = \frac{1}{2n\pi + \pi/2}\)를 잡자. \(n \to \infty\)일 때 \(|x_n - y_n| \to 0\)이지만,
$$ |f(x_n) - f(y_n)| = |\sin(2n\pi) - \sin(2n\pi + \pi/2)| = |0 - 1| = 1 $$
이므로, \(\varepsilon = 1/2\)에 대해 어떤 \(\delta > 0\)을 잡아도 조건을 만족시킬 수 없다.
연속성이 "함수값이 급격히 뛰지 않는다"는 성질이라면, 미분가능성은 "함수가 국소적으로 선형 근사를 허용한다"는 더 강한 조건이다. 미분가능한 함수는 반드시 연속이지만, 그 역은 성립하지 않는다.
8.3 Differentiability
Taylor 정리(Taylor's theorem)는 미분가능성의 대표적인 응용이다. 수치해석에서 미분방정식의 차분 근사(finite difference approximation), Newton-Raphson 법의 수렴 속도 분석, 유한요소법의 오차 추정이 모두 Taylor 전개의 나머지항(remainder term)에 의존한다. 나머지항의 크기를 평균값 정리(Mean Value Theorem)로 제어할 수 있기 때문에, "근사가 얼마나 정확한가"에 대한 정량적 답변이 가능해진다.
Definition 8.6 (Derivative)
\(f: (a,b) \to \mathbb{R}\)이고 \(c \in (a,b)\)라 하자. \(f\)의 \(c\)에서의 도함수는
$$ f'(c) = \lim_{h \to 0} \frac{f(c+h) - f(c)}{h} $$
로 정의되며, 이 극한이 존재할 때 정의된다. \(f'(c)\)가 존재하면, \(f\)는 \(c\)에서 미분 가능하다고 한다.
한 점에서의 미분 가능성은 그 점에서의 연속을 함의하지만, 역은 성립하지 않는다. Weierstrass 함수는 모든 점에서 연속이지만 어디에서도 미분 가능하지 않다.
Theorem 8.7 (Mean Value Theorem)
\(f: [a,b] \to \mathbb{R}\)가 \([a,b]\)에서 연속이고 \((a,b)\)에서 미분 가능하면, \(c \in (a,b)\)가 존재하여
$$ f'(c) = \frac{f(b) - f(a)}{b - a} $$
을 만족한다.
Proof
\(g(x) = f(x) - f(a) - \frac{f(b)-f(a)}{b-a}(x-a)\)로 정의하자. 그러면 \(g\)는 \([a,b]\)에서 연속이고, \((a,b)\)에서 미분 가능하며, \(g(a) = g(b) = 0\)이다. Rolle의 정리(최대·최소 정리를 \(g\)에 적용)에 의해, \(c \in (a,b)\)가 존재하여 \(g'(c) = 0\)이고, 이로부터 \(f'(c) = \frac{f(b)-f(a)}{b-a}\)를 얻는다.
Theorem 8.8 (Generalized MVT / Cauchy's MVT)
\(f, g: [a,b] \to \mathbb{R}\)가 \([a,b]\)에서 연속이고 \((a,b)\)에서 미분 가능하며, \((a,b)\)에서 \(g'(x) \neq 0\)이면, \(c \in (a,b)\)가 존재하여
$$ \frac{f'(c)}{g'(c)} = \frac{f(b) - f(a)}{g(b) - g(a)} $$
을 만족한다.
Theorem 8.9 (Taylor's Theorem with Remainder)
\(f: [a,b] \to \mathbb{R}\)가 \(n+1\)번 연속 미분 가능하면, \(x, x_0 \in [a,b]\)에 대해:
$$ f(x) = \sum_{k=0}^{n} \frac{f^{(k)}(x_0)}{k!}(x - x_0)^k + \frac{f^{(n+1)}(\xi)}{(n+1)!}(x - x_0)^{n+1} $$
을 만족하는 \(\xi\)가 \(x_0\)과 \(x\) 사이에 존재한다 (나머지의 Lagrange 형식).
미분의 역연산으로서의 적분을 엄밀하게 구성한다. Riemann 적분은 구간을 잘게 쪼개고 각 소구간에서의 함수값으로 넓이를 근사하는 방식이다. 이 구성은 직관적이지만 한계도 있으며, 그 한계가 이후 Lebesgue 적분(11장)의 동기가 된다.
8.4 Riemann Integration
Riemann 적분의 구성 자체가 수치 적분(numerical integration)의 수학적 기초이다. 사다리꼴 법칙(trapezoidal rule)이나 Simpson 법칙은 특정 분할에 대한 Riemann 합의 변형이며, Darboux 상합과 하합 사이의 간격이 수치 적분의 최대 오차를 직접 제어한다. "어떤 함수가 적분 가능한가?"라는 질문에 대한 Lebesgue 판정 기준(불연속점 집합의 측도가 0이면 적분 가능)은, 공학에서 흔히 등장하는 구간별 연속 함수(piecewise continuous function)가 항상 적분 가능하다는 사실을 보장한다.
Definition 8.7 (Partition and Riemann Integral)
\(f: [a,b] \to \mathbb{R}\)가 유계라 하자. \([a,b]\)의 분할은 \(P = \{a = x_0 < x_1 < \cdots < x_n = b\}\)이다. 상합(upper sum)과 하합(lower sum)을 다음과 같이 정의한다:
$$ U(f, P) = \sum_{i=1}^n M_i \Delta x_i, \qquad L(f, P) = \sum_{i=1}^n m_i \Delta x_i, $$
여기서 \(M_i = \sup_{[x_{i-1}, x_i]} f\), \(m_i = \inf_{[x_{i-1}, x_i]} f\), \(\Delta x_i = x_i - x_{i-1}\)이다. 함수 \(f\)가 Riemann 적분 가능하다 함은
$$ \inf_P U(f,P) = \sup_P L(f,P) $$
을 만족하는 것이며, 이 공통 값을 \(\int_a^b f(x)\, dx\)로 표기한다.
상합의 하한 \(\overline{\int_a^b} f = \inf_P U(f,P)\)를 upper Darboux integral(상 다르부 적분), 하합의 상한 \(\underline{\int_a^b} f = \sup_P L(f,P)\)를 lower Darboux integral(하 다르부 적분)이라 부른다. 이 두 값이 일치할 때 Riemann 적분이 존재한다.
Definition 8.7a (Refinement of a Partition)
분할 \(Q\)가 분할 \(P\)의 세분(refinement)이라 함은 \(P \subseteq Q\)인 것이다. 세분은 상합을 줄이지 않고 하합을 늘리지 않는다:
$$ P \subseteq Q \implies L(f, P) \leq L(f, Q) \leq U(f, Q) \leq U(f, P). $$
Theorem 8.10 (Riemann Integrability Criterion)
유계 함수 \(f: [a,b] \to \mathbb{R}\)가 Riemann 적분 가능할 필요충분조건은, 모든 \(\varepsilon > 0\)에 대해 분할 \(P\)가 존재하여 \(U(f,P) - L(f,P) < \varepsilon\)을 만족하는 것이다.
Proof
(\(\Rightarrow\)) \(f\)가 적분 가능하면, \(\inf_P U(f,P) = \sup_P L(f,P) = I\)이다. 임의의 \(\varepsilon > 0\)에 대해 \(U(f, P_1) < I + \varepsilon/2\)인 \(P_1\)과 \(L(f, P_2) > I - \varepsilon/2\)인 \(P_2\)가 존재한다. 공통 세분 \(P = P_1 \cup P_2\)를 택하면 \(U(f,P) - L(f,P) \leq U(f,P_1) - L(f,P_2) < \varepsilon\)이다.
(\(\Leftarrow\)) 모든 \(\varepsilon > 0\)에 대해 \(U(f,P_\varepsilon) - L(f,P_\varepsilon) < \varepsilon\)인 \(P_\varepsilon\)가 존재하면, \(0 \leq \inf_P U(f,P) - \sup_P L(f,P) \leq U(f,P_\varepsilon) - L(f,P_\varepsilon) < \varepsilon\)이다. \(\varepsilon > 0\)이 임의이므로 상 다르부 적분과 하 다르부 적분이 일치한다.
Theorem 8.11 (Lebesgue's Criterion for Riemann Integrability)
유계 함수 \(f: [a,b] \to \mathbb{R}\)가 Riemann 적분 가능할 필요충분조건은, \(f\)의 불연속점의 집합이 Lebesgue 측도 0을 갖는 것이다.
Example 8.3 (Dirichlet 함수와 Thomae 함수)
Dirichlet 함수 \(f(x) = \mathbf{1}_{\mathbb{Q}}(x)\)는 모든 점에서 불연속이므로, Riemann 적분 가능하지 않다. 반면, Thomae 함수(자 함수)는 기약분수 \(p/q\)에서 \(f(p/q) = 1/q\)로 정의하고 무리수 \(x\)에서 \(f(x) = 0\)으로 정의하면, 모든 무리수에서 연속이고 유리수에서만 불연속(측도 0인 집합)이므로, Riemann 적분 가능하며 \(\int_0^1 f = 0\)이다.
Example 8.3a (Darboux 합을 이용한 적분가능성 직접 증명)
\(f(x) = x^2\)이 \([0,1]\)에서 Riemann 적분 가능함을 Darboux 합으로 직접 보이자.
등분할 \(P_n = \{0, 1/n, 2/n, \ldots, 1\}\)을 사용한다. 각 부분구간 \([(i-1)/n,\, i/n]\)에서 \(f\)가 단조 증가이므로 \(m_i = (i-1)^2/n^2\), \(M_i = i^2/n^2\)이고, \(\Delta x_i = 1/n\)이다.
$$ L(f, P_n) = \sum_{i=1}^n \frac{(i-1)^2}{n^2} \cdot \frac{1}{n} = \frac{1}{n^3}\sum_{i=0}^{n-1} i^2 = \frac{(n-1)n(2n-1)}{6n^3}, $$
$$ U(f, P_n) = \sum_{i=1}^n \frac{i^2}{n^2} \cdot \frac{1}{n} = \frac{1}{n^3}\sum_{i=1}^{n} i^2 = \frac{n(n+1)(2n+1)}{6n^3}. $$
따라서
$$ U(f,P_n) - L(f,P_n) = \frac{n(n+1)(2n+1) - (n-1)n(2n-1)}{6n^3} = \frac{n(6n)}{6n^3} = \frac{1}{n}. $$
임의의 \(\varepsilon > 0\)에 대해 \(n > 1/\varepsilon\)을 택하면 \(U(f,P_n) - L(f,P_n) < \varepsilon\)이므로, Riemann 적분가능 판정 기준에 의해 \(f\)는 적분 가능하고, \(\int_0^1 x^2\,dx = \lim_{n\to\infty} L(f,P_n) = 1/3\)이다.
Example 8.3b (유한 불연속을 갖는 함수의 적분가능성)
\(f: [0,2] \to \mathbb{R}\)를 \(f(x) = 1\) (\(0 \leq x \leq 1\)), \(f(x) = 3\) (\(1 < x \leq 2\))으로 정의하자. \(f\)는 \(x=1\)에서만 불연속이다.
분할 \(P_\delta = \{0, 1-\delta, 1+\delta, 2\}\)을 택하면, \([0, 1-\delta]\)에서 \(f \equiv 1\), \([1+\delta, 2]\)에서 \(f \equiv 3\)이므로 이 구간들에서 \(U - L = 0\)이다. 문제가 되는 구간 \([1-\delta, 1+\delta]\)에서 \(M = 3\), \(m = 1\)이므로
$$ U(f, P_\delta) - L(f, P_\delta) = (3-1)(2\delta) = 4\delta. $$
\(\delta = \varepsilon/4\)로 택하면 \(U - L < \varepsilon\)이므로 \(f\)는 Riemann 적분 가능하다. \(\int_0^2 f = 1 \cdot 1 + 3 \cdot 1 = 4\)이다.
Theorem 8.12 (Fundamental Theorem of Calculus)
\(f: [a,b] \to \mathbb{R}\)가 Riemann 적분 가능하다고 하자.
- Part I. \(F(x) = \int_a^x f(t)\, dt\)로 정의하면, \(F\)는 \([a,b]\)에서 연속이다. \(f\)가 \(c \in (a,b)\)에서 연속이면, \(F\)는 \(c\)에서 미분 가능하고 \(F'(c) = f(c)\)이다.
- Part II. \(f\)가 \([a,b]\)에서 연속이고 \(F\)가 \(f\)의 임의의 역도함수이면, \(\int_a^b f(x)\, dx = F(b) - F(a)\)이다.
지금까지 개별 함수의 연속성, 미분, 적분을 다루었다. 이번에는 함수열과 함수급수로 시야를 넓힌다. 질문은 "극한 함수가 원래 함수열의 성질(연속성, 미분가능성, 적분가능성)을 물려받는가?"이며, 그 답은 수렴의 종류 — 점별 수렴인지 균등 수렴인지 — 에 달려 있다.
8.5 Sequences and Series of Functions
푸리에 급수로 주기 신호를 복원하거나, Taylor 급수로 함수를 다항식으로 근사할 때, 유한 항까지의 부분합이 원래 함수에 "충분히 가까운가?"라는 질문이 생긴다. 균등수렴(uniform convergence)이 이 질문에 정밀하게 답한다. 균등수렴이 보장되면 항별 적분(term-by-term integration)과 항별 미분(term-by-term differentiation)이 정당화되어, 급수 해의 미분·적분 성질이 각 항의 성질로부터 유도된다. PDE의 변수 분리법(6장)에서 구한 푸리에 급수 해가 실제로 미분 가능하고 PDE를 만족하는지 확인하는 것이 바로 이 이론의 응용이다.
Definition 8.8 (Pointwise and Uniform Convergence)
\(f_n: D \to \mathbb{R}\)를 함수열이라 하자.
- \((f_n)\)이 \(D\)에서 \(f\)로 점별 convergence(수렴)한다 함은, 각 \(x \in D\)에 대해 \(f_n(x) \to f(x)\)인 것이다.
- \((f_n)\)이 \(D\)에서 \(f\)로 균등 convergence(수렴)한다 함은, \(\sup_{x \in D} |f_n(x) - f(x)| \to 0\)인 것, 즉 모든 \(\varepsilon > 0\)에 대해 (\(x\)에 무관한) \(N\)이 존재하여 \(n \geq N\)이면 모든 \(x \in D\)에 대해 \(|f_n(x) - f(x)| < \varepsilon\)인 것이다.
Theorem 8.13 (Uniform Limit of Continuous Functions)
\((f_n)\)이 \(D\)에서의 연속 함수열이고, \(f_n \to f\)가 \(D\)에서 균등 수렴하면, \(f\)는 \(D\)에서 연속이다.
점별 수렴은 일반적으로 연속성을 보존하지 않는다. 대표적인 반례는 \([0,1]\)에서의 \(f_n(x) = x^n\)으로, 이는 불연속 함수 \(f(x) = 0\) (\(x \in [0,1)\)), \(f(1) = 1\)로 점별 수렴한다.
Example 8.4a (점별 수렴하지만 균등 수렴하지 않는 예)
\(f_n(x) = x^n\)은 \([0,1]\)에서 \(f(x) = \begin{cases} 0, & 0 \leq x < 1 \\ 1, & x = 1 \end{cases}\)로 점별 수렴한다. 그러나 균등 수렴하지 않는다:
$$ \sup_{x \in [0,1]} |f_n(x) - f(x)| \geq |f_n(1-1/n) - f(1-1/n)| = (1-1/n)^n \to 1/e \neq 0. $$
극한함수 \(f\)가 불연속인 것도 균등 수렴이 아님을 확인시켜 준다 (Theorem 8.13의 대우).
Example 8.4b (균등 수렴의 예)
\(f_n(x) = \dfrac{x}{1 + nx^2}\)는 \(\mathbb{R}\)에서 \(f(x) = 0\)으로 균등 수렴한다.
증명. AM-GM 부등식에 의해, \(1 + nx^2 \geq 2\sqrt{n}|x|\)이므로
$$ |f_n(x)| = \frac{|x|}{1+nx^2} \leq \frac{|x|}{2\sqrt{n}|x|} = \frac{1}{2\sqrt{n}} \quad (x \neq 0). $$
\(x = 0\)일 때 \(f_n(0) = 0\)이므로, \(\sup_{x \in \mathbb{R}} |f_n(x)| \leq \frac{1}{2\sqrt{n}} \to 0\)이다.
Theorem 8.14 (Weierstrass M-test)
\(\sum f_n\)을 \(D\)에서의 함수 급수라 하자. 상수 \(M_n \geq 0\)이 존재하여 모든 \(x \in D\)에 대해 \(|f_n(x)| \leq M_n\)이고 \(\sum M_n < \infty\)이면, \(\sum f_n\)은 \(D\)에서 균등하고 절대적으로 수렴한다.
Example 8.4c (Weierstrass M-test: 지수 급수)
멱급수 \(\sum_{n=0}^\infty x^n/n!\)은 Weierstrass M-test에 의해 (\(M_n = R^n/n!\)로 잡으면) 임의의 유계 구간 \([-R, R]\)에서 균등 수렴한다. 항별 미분에 의해 \(f'(x) = f(x)\)이므로, \(f(x) = e^x\)임을 확인할 수 있다.
Example 8.4d (Weierstrass M-test: 삼각급수)
급수 \(\displaystyle\sum_{n=1}^\infty \frac{\cos(nx)}{n^2}\)이 \(\mathbb{R}\)에서 균등 수렴함을 보이자.
증명. 모든 \(x \in \mathbb{R}\)과 \(n \geq 1\)에 대해
$$ \left|\frac{\cos(nx)}{n^2}\right| \leq \frac{1}{n^2} = M_n. $$
\(\sum_{n=1}^\infty M_n = \sum_{n=1}^\infty 1/n^2 = \pi^2/6 < \infty\)이므로, Weierstrass M-test에 의해 주어진 급수는 \(\mathbb{R}\)에서 균등하고 절대적으로 수렴한다. 각 항이 연속이므로, Theorem 8.13에 의해 합함수도 \(\mathbb{R}\)에서 연속이다.
Example 8.4e (Weierstrass M-test 적용 불가 사례)
급수 \(\displaystyle\sum_{n=1}^\infty \frac{(-1)^n x^n}{n}\)은 \((-1, 1]\)에서 점별 수렴하지만 (\(x=1\)에서 교대급수 \(\sum (-1)^n/n = -\ln 2\)), \((-1, 1]\) 전체에서 Weierstrass M-test를 직접 적용할 수 없다. \(\sup_{x \in (-1,1]} |(-1)^n x^n / n| = 1/n\)이고, \(\sum 1/n\)은 발산하기 때문이다.
그러나 임의의 \(0 < r < 1\)에 대해 \([-r, r]\)에서는 \(M_n = r^n/n\)으로 잡을 수 있고, \(\sum r^n/n < \infty\)이므로 \([-r, r]\)에서는 균등 수렴한다. 이는 \((-1, 1)\)에서 compact subset 위에서의 균등 수렴(정규 수렴)에 해당한다.
Theorem 8.15 (Term-by-term Integration)
\(f_n: [a,b] \to \mathbb{R}\)가 Riemann 적분 가능하고 \(\sum f_n\)이 \([a,b]\)에서 \(f\)로 균등 수렴하면,
$$ \int_a^b f(x)\, dx = \sum_{n=1}^\infty \int_a^b f_n(x)\, dx. $$
Theorem 8.16 (Term-by-term Differentiation)
\(f_n: (a,b) \to \mathbb{R}\)가 미분 가능하고, 어떤 \(x_0 \in (a,b)\)에 대해 \(\sum f_n(x_0)\)이 수렴한다고 하자. \(\sum f_n'\)이 \((a,b)\)에서 균등 수렴하면, \(\sum f_n\)은 미분 가능한 함수 \(f\)로 균등 수렴하고, \(f'(x) = \sum f_n'(x)\)이다.
8.5.1 균등 수렴과 적분/미분의 교환
균등 수렴이 중요한 이유는, 극한과 적분/미분의 순서를 교환할 수 있게 해 주기 때문이다. 점별 수렴만으로는 이러한 교환이 보장되지 않는다.
Example 8.4f (점별 수렴에서 적분 교환 실패)
\(f_n: [0,1] \to \mathbb{R}\)를 다음과 같이 정의하자:
$$ f_n(x) = \begin{cases} 2n^2 x, & 0 \leq x \leq 1/(2n), \\ 2n - 2n^2 x, & 1/(2n) < x \leq 1/n, \\ 0, & 1/n < x \leq 1. \end{cases} $$
이는 높이 \(n\), 밑변 \(1/n\)인 삼각형 모양의 함수이다. 각 \(x \in [0,1]\)에 대해 \(f_n(x) \to 0\)이므로 \(f_n \to 0\) 점별이다. 그러나
$$ \int_0^1 f_n(x)\, dx = \frac{1}{2} \cdot \frac{1}{n} \cdot n = \frac{1}{2} \neq 0 = \int_0^1 0\, dx. $$
적분과 극한의 순서가 교환되지 않는다. 이는 수렴이 균등하지 않기 때문이다: \(\sup_x |f_n(x)| = n \to \infty\).
Example 8.4g (항별 적분 응용)
\(\displaystyle\sum_{n=0}^\infty \frac{x^n}{n!}\)이 \([0, R]\)에서 균등 수렴하므로 (Example 8.4c), 항별 적분이 가능하다:
$$ \int_0^t e^x\, dx = \int_0^t \sum_{n=0}^\infty \frac{x^n}{n!}\, dx = \sum_{n=0}^\infty \frac{t^{n+1}}{(n+1)!} = e^t - 1. $$
이는 \(\int_0^t e^x\, dx = e^t - 1\)이라는 알려진 결과와 일치한다.
함수급수를 다루려면 먼저 수치급수의 수렴 여부를 판정할 수 있어야 한다. 여기서는 실해석학에서 자주 쓰이는 수렴 판정법들을 체계적으로 정리한다.
8.6 급수와 수렴 판정
Definition 8.9 (급수의 수렴)
실수열 \((a_n)\)에 대해, 급수 \(\sum_{n=1}^\infty a_n\)이 수렴한다 함은 부분합 수열 \(S_N = \sum_{n=1}^N a_n\)이 수렴하는 것이다. 급수가 수렴하면, 반드시 \(a_n \to 0\)이어야 한다 (필요조건, 충분하지 않음).
Theorem 8.17 (비교 판정법)
\(0 \leq a_n \leq b_n\)이 모든 충분히 큰 \(n\)에 대해 성립하면:
- \(\sum b_n < \infty \implies \sum a_n < \infty\).
- \(\sum a_n = \infty \implies \sum b_n = \infty\).
Theorem 8.18 (비율 판정법, Ratio Test)
양항급수 \(\sum a_n\) (\(a_n > 0\))에 대해 \(L = \lim_{n\to\infty} a_{n+1}/a_n\)이 존재하면:
- \(L < 1\)이면 급수는 수렴한다.
- \(L > 1\)이면 급수는 발산한다.
- \(L = 1\)이면 판정 불가이다.
Theorem 8.19 (근 판정법, Root Test)
급수 \(\sum a_n\) (\(a_n \geq 0\))에 대해 \(\alpha = \limsup_{n\to\infty} a_n^{1/n}\)으로 놓으면:
- \(\alpha < 1\)이면 급수는 절대 수렴한다.
- \(\alpha > 1\)이면 급수는 발산한다.
- \(\alpha = 1\)이면 판정 불가이다.
Example 8.5 (비율 판정법 적용)
\(\displaystyle\sum_{n=1}^\infty \frac{n^2}{3^n}\)의 수렴 여부를 판정하자. \(a_n = n^2/3^n\)으로 놓으면
$$ \frac{a_{n+1}}{a_n} = \frac{(n+1)^2}{3^{n+1}} \cdot \frac{3^n}{n^2} = \frac{1}{3}\left(\frac{n+1}{n}\right)^2 \to \frac{1}{3} < 1. $$
비율 판정법에 의해 급수는 수렴한다.
Example 8.6 (근 판정법 적용)
\(\displaystyle\sum_{n=1}^\infty \left(\frac{n}{2n+1}\right)^n\)의 수렴 여부를 판정하자. \(a_n = \left(\frac{n}{2n+1}\right)^n\)이므로
$$ a_n^{1/n} = \frac{n}{2n+1} \to \frac{1}{2} < 1. $$
근 판정법에 의해 급수는 수렴한다.
Example 8.7 (교대급수 판정법)
\(\displaystyle\sum_{n=1}^\infty \frac{(-1)^{n+1}}{n}\)은 교대급수이다. \(b_n = 1/n\)이 단조 감소하고 \(b_n \to 0\)이므로, Leibniz 교대급수 판정법에 의해 수렴한다. 그러나 \(\sum 1/n = \infty\)이므로 절대 수렴하지는 않는다. 이 급수의 합은 \(\ln 2\)이다.
해석학 전반에서 반복적으로 등장하는 부등식들을 모아 정리한다. 이 부등식들은 추정(estimation)의 기본 도구이며, 이후 측도론과 함수해석학에서도 자주 사용된다.
8.7 해석학의 핵심 부등식
Theorem 8.20 (삼각 부등식의 급수 확장)
급수 \(\sum a_n\)이 절대 수렴하면,
$$ \left|\sum_{n=1}^\infty a_n\right| \leq \sum_{n=1}^\infty |a_n|. $$
Theorem 8.21 (Abel's Summation / 아벨 변환)
수열 \((a_n)\), \((b_n)\)과 부분합 \(B_n = \sum_{k=1}^n b_k\)에 대해:
$$ \sum_{n=1}^N a_n b_n = a_N B_N - \sum_{n=1}^{N-1} (a_{n+1} - a_n) B_n. $$
이를 이용하면 Dirichlet 판정법과 Abel 판정법을 증명할 수 있다.
Example 8.8 (Abel 변환 응용)
\(\displaystyle\sum_{n=1}^\infty \frac{\sin n}{n}\)의 수렴을 보이자. \(a_n = 1/n\) (단조 감소, \(0\)으로 수렴)이고, \(b_n = \sin n\)이다. \(B_N = \sum_{k=1}^N \sin k\)는 유계임이 알려져 있다:
$$ |B_N| = \left|\sum_{k=1}^N \sin k\right| = \left|\frac{\sin(N/2)\sin((N+1)/2)}{\sin(1/2)}\right| \leq \frac{1}{\sin(1/2)}. $$
Dirichlet 판정법 (또는 Abel 변환 후 수렴 확인)에 의해 급수는 수렴한다.
Example 8.9 (Cauchy 수열 직접 증명)
\(a_n = \displaystyle\sum_{k=1}^n \frac{1}{k^2}\)이 Cauchy 수열임을 직접 보이자.
증명. \(m > n\)이면
$$ |a_m - a_n| = \sum_{k=n+1}^m \frac{1}{k^2} \leq \sum_{k=n+1}^m \frac{1}{k(k-1)} = \sum_{k=n+1}^m \left(\frac{1}{k-1} - \frac{1}{k}\right) = \frac{1}{n} - \frac{1}{m} < \frac{1}{n}. $$
임의의 \(\varepsilon > 0\)에 대해 \(N > 1/\varepsilon\)을 택하면, \(m > n \geq N\)일 때 \(|a_m - a_n| < 1/n \leq 1/N < \varepsilon\)이다. \(\mathbb{R}\)의 완비성에 의해 \((a_n)\)은 수렴한다.
Example 8.10 (Monotone Convergence 활용)
\(a_1 = 1\), \(a_{n+1} = \sqrt{2 + a_n}\)으로 정의된 수열이 수렴함을 보이고 극한을 구하자.
풀이. 귀납법으로 \(a_n < 2\)를 보인다. \(a_1 = 1 < 2\)이고, \(a_n < 2\)이면 \(a_{n+1} = \sqrt{2+a_n} < \sqrt{4} = 2\)이다. 따라서 \((a_n)\)은 위로 유계이다.
단조 증가성: \(a_{n+1}^2 - a_n^2 = (2 + a_n) - a_n^2 = -(a_n^2 - a_n - 2) = -(a_n-2)(a_n+1)\). \(a_n < 2\)이고 \(a_n > 0\)이므로 \(a_{n+1}^2 - a_n^2 > 0\), 즉 \(a_{n+1} > a_n\)이다.
Monotone Convergence Theorem에 의해 \(L = \lim a_n\)이 존재하고, \(a_{n+1} = \sqrt{2 + a_n}\)에서 양변에 극한을 취하면 \(L = \sqrt{2+L}\), 즉 \(L^2 - L - 2 = 0\)이므로 \(L = 2\) (양수 근).
Example 8.11 (Heine-Cantor 정리 응용)
\(f(x) = 1/x\)는 \((0, 1]\)에서 연속이지만 균등연속이 아니다. 그러나 \([\delta, 1]\) (\(\delta > 0\))에서는 Heine-Cantor 정리에 의해 균등연속이다.
\((0,1]\)에서 균등연속이 아님을 보이려면: \(x_n = 1/n\), \(y_n = 1/(n+1)\)로 잡으면 \(|x_n - y_n| = 1/(n(n+1)) \to 0\)이지만 \(|f(x_n) - f(y_n)| = |n - (n+1)| = 1\)이다. 이는 \((0,1]\)이 닫힌 유계 구간이 아닌 것과 관련된다: Heine-Cantor 정리의 조건인 콤팩트성이 성립하지 않는다.
Example 8.12 (Darboux 합으로 적분 불가능 확인)
Dirichlet 함수 \(f = \mathbf{1}_{\mathbb{Q}}\)가 \([0,1]\)에서 Riemann 적분 불가능함을 Darboux 합으로 직접 확인하자.
임의의 분할 \(P = \{x_0, x_1, \ldots, x_n\}\)에 대해, 유리수와 무리수의 조밀성에 의해 각 부분구간 \([x_{i-1}, x_i]\)에서 \(M_i = \sup f = 1\)이고 \(m_i = \inf f = 0\)이다. 따라서
$$ U(f, P) = \sum_{i=1}^n 1 \cdot \Delta x_i = b - a = 1, \qquad L(f, P) = \sum_{i=1}^n 0 \cdot \Delta x_i = 0. $$
모든 분할에 대해 \(U(f,P) - L(f,P) = 1\)이므로, \(\varepsilon < 1\)에 대해 \(U - L < \varepsilon\)을 만족하는 분할이 존재하지 않는다. 따라서 \(f\)는 Riemann 적분 불가능이다.
Sources: MIT 18.100A/B (Real Analysis), Harvey Mudd Real Analysis notes, Rudin, Principles of Mathematical Analysis.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
9. Complex Analysis
전기공학에서 교류 회로의 임피던스(impedance)는 저항과 리액턴스를 하나의 복소수 \(Z = R + jX\)로 표현한다. 이 표기가 단순한 편의가 아님을 보여주는 것이 복소해석학이다. 복소수를 함수의 정의역으로 확장하면, 실수에서는 보이지 않던 수학적 구조가 드러난다. 제어 공학에서 전달함수(transfer function)의 극점(pole)과 영점(zero)이 시스템의 안정성을 결정하고, 나이퀴스트 판별법(Nyquist stability criterion)이 복소 평면 위의 경로 적분으로 정식화되는 것도 이 구조 덕분이다.
2차원 유체역학에서 등각사상(conformal mapping)은 복잡한 형상 주위의 유동을 단순한 영역에서의 유동으로 변환한다. Joukowski 변환으로 원 주위의 유동에서 날개(airfoil) 주위의 양력을 계산하는 것이 대표적 사례이다. 신호처리에서 z-변환과 라플라스 변환의 수렴 영역(region of convergence)은 복소 평면의 구조로 기술되며, 라플라스 역변환은 본질적으로 복소 경로 적분이다. 복소해석학은 공학의 여러 분야에서 이론적 기반이 된다.
복소해석학(Complex Analysis)은 복소 변수 함수를 연구한다. 복소 미분 가능성의 요구 조건은 실수 경우보다 훨씬 제약적이며, 그 제약이 강한 결과를 낳는다. 해석함수는 수렴하는 수열 위에서의 값만으로 결정되고, 한 번 미분 가능하면 무한 번 미분 가능하며, 멱급수로 표현되고, 적분이 경로에 무관하다. 유계인 전체 함수가 상수라는 결론까지 같은 뿌리에서 따라 나오는데, 그 뿌리가 Cauchy-Riemann 방정식이다.
9.1 Complex Numbers and Analytic Functions
실수 함수의 미분 가능성은 좌극한과 우극한의 일치만 요구하지만, 복소 함수의 미분 가능성은 모든 방향에서의 극한이 일치해야 한다. 이 조건이 Cauchy-Riemann 방정식으로 구체화되며, 실수부와 허수부 사이의 강한 결합을 낳는다. 교류 회로에서 전압과 전류의 위상 관계, 2차원 정상 유동에서 속도 퍼텐셜(velocity potential)과 유선 함수(stream function)의 관계가 모두 이 방정식의 물리적 실현이다.
Definition 9.1 (Complex Differentiability)
\(\Omega \subseteq \mathbb{C}\)가 열린 집합이고 함수 \(f: \Omega \to \mathbb{C}\)에 대해, \(f\)가 \(z_0 \in \Omega\)에서 복소 미분 가능(정칙, holomorphic)하다 함은
$$ f'(z_0) = \lim_{h \to 0} \frac{f(z_0 + h) - f(z_0)}{h} $$
이 존재하는 것을 말한다. 여기서 \(h \in \mathbb{C}\), \(h \neq 0\)이다. \(f\)가 \(\Omega\)의 모든 점에서 정칙이면, \(f\)는 \(\Omega\)에서 analytic(해석적)이라 한다. \(\mathbb{C}\) 전체에서 해석적인 함수를 전체 함수(entire)라 한다.
Theorem 9.1 (Cauchy-Riemann Equations)
\(f(x+iy) = u(x,y) + iv(x,y)\)로 쓰고, \(u,v: \mathbb{R}^2 \to \mathbb{R}\)로 놓자. \(f\)가 \(z_0 = x_0 + iy_0\)에서 정칙이면, \(u\)와 \(v\)의 편도함수가 \((x_0, y_0)\)에서 존재하고 다음을 만족한다:
$$ \frac{\partial u}{\partial x} = \frac{\partial v}{\partial y}, \qquad \frac{\partial u}{\partial y} = -\frac{\partial v}{\partial x}. $$
역으로, \(u\)와 \(v\)가 \((x_0, y_0)\)의 근방에서 연속 편도함수를 가지고 위 방정식을 만족하면, \(f\)는 \(z_0\)에서 정칙이다.
Example 9.1
\(f(z) = z^2 = (x^2 - y^2) + 2ixy\)에 대해, \(u = x^2 - y^2\), \(v = 2xy\)이다. 그러면 \(u_x = 2x = v_y\)이고 \(u_y = -2y = -v_x\)이므로 Cauchy-Riemann 방정식을 만족한다. 반면, \(f(z) = \bar{z} = x - iy\)는 \(u_x = 1 \neq -1 = v_y\)이므로, \(\bar{z}\)는 어디에서도 해석적이지 않다.
Example 9.1a (Cauchy-Riemann: 지수 함수)
\(f(z) = e^z = e^{x+iy} = e^x \cos y + i e^x \sin y\)에 대해 Cauchy-Riemann 방정식을 확인하자. \(u = e^x \cos y\), \(v = e^x \sin y\)로 놓으면:
$$ u_x = e^x \cos y = v_y, \qquad u_y = -e^x \sin y = -v_x. $$
따라서 \(f(z) = e^z\)는 \(\mathbb{C}\) 전체에서 해석적(전체 함수)이다. 도함수는 \(f'(z) = u_x + iv_x = e^x \cos y + ie^x \sin y = e^z\)이므로, \((e^z)' = e^z\)가 복소 영역에서도 성립한다.
Example 9.1b (Cauchy-Riemann: 조화 켤레 함수 구하기)
\(u(x,y) = x^3 - 3xy^2\)가 조화 함수임을 확인하고, 조화 켤레(harmonic conjugate) \(v\)를 구하자.
먼저 \(u_{xx} = 6x\), \(u_{yy} = -6x\)이므로 \(\nabla^2 u = 0\)이 성립하여 조화 함수이다.
Cauchy-Riemann 방정식 \(v_y = u_x = 3x^2 - 3y^2\)에서 \(y\)에 대해 적분하면:
$$ v = 3x^2 y - y^3 + \phi(x). $$
다른 조건 \(v_x = -u_y = 6xy\)를 적용하면 \(v_x = 6xy + \phi'(x) = 6xy\)이므로 \(\phi'(x) = 0\), 즉 \(\phi(x) = C\)이다. 따라서:
$$ v(x,y) = 3x^2 y - y^3 + C, $$
이고 대응하는 해석함수는 \(f(z) = (x^3 - 3xy^2) + i(3x^2 y - y^3) = z^3 + iC\)이다.
해석함수의 실수부와 허수부는 각각 라플라스 방정식(Laplace equation)을 만족하며, 이를 조화 함수(harmonic function)라 부른다. 2차원 정상 열전도, 정전기 퍼텐셜, 비압축성 유동의 속도 퍼텐셜이 모두 조화 함수로 기술되므로, 복소해석학과 물리학의 접점이 여기서 형성된다.
Definition 9.2 (Harmonic Function)
\(\Omega \subseteq \mathbb{R}^2\)가 열린 집합이고, 두 번 연속 미분 가능한 함수 \(u: \Omega \to \mathbb{R}\)가 조화 함수(harmonic)라 함은 \(\nabla^2 u = u_{xx} + u_{yy} = 0\)을 만족하는 것이다. Cauchy-Riemann 방정식에 의해, 임의의 해석함수의 실수부와 허수부는 조화 함수이다.
조화 함수의 중요한 성질로 평균값 성질(mean value property)이 있다: \(u\)가 원판 \(\overline{B(z_0, r)} \subseteq \Omega\)에서 조화이면,
$$ u(z_0) = \frac{1}{2\pi}\int_0^{2\pi} u(z_0 + re^{i\theta})\, d\theta. $$
즉 조화 함수의 한 점에서의 값은 그 점을 중심으로 하는 임의의 원 위에서의 평균값과 같다. 여기서 최대값 원리(maximum principle)가 따라온다: 연결 열린 집합에서 비상수인 조화 함수는 내부에서 최대값을 가질 수 없다.
Theorem 9.1a (Maximum Modulus Principle)
\(f\)가 연결 열린 집합 \(\Omega\)에서 해석적이고 비상수이면, \(|f(z)|\)는 \(\Omega\)의 내부에서 극대값을 가질 수 없다. 즉, 모든 \(z_0 \in \Omega\)의 근방에는 \(|f(z)| > |f(z_0)|\)인 점 \(z\)가 존재한다. \(\Omega\)가 유계이고 \(f\)가 \(\overline{\Omega}\)에서 연속이면, \(|f|\)는 경계 \(\partial\Omega\) 위에서 최대값을 달성한다.
Cauchy-Riemann 방정식은 해석함수의 적분에도 흔적을 남긴다. 닫힌 경로를 따르는 적분이 0이라는 것, 이 단 하나의 사실에서 복소해석학 특유의 결과들이 모두 파생된다.
9.2 Cauchy's Integral Theorem and Formula
Cauchy 적분 정리와 그 일반화인 Cauchy 적분 공식은 복소해석학의 중심 결과이다. 해석함수의 무한 미분 가능성, Liouville 정리, 대수학의 기본 정리가 모두 여기서 파생된다.
Theorem 9.2 (Cauchy's Integral Theorem)
\(f\)가 단순 연결 영역 \(\Omega\)에서 해석적이고, \(\gamma\)가 \(\Omega\) 안의 닫힌 조각 매끈 곡선이라 하자. 그러면
$$ \oint_\gamma f(z)\, dz = 0. $$
Cauchy 정리의 직관적 해석: 해석함수의 닫힌 경로 적분이 0이라는 것은, 적분이 경로의 양 끝점에만 의존한다는 뜻이다. 이는 실수 미적분에서 보존적 벡터장의 선적분이 경로에 무관한 것과 유사하며, 실제로 Cauchy-Riemann 방정식은 \((u, -v)\)와 \((v, u)\)가 비회전(curl-free) 벡터장임을 보장한다.
Theorem 9.3 (Cauchy's Integral Formula)
\(f\)가 단순 닫힌 윤곽선 \(\gamma\)(양의 방향) 위와 내부에서 해석적이라 하자. \(\gamma\) 내부의 임의의 \(z_0\)에 대해:
$$ f(z_0) = \frac{1}{2\pi i} \oint_\gamma \frac{f(z)}{z - z_0}\, dz. $$
보다 일반적으로, \(n\)차 도함수는 다음과 같이 주어진다:
$$ f^{(n)}(z_0) = \frac{n!}{2\pi i} \oint_\gamma \frac{f(z)}{(z - z_0)^{n+1}}\, dz. $$
Example 9.2a (Cauchy 적분 공식: 함수값 계산)
\(\oint_{|z|=2} \frac{e^z}{z - 1}\, dz\)를 구하자. 피적분함수에서 \(f(z) = e^z\)는 전체 함수이고, \(z_0 = 1\)은 \(|z|=2\) 내부에 있다. Cauchy 적분 공식에 의해:
$$ \oint_{|z|=2} \frac{e^z}{z - 1}\, dz = 2\pi i \cdot f(1) = 2\pi i \cdot e. $$
Example 9.2b (Cauchy 적분 공식: 고차 도함수)
\(\oint_{|z|=1} \frac{\cos z}{z^4}\, dz\)를 구하자. \(f(z) = \cos z\)로 놓으면 \(n = 3\)에 대한 Cauchy 도함수 공식을 적용한다:
$$ \oint_{|z|=1} \frac{f(z)}{(z - 0)^{3+1}}\, dz = \frac{2\pi i}{3!} f'''(0). $$
\(f'(z) = -\sin z\), \(f''(z) = -\cos z\), \(f'''(z) = \sin z\)이므로 \(f'''(0) = 0\)이다. 따라서:
$$ \oint_{|z|=1} \frac{\cos z}{z^4}\, dz = \frac{2\pi i}{6} \cdot 0 = 0. $$
Example 9.2c (Cauchy 적분 공식: 2차 도함수)
\(\oint_{|z|=2} \frac{e^{2z}}{(z-1)^3}\, dz\)를 구하자. \(f(z) = e^{2z}\)로 놓고 \(n = 2\), \(z_0 = 1\)에 대해 Cauchy 도함수 공식을 적용한다:
$$ \oint_{|z|=2} \frac{e^{2z}}{(z-1)^3}\, dz = \frac{2\pi i}{2!} f''(1). $$
\(f''(z) = 4e^{2z}\)이므로 \(f''(1) = 4e^2\)이다. 따라서:
$$ \oint_{|z|=2} \frac{e^{2z}}{(z-1)^3}\, dz = \frac{2\pi i}{2} \cdot 4e^2 = 4\pi i \, e^2. $$
모든 해석함수는 무한번 미분 가능하고, 국소적으로 수렴하는 멱급수로 표현된다. 실수 경우와 극명하게 대비되는 결과이다.
Theorem 9.4 (Liouville's Theorem)
모든 유계인 전체 함수는 상수이다.
Proof
임의의 \(z_0 \in \mathbb{C}\)와 \(R > 0\)에 대해, 도함수에 대한 Cauchy 적분 공식으로부터 \(|f'(z_0)| \leq \frac{M}{R}\)을 얻는다. 여기서 \(M = \sup_{|z|=R}|f(z)|\)이다. \(f\)가 \(M\)으로 유계이면, \(R \to \infty\)로 보내면 모든 \(z_0\)에 대해 \(f'(z_0) = 0\)이다. 따라서 \(f\)는 상수이다.
Liouville 정리의 직접적인 따름정리: 비상수 전체 함수는 유계일 수 없다. 대수학의 기본 정리를 비롯한 다양한 존재성 결과를 이로부터 증명한다. 또한 이 정리를 일반화하면, 다항식적 증가 조건 \(|f(z)| \leq C(1+|z|^n)\)을 만족하는 전체 함수는 \(n\)차 이하의 다항식이다 (Example 9.2d 참고).
Theorem 9.5 (Fundamental Theorem of Algebra)
복소 계수를 갖는 모든 비상수 다항식 \(p(z)\)는 \(\mathbb{C}\)에서 적어도 하나의 근을 갖는다.
Proof
모든 \(z\)에 대해 \(p(z) \neq 0\)이라 가정하면, \(1/p(z)\)는 전체 함수이다. \(|z| \to \infty\)일 때 \(|p(z)| \to \infty\)이므로, \(1/p\)는 유계이고, Liouville 정리에 의해 상수이다. 이는 모순이다.
Example 9.2d (Cauchy 부등식과 Liouville 정리의 응용)
\(f\)가 전체 함수이고 양의 상수 \(A, B\)와 양의 정수 \(n\)에 대해 \(|f(z)| \leq A + B|z|^n\)을 만족하면, \(f\)는 \(n\)차 이하의 다항식임을 보이자.
\(z_0 = 0\)을 중심으로 하는 반지름 \(R\)의 원에 대해 Cauchy 부등식을 적용하면, \(k > n\)인 \(k\)차 Taylor 계수에 대해:
$$ |a_k| = \left|\frac{f^{(k)}(0)}{k!}\right| \leq \frac{\max_{|z|=R}|f(z)|}{R^k} \leq \frac{A + BR^n}{R^k}. $$
\(k > n\)이면 \(R \to \infty\)일 때 우변이 0으로 수렴하므로 \(a_k = 0\)이다. 따라서 \(f\)는 \(n\)차 이하의 다항식이다.
Cauchy 적분 공식은 해석함수가 "잘 행동하는" 영역에서의 이야기였다. 이제 함수가 정의되지 않는 점 — 특이점 — 주변의 구조를 분석한다. Laurent 급수는 특이점 근방에서 Taylor 급수를 일반화한 것이며, 유수(residue)는 특이점의 정보를 하나의 수로 요약한다.
9.3 Laurent Series and Residues
특이점의 성격은 Laurent 급수 전개가 결정하며, 유수 정리는 닫힌 경로를 따르는 적분을 유한개의 특이점 정보로 환원한다.
특이점 분류의 동치적 특성화를 정리하면 다음과 같다:
- 제거 가능 특이점: \(\lim_{z \to z_0} f(z)\)가 존재 \(\Leftrightarrow\) \(z_0\) 근방에서 \(f\)가 유계 (Riemann의 제거 가능 특이점 정리).
- \(m\)차 극점: \(\lim_{z \to z_0} |f(z)| = \infty\) \(\Leftrightarrow\) \((z-z_0)^m f(z)\)가 \(z_0\)에서 해석적이고 0이 아닌 값을 가짐.
- 본질적 특이점: \(\lim_{z \to z_0} f(z)\)가 존재하지도, \(\infty\)로 발산하지도 않음 \(\Leftrightarrow\) Casorati-Weierstrass 정리에 의해 \(f\)는 \(z_0\)의 임의의 뚫린 근방에서 \(\mathbb{C}\)의 조밀한 부분집합을 값으로 취함.
Taylor 급수가 해석점 주변의 국소적 표현이라면, Laurent 급수는 특이점 주변의 국소적 표현이다. 제어 공학에서 전달함수의 극점을 분석하거나, 신호처리에서 z-변환의 수렴 영역을 결정할 때, Laurent 급수의 주요부(principal part)가 핵심 정보를 담고 있다.
Definition 9.3 (Laurent Series)
\(f\)가 고리 영역 \(r < |z - z_0| < R\)에서 해석적이면, \(f\)는 Laurent 급수 표현을 갖는다:
$$ f(z) = \sum_{n=-\infty}^{\infty} a_n (z - z_0)^n, $$
여기서
$$ a_n = \frac{1}{2\pi i} \oint_\gamma \frac{f(z)}{(z - z_0)^{n+1}}\, dz $$
이고, \(\gamma\)는 고리 영역 내의 양의 방향 원이다. \(\sum_{n=-\infty}^{-1} a_n (z-z_0)^n\)을 주요부(principal part)라 한다.
Example 9.2e (Laurent 급수 전개)
\(f(z) = \frac{1}{z(z-1)}\)을 영역 \(0 < |z| < 1\)에서 Laurent 급수로 전개하자.
부분분수 분해: \(f(z) = \frac{-1}{z} + \frac{1}{z-1}\).
\(|z| < 1\)에서 \(\frac{1}{z-1} = -\frac{1}{1-z} = -\sum_{n=0}^{\infty} z^n\)이므로:
$$ f(z) = -\frac{1}{z} - \sum_{n=0}^{\infty} z^n = -\frac{1}{z} - 1 - z - z^2 - \cdots $$
따라서 \(a_{-1} = -1\)이고 \(\operatorname{Res}(f, 0) = -1\)이다.
한편, 영역 \(|z| > 1\)에서는 \(\frac{1}{z-1} = \frac{1}{z}\cdot\frac{1}{1 - 1/z} = \sum_{n=1}^{\infty} z^{-n}\)이므로 전개가 달라진다. 같은 함수라도 Laurent 전개는 영역에 의존한다.
Definition 9.4 (Isolated Singularities)
\(f\)가 뚫린 원판 \(0 < |z - z_0| < R\)에서 해석적이면, \(z_0\)에서의 특이점은 Laurent 급수에 의해 다음과 같이 분류된다:
- Removable: 모든 \(n < 0\)에 대해 \(a_n = 0\)인 경우 (제거 가능 특이점).
- Pole of order \(m\): \(a_{-m} \neq 0\)이고 \(n < -m\)에 대해 \(a_n = 0\)인 경우 (\(m\)차 극점).
- Essential: \(n < 0\)인 무한히 많은 \(a_n \neq 0\)인 경우 (본질적 특이점).
유수(residue)는 특이점의 정보를 하나의 복소수로 요약한다. 라플라스 역변환에서 각 극점의 기여를 계산할 때, 그리고 나이퀴스트 안정성 판별에서 불안정 극점의 개수를 세는 데 유수가 직접 사용된다.
Definition 9.5 (Residue)
고립 특이점 \(z_0\)에서 \(f\)의 residue(유수)는 Laurent 전개에서의 계수 \(a_{-1}\)이다:
$$ \operatorname{Res}(f, z_0) = a_{-1} = \frac{1}{2\pi i} \oint_\gamma f(z)\, dz, $$
여기서 \(\gamma\)는 \(z_0\) 주위의 작은 양의 방향 원이다.
고립 특이점 \(z_0\)에서의 유수를 구하는 방법은 특이점 유형에 따라 다르다:
- 단순극 (\(m=1\)): \(f(z) = g(z)/h(z)\)이고 \(h(z_0) = 0\), \(h'(z_0) \neq 0\), \(g(z_0) \neq 0\)이면:
$$ \operatorname{Res}(f, z_0) = \frac{g(z_0)}{h'(z_0)}. $$
또는 직접 \(\operatorname{Res}(f, z_0) = \lim_{z \to z_0}(z - z_0)f(z)\).
- \(m\)차 극점:
$$ \operatorname{Res}(f, z_0) = \frac{1}{(m-1)!}\lim_{z \to z_0}\frac{d^{m-1}}{dz^{m-1}}\left[(z-z_0)^m f(z)\right]. $$
- 본질적 특이점: Laurent 급수를 직접 전개하여 \(z^{-1}\) 계수를 읽는다.
Theorem 9.6 (Residue Theorem)
\(f\)가 단순 닫힌 윤곽선 \(\gamma\) 위와 내부에서, 고립 특이점 \(z_1, \ldots, z_k\)를 제외하고 해석적이라 하자. 그러면
$$ \oint_\gamma f(z)\, dz = 2\pi i \sum_{j=1}^k \operatorname{Res}(f, z_j). $$
유수 정리는 닫힌 경로를 따르는 적분을 경로 내부의 유한 개 특이점 정보로 환원한다. 라플라스 역변환 \(f(t) = \frac{1}{2\pi i}\oint F(s)e^{st}\,ds\)에서 각 극점의 유수가 시간 영역 응답의 각 모드(지수 함수, 감쇠 진동 등)에 대응하는 것도 이 때문이다.
Example 9.3a (유수 계산: 단순극)
\(f(z) = \frac{\sin z}{z(z - \pi)}\)에 대해 \(z = \pi\)에서의 유수를 구하자. \(z = \pi\)는 단순극이므로:
$$ \operatorname{Res}(f, \pi) = \lim_{z \to \pi} (z - \pi) \frac{\sin z}{z(z-\pi)} = \frac{\sin \pi}{\pi} = 0. $$
이는 \(\sin z\)가 \(z = \pi\)에서 영점을 가져 특이점이 제거 가능함을 반영한다. 실제로 \(\sin z / (z-\pi) \to -\cos\pi = 1\)이므로 \(\operatorname{Res}(f, \pi) = 0\)이 정확하다.
한편, \(z = 0\)에서는 \(\sin z\)도 영점을 가지므로 분자-분모의 차수를 확인해야 한다. \(\sin z = z - z^3/6 + \cdots\)이므로 \(\frac{\sin z}{z(z-\pi)} = \frac{1 - z^2/6 + \cdots}{z - \pi}\)이고, \(z = 0\)은 제거 가능 특이점이다. 따라서 \(\operatorname{Res}(f, 0) = 0\)이다.
Example 9.3b (유수 계산: 다중극)
\(f(z) = \frac{z+1}{(z-1)^3}\)에 대해 \(z = 1\)에서의 유수를 구하자. \(z = 1\)은 3차 극점이다. \(m\)차 극점에서의 유수 공식:
$$ \operatorname{Res}(f, z_0) = \frac{1}{(m-1)!} \lim_{z \to z_0} \frac{d^{m-1}}{dz^{m-1}} \left[(z-z_0)^m f(z)\right]. $$
여기서 \(m = 3\), \(z_0 = 1\)이므로 \((z-1)^3 f(z) = z + 1\)이고:
$$ \operatorname{Res}(f, 1) = \frac{1}{2!} \lim_{z \to 1} \frac{d^2}{dz^2}(z+1) = \frac{1}{2} \cdot 0 = 0. $$
Example 9.3c (유수 계산: 본질적 특이점)
\(f(z) = e^{1/z}\)에 대해 \(z = 0\)에서의 유수를 구하자. \(z = 0\)은 본질적 특이점이다. Laurent 전개를 직접 구한다:
$$ e^{1/z} = \sum_{n=0}^{\infty} \frac{1}{n! \, z^n} = 1 + \frac{1}{z} + \frac{1}{2! z^2} + \frac{1}{3! z^3} + \cdots $$
\(z^{-1}\)의 계수가 유수이므로:
$$ \operatorname{Res}(e^{1/z}, 0) = 1. $$
따라서 \(\oint_{|z|=1} e^{1/z}\, dz = 2\pi i\)이다.
Example 9.3d (유수 계산: 본질적 특이점의 Laurent 급수)
\(f(z) = z^2 \sin(1/z)\)에 대해 \(z = 0\)에서의 유수를 구하자. \(z = 0\)은 본질적 특이점이다.
\(\sin w = w - w^3/3! + w^5/5! - \cdots\)에서 \(w = 1/z\)로 대입하면:
$$ z^2 \sin(1/z) = z^2 \left(\frac{1}{z} - \frac{1}{3!z^3} + \frac{1}{5!z^5} - \cdots\right) = z - \frac{1}{6z} + \frac{1}{120z^3} - \cdots $$
\(z^{-1}\)의 계수를 읽으면:
$$ \operatorname{Res}(z^2\sin(1/z),\, 0) = -\frac{1}{6}. $$
Example 9.4 (유수 정리 응용: 경로 적분)
\(\oint_{|z|=2} \frac{e^z}{z^2(z-1)}\, dz\)를 구하자. \(|z|=2\) 내부의 특이점은 \(z=0\) (\(2\)차 극점)과 \(z=1\) (단순 극점)이다.
\(z = 1\)에서: \(\operatorname{Res}(f, 1) = \lim_{z \to 1}(z-1) \frac{e^z}{z^2(z-1)} = e\).
\(z = 0\)에서: \(g(z) = e^z/(z-1)\)로 놓으면 \(f(z) = g(z)/z^2\)이고, \(\operatorname{Res}(f, 0) = g'(0) = \frac{e^z(z-1) - e^z}{(z-1)^2}\big|_{z=0} = \frac{-1 - 1}{1} = -2\).
따라서 \(\oint_{|z|=2} f(z)\, dz = 2\pi i(e - 2)\).
유수 정리를 이용한 실수 적분 계산
유수 정리를 실수 축 위의 정적분에 적용할 수 있다. 실수 적분을 복소 경로 적분으로 바꾸어 유수로 계산하는 방식이다. 아래에서 두 가지 전형적인 유형을 본다.
Example 9.5 (삼각함수 유리식의 적분)
\(I = \int_0^{2\pi} \frac{d\theta}{2 + \cos\theta}\)를 구하자. \(z = e^{i\theta}\)로 치환하면 \(\cos\theta = \frac{z + z^{-1}}{2}\), \(d\theta = \frac{dz}{iz}\)이다. 적분은 단위원 \(|z| = 1\) 위의 경로 적분으로 변환된다:
$$ I = \oint_{|z|=1} \frac{1}{2 + \frac{z+z^{-1}}{2}} \cdot \frac{dz}{iz} = \oint_{|z|=1} \frac{2\, dz}{i(z^2 + 4z + 1)}. $$
\(z^2 + 4z + 1 = 0\)의 근은 \(z = -2 \pm \sqrt{3}\)이다. \(|z| < 1\)을 만족하는 근은 \(z_0 = -2 + \sqrt{3}\)뿐이다 (단순극). 유수를 계산하면:
$$ \operatorname{Res}\left(\frac{2}{i(z^2+4z+1)}, z_0\right) = \frac{2}{i \cdot 2z_0 + 4i}\bigg|_{z_0 = -2+\sqrt{3}} = \frac{2}{i \cdot 2\sqrt{3}} = \frac{1}{i\sqrt{3}}. $$
유수 정리에 의해:
$$ I = 2\pi i \cdot \frac{1}{i\sqrt{3}} = \frac{2\pi}{\sqrt{3}}. $$
Example 9.6 (실수 축 위의 이상 적분)
\(I = \int_{-\infty}^{\infty} \frac{dx}{(x^2+1)(x^2+4)}\)를 구하자. 상반 평면의 반원 경로 \(\gamma_R\) (실수 축 \([-R, R]\)과 반원 호의 합)를 취한다. \(R \to \infty\)에서 반원 호 위의 적분은 \(O(1/R^3)\)이므로 0으로 수렴한다.
상반 평면 내의 특이점은 \(z = i\) (단순극)와 \(z = 2i\) (단순극)이다.
\(z = i\)에서:
$$ \operatorname{Res}(f, i) = \frac{1}{(z+i)(z^2+4)}\bigg|_{z=i} = \frac{1}{2i \cdot 3} = \frac{1}{6i}. $$
\(z = 2i\)에서:
$$ \operatorname{Res}(f, 2i) = \frac{1}{(z^2+1)(z+2i)}\bigg|_{z=2i} = \frac{1}{(-3)(4i)} = \frac{-1}{12i}. $$
따라서:
$$ I = 2\pi i \left(\frac{1}{6i} - \frac{1}{12i}\right) = 2\pi i \cdot \frac{1}{12i} = \frac{\pi}{6}. $$
경로 선택의 기준은 피적분함수의 형태에 따라 결정된다:
- \(\int_0^{2\pi} R(\cos\theta, \sin\theta)\, d\theta\) 형: \(z = e^{i\theta}\)로 치환하여 단위원 위의 적분으로 변환.
- \(\int_{-\infty}^{\infty} f(x)\, dx\) 형 (유리함수): 상반 평면(또는 하반 평면)의 큰 반원을 잡고, 호 위 적분이 0으로 감을 보인다 (ML 부등식). 분모의 차수가 분자보다 2 이상 클 때 적용 가능.
- \(\int_{-\infty}^{\infty} f(x)e^{iax}\, dx\) 형 (\(a > 0\)): Jordan 보조정리(Jordan's lemma)를 이용. \(|f(z)| \to 0\) (\(|z| \to \infty\), \(\operatorname{Im}(z) \geq 0\))이면 상반 평면 반원 호의 기여가 0이다.
Theorem 9.6a (Jordan's Lemma)
\(a > 0\)이고 \(f\)가 상반 평면에서 \(|z| \to \infty\)일 때 균등하게 \(0\)으로 수렴하면:
$$ \lim_{R \to \infty} \int_{C_R} f(z) e^{iaz}\, dz = 0, $$
여기서 \(C_R\)은 상반 평면의 반지름 \(R\)인 반원 호이다.
도함수가 0이 아닌 해석함수는 각도를 보존하는 등각사상이 된다. 이를 이용하면 복잡한 영역의 문제를 단순한 영역에서 풀 수 있다.
등각사상의 공학적 핵심은 라플라스 방정식의 해가 등각사상 아래서 보존된다는 점이다. 복잡한 경계 조건의 열전도·정전기 문제를 단순한 영역으로 옮겨 풀 수 있는 이유가 여기 있다. 항공공학에서는 Joukowski 변환으로 원 주위의 유동 해를 날개 단면의 양력 계산에 직접 연결한다.
Definition 9.6 (Conformal Map)
정칙 함수 \(f: \Omega \to \mathbb{C}\)가 \(z_0\)에서 등각(conformal)이라 함은 \(f'(z_0) \neq 0\)인 것이다. 등각사상은 등각인 점에서 곡선 사이의 각도와 방향을 보존한다.
Theorem 9.7 (Riemann Mapping Theorem)
\(\mathbb{C}\)의 모든 단순 연결인 진부분 열린 집합은 열린 단위 원판 \(\mathbb{D}\)과 등각 동치이다. 보다 정확히, 임의의 \(z_0 \in \Omega\)에 대해 \(f(z_0) = 0\)이고 \(f'(z_0) > 0\)인 쌍정칙 사상 \(f: \Omega \to \mathbb{D}\)이 유일하게 존재한다.
Riemann 사상 정리는 존재성을 보장하지만, 구체적인 사상을 구하는 것은 일반적으로 어렵다. 다각형 영역에 대해서는 Schwarz-Christoffel 공식이 사상을 적분 형태로 제공한다. 반평면, 띠, 부채꼴, 쐐기 영역 같은 단순한 영역은 기본 등각사상의 합성으로 사상을 구성할 수 있다. 아래 표가 이를 정리한다.
등각사상은 유체역학, 전자기학, 열전도 등 2차원 라플라스 방정식이 나타나는 물리 문제에서 자주 쓰인다. 기본 전략은 단순하다. 복잡한 영역의 문제를 등각사상으로 원판이나 상반 평면으로 옮기고, 거기서 풀어낸 뒤 역사상으로 원래 영역의 해를 얻는다. 조화 함수는 등각사상 아래서 보존되므로 이 방법이 성립한다.
Definition 9.7 (Mobius Transformation)
Mobius 변환(일차 분수 변환)은 다음 형태의 사상이다:
$$ T(z) = \frac{az + b}{cz + d}, \qquad ad - bc \neq 0, $$
여기서 \(a, b, c, d \in \mathbb{C}\)이다. Mobius 변환은 합성에 대해 군을 이루고, 원과 직선을 원과 직선으로 사상하며, \(\mathbb{C} \cup \{\infty\}\)에서 등각이다.
Example 9.7 (Cayley 변환)
Cayley 변환 \(T(z) = \frac{z - i}{z + i}\)는 상반 평면 \(\operatorname{Im}(z) > 0\)을 단위 원판 \(|w| < 1\)으로 등각 사상하며, \(z = i\)를 \(w = 0\)으로 보낸다. 그 역변환은 \(z = i\frac{1+w}{1-w}\)이다.
Example 9.8 (Joukowski 변환)
Joukowski 변환 \(w = J(z) = z + \frac{1}{z}\)는 항공역학에서 날개 단면(에어포일)의 이론적 모델에 사용된다. 이 사상의 주요 성질을 분석하자.
\(J'(z) = 1 - 1/z^2\)이므로, \(z = \pm 1\)에서 \(J'(z) = 0\)이다. 이 두 점에서 등각 조건이 깨진다 (임계점).
\(|z| = 1\) 위에서 \(z = e^{i\theta}\)를 대입하면:
$$ w = e^{i\theta} + e^{-i\theta} = 2\cos\theta, $$
즉 단위원은 실수 축의 구간 \([-2, 2]\)으로 사상된다.
\(|z| = R > 1\)인 원 위에서 \(z = Re^{i\theta}\)를 대입하면:
$$ w = \left(R + \frac{1}{R}\right)\cos\theta + i\left(R - \frac{1}{R}\right)\sin\theta, $$
이는 장축 \(a = R + 1/R\), 단축 \(b = R - 1/R\)인 타원이다. 따라서 Joukowski 변환은 단위원 외부의 원들을 타원으로 사상한다.
Example 9.9a (Mobius 변환의 고정점과 분류)
Mobius 변환 \(T(z) = \frac{3z - 4}{z - 1}\)의 고정점을 구하고 유형을 분류하자.
고정점 조건 \(T(z) = z\)에서 \(3z - 4 = z(z-1)\), 즉 \(z^2 - 4z + 4 = (z-2)^2 = 0\)이다. 따라서 \(z = 2\)가 유일한 고정점(중근)이다. 고정점이 하나인 Mobius 변환을 포물적(parabolic)이라 한다. 켤레 변환을 통해 \(w = 1/(z-2)\)로 좌표 변환하면, \(T\)는 \(w \mapsto w + c\) (평행이동)의 형태가 된다.
고정점이 두 개인 경우는 고정점에서의 승수(multiplier) \(\lambda = T'(z_{\text{fix}})\)의 값에 따라 쌍곡적(hyperbolic), 타원적(elliptic), 사영적(loxodromic)으로 나뉜다.
Example 9.9b (지수 사상에 의한 띠 영역의 등각 변환)
사상 \(w = e^z\)가 수평 띠 \(S = \{z \in \mathbb{C} : 0 < \operatorname{Im}(z) < \pi\}\)를 상반 평면 \(\{w : \operatorname{Im}(w) > 0\}\)으로 등각 사상함을 보이자.
\(z = x + iy\)로 놓으면 \(w = e^x e^{iy}\)이므로 \(|w| = e^x > 0\)이고 \(\arg(w) = y\)이다. \(0 < y < \pi\)이면 \(0 < \arg(w) < \pi\)이므로 \(w\)는 상반 평면에 놓인다. \(e^z\)는 전체 함수이고 \((e^z)' = e^z \neq 0\)이므로 \(S\) 위에서 등각이다.
경계의 사상을 확인하면: 하변 \(y = 0\) (즉 실수 축)은 \(w = e^x > 0\)으로 양의 실수 축에, 상변 \(y = \pi\)는 \(w = -e^x < 0\)으로 음의 실수 축에 사상된다.
해석적 연속 (Analytic Continuation)
해석적 연속(analytic continuation)은 해석 함수의 정의역을 넓히는 기법이다. 로그함수, 감마함수, 제타함수는 처음에 제한된 영역에서만 정의되지만, 해석적 연속으로 더 넓은 영역으로 뻗어나간다.
Definition 9.8 (Analytic Continuation)
\(\Omega_1, \Omega_2 \subset \mathbb{C}\)가 열린 집합이고 \(\Omega_1 \cap \Omega_2 \neq \emptyset\)라 하자. \(f_1 : \Omega_1 \to \mathbb{C}\)와 \(f_2 : \Omega_2 \to \mathbb{C}\)가 각각 해석적(analytic)이고,
$$ f_1(z) = f_2(z) \quad \text{for all } z \in \Omega_1 \cap \Omega_2 $$
이면, \(f_2\)를 \(f_1\)의 \(\Omega_2\)로의 해석적 연속(analytic continuation)이라 한다. 이때 \(F : \Omega_1 \cup \Omega_2 \to \mathbb{C}\)를
$$ F(z) = \begin{cases} f_1(z), & z \in \Omega_1, \\ f_2(z), & z \in \Omega_2 \end{cases} $$
로 정의하면 \(F\)는 \(\Omega_1 \cup \Omega_2\)에서 해석적이다. 항등 정리(Identity Theorem)에 의해, \(\Omega_1 \cap \Omega_2\)가 연결(connected)이면 이러한 연속은 유일하다.
Example 9.10 (로그 함수의 해석적 연속과 분지점)
주가지(principal branch) \(\operatorname{Log} z = \ln|z| + i\operatorname{Arg} z\)는 \(\mathbb{C} \setminus (-\infty, 0]\)에서 해석적이다. 원점을 중심으로 경로를 따라 연속하면:
음의 실수 축 위쪽(\(\operatorname{Im}(z) > 0\))에서 접근하면 \(\operatorname{Arg} z \to \pi\)이고, 아래쪽(\(\operatorname{Im}(z) < 0\))에서 접근하면 \(\operatorname{Arg} z \to -\pi\)이다.
원점을 한 바퀴 도는 경로 \(\gamma(t) = e^{2\pi i t}\) (\(0 \leq t \leq 1\))를 따라 해석적 연속을 수행하면, 시작값 \(\operatorname{Log}(1) = 0\)이 끝값 \(2\pi i\)로 바뀐다:
$$ \operatorname{Log}(e^{2\pi i}) = 2\pi i \neq 0 = \operatorname{Log}(1). $$
이는 \(\log z\)가 본질적으로 다가 함수(multi-valued function)임을 보여준다. \(z = 0\)은 분지점(branch point)이고, 함수를 단가(single-valued)로 만들기 위해 분지 절단선(branch cut)을 도입한다.
Definition 9.9 (Riemann Surface)
리만 면(Riemann surface)은 다가 함수를 단가 함수로 만들기 위한 기하학적 장치이다. 직관적으로, 함수의 각 가지(branch)에 해당하는 복소 평면의 복사본(sheet)들을 분지 절단선을 따라 접합(glue)하여 만든 곡면이다. 형식적으로는 복소 1차원 연결 해석적 다양체(connected 1-dimensional complex analytic manifold)이다.
Example 9.11 (\(\sqrt{z}\)의 리만 면)
\(w = \sqrt{z}\)는 2가 함수이며, \(z = 0\)이 분지점이다. 리만 면은 두 장(sheet)으로 구성된다:
$$ \text{Sheet 1: } w = |z|^{1/2} e^{i\theta/2}, \qquad \text{Sheet 2: } w = |z|^{1/2} e^{i(\theta + 2\pi)/2} = -|z|^{1/2} e^{i\theta/2}, $$
여기서 \(z = |z|e^{i\theta}\)이다. 분지 절단선(예: \((-\infty, 0]\))을 따라 Sheet 1의 윗면과 Sheet 2의 아랫면을, Sheet 2의 윗면과 Sheet 1의 아랫면을 교차 접합하면, \(\sqrt{z}\)가 이 2중 피복(double cover) 위에서 단가 해석 함수가 된다.
Theorem 9.8 (Monodromy Theorem)
\(\Omega \subset \mathbb{C}\)가 단순 연결(simply connected) 영역이고, \(f\)가 \(z_0 \in \Omega\) 근방에서 해석적이며, \(z_0\)에서 출발하는 \(\Omega\) 내의 모든 경로를 따라 해석적 연속이 가능하다고 하자. 그러면 이 연속은 \(\Omega\) 위에서 단가 해석 함수를 정의한다.
즉, 같은 끝점을 갖는 두 경로를 따른 해석적 연속의 결과가 항상 일치한다.
핵심 아이디어: \(\Omega\)가 단순 연결이므로, 같은 끝점을 갖는 두 경로 \(\gamma_0, \gamma_1\)은 \(\Omega\) 내에서 호모토픽(homotopic)하다. 연속 변형 \(\gamma_t\) (\(0 \leq t \leq 1\))의 각 단계에서 해석적 연속의 유일성(항등 정리)을 적용하면, \(\gamma_0\)을 따른 연속 결과와 \(\gamma_1\)을 따른 연속 결과가 동일함을 보일 수 있다.
Example 9.12 (감마 함수 \(\Gamma(z)\)의 해석적 연속)
감마 함수(Gamma function)는 \(\operatorname{Re}(z) > 0\)에서
$$ \Gamma(z) = \int_0^{\infty} t^{z-1} e^{-t} \, dt $$
로 정의된다. 함수 방정식(functional equation) \(\Gamma(z+1) = z\Gamma(z)\)를 반복 적용하면:
$$ \Gamma(z) = \frac{\Gamma(z+n)}{z(z+1)\cdots(z+n-1)}, $$
이 관계식을 반복 적용하면 \(\Gamma(z)\)를 \(\mathbb{C} \setminus \{0, -1, -2, \ldots\}\) 전체로 해석적 연속할 수 있다.
\(z = -n\) (\(n = 0, 1, 2, \ldots\))에서 \(\Gamma(z)\)는 단순극을 가지며, 유수는
$$ \operatorname{Res}_{z = -n} \Gamma(z) = \frac{(-1)^n}{n!} $$
이다. 이는 \(\Gamma(z+1) = z\Gamma(z)\)에서 \(z = -n\) 근방의 Laurent 전개를 통해 얻어진다.
Example 9.13 (리만 제타 함수 \(\zeta(s)\))
리만 제타 함수(Riemann zeta function)는 \(\operatorname{Re}(s) > 1\)에서
$$ \zeta(s) = \sum_{n=1}^{\infty} \frac{1}{n^s} $$
로 정의되며, 이 급수는 \(\operatorname{Re}(s) > 1\)에서 절대 수렴한다.
\(\zeta(s)\)는 \(\mathbb{C} \setminus \{1\}\) 전체로 해석적 연속되며, \(s = 1\)에서 유수가 1인 단순극을 갖는다. 해석적 연속 후 다음의 함수 방정식이 성립한다:
$$ \zeta(s) = 2^s \pi^{s-1} \sin\!\left(\frac{\pi s}{2}\right) \Gamma(1-s) \, \zeta(1-s). $$
이 방정식은 \(\zeta(s)\)의 \(\operatorname{Re}(s) > 1\)에서의 값과 \(\operatorname{Re}(s) < 0\)에서의 값을 연결한다.
\(\sin(\pi s/2) = 0\), 즉 \(s = -2, -4, -6, \ldots\)에서 \(\zeta(s) = 0\)이 되며, 이들을 자명한 영점(trivial zeros)이라 한다. 리만 가설(Riemann Hypothesis)은 자명하지 않은 영점(non-trivial zeros)이 모두 임계선 \(\operatorname{Re}(s) = \frac{1}{2}\) 위에 놓인다고 추측한다.
주요 등각사상 표
| 사상 \(w = f(z)\) | 정의역 | 치역 |
| \(w = z^2\) | 상반 평면 \(\operatorname{Im}(z) > 0\) | \(\mathbb{C} \setminus [0, \infty)\) (절단 평면) |
| \(w = e^z\) | 수평 띠 \(0 < \operatorname{Im}(z) < \pi\) | 상반 평면 |
| \(w = \frac{z-i}{z+i}\) | 상반 평면 | 단위 원판 \(|w| < 1\) |
| \(w = \frac{z-z_0}{1-\overline{z_0}z}\) | 단위 원판 | 단위 원판 (\(z_0 \mapsto 0\)) |
| \(w = \log z\) | \(\mathbb{C} \setminus (-\infty, 0]\) | 수평 띠 \(-\pi < \operatorname{Im}(w) < \pi\) |
| \(w = z + 1/z\) | \(|z| > 1\), \(\operatorname{Im}(z) > 0\) | 상반 평면 |
| \(w = \sin z\) | 수직 띠 \(-\pi/2 < \operatorname{Re}(z) < \pi/2\) | \(\mathbb{C} \setminus ((-\infty,-1] \cup [1,\infty))\) |
Sources: METU Math349, NPTEL Complex Analysis.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Complex Analysis: A Visual and Interactive Introduction (Ponce Campuzano) — 인터랙티브 무료 교재
- Ahlfors, Complex Analysis — 복소해석학의 고전적 표준 교재
- Stein & Shakarchi, Complex Analysis (Princeton Lectures in Analysis II) — 현대적 접근
- Conway, Functions of One Complex Variable I & II — GTM 시리즈, 체계적 전개
- Needham, Visual Complex Analysis — 기하학적 직관 중심의 독특한 접근
- Lang, Complex Analysis — GTM 103, 간결한 대학원 입문
10. Functional Analysis
선형대수에서 벡터를 다루듯 함수를 벡터처럼 다루면 어떤 일이 벌어지는가? 신호처리에서 \(L^2\) 공간은 에너지가 유한한 신호들의 집합이고, 푸리에 급수 전개는 이 공간에서의 정규직교 기저(orthonormal basis)에 대한 좌표 분해이다. 양자역학에서 상태 벡터가 사는 공간이 Hilbert space이고, 관측 가능량(observable)이 자기수반 작용소(self-adjoint operator)이다. 유한요소법(Finite Element Method, FEM)에서 편미분방정식의 약해(weak solution)가 존재하는지 판정하는 데 Lax-Milgram 정리가 사용된다. 이들의 공통된 수학적 언어가 함수해석학이다.
함수해석학의 기본 질문은 이것이다: 유한차원 선형대수의 결과들 — 고유값 분해, 직교 사영, 역행렬의 존재 — 이 무한차원으로 확장될 때 무엇이 유지되고 무엇이 무너지는가? 무한차원에서는 단위 구(unit ball)가 콤팩트가 아니고, 모든 선형 작용소가 연속인 것도 아니며, 고유값 외에 연속 스펙트럼(continuous spectrum)이 등장한다.
10.1 Normed Spaces and Banach Spaces
함수 공간에서 "두 함수가 얼마나 가까운가?"를 측정하려면 노름(norm)이 필요하다. 신호의 에너지를 \(\|f\|_2 = (\int |f|^2\,dx)^{1/2}\)로, 최대 진폭을 \(\|f\|_\infty = \sup|f|\)로 측정하는 것이 대표적이다. 노름 공간에서 코시 수열이 반드시 수렴하는 완비성(completeness)을 갖추면 Banach space가 되며, 이 완비성은 반복법(iterative method)이나 급수 해의 수렴을 보장하는 데 필수적이다.
Definition 10.1 (Normed Space)
노름 공간(normed space)이란 \(\mathbb{R}\) 또는 \(\mathbb{C}\) 위의 벡터 공간 \(X\)와 다음 조건을 만족하는 함수 \(\|\cdot\|: X \to [0, \infty)\)의 쌍 \((X, \|\cdot\|)\)을 말한다:
- \(\|x\| = 0 \iff x = 0\) (확정성),
- \(\|\alpha x\| = |\alpha|\, \|x\|\) (모든 스칼라 \(\alpha\)에 대해, 동차성),
- \(\|x + y\| \leq \|x\| + \|y\|\) (삼각 부등식).
노름 공간은 \(d(x,y) = \|x - y\|\)로 정의되는 거리를 통해 자연스럽게 거리 공간이 된다.
Definition 10.2 (Banach Space)
완비(모든 코시 수열이 수렴)인 노름 공간을 Banach space(바나흐 공간)라 한다.
Example 10.1
Banach space의 표준적인 예:
- \(\mathbb{R}^n\)에 임의의 \(p\)-노름 \(\|x\|_p = \bigl(\sum |x_i|^p\bigr)^{1/p}\)을 부여한 공간, \(1 \leq p \leq \infty\).
- \(\ell^p\) = \(\sum |x_n|^p < \infty\)를 만족하는 수열 \((x_n)\)의 공간, \(1 \leq p < \infty\).
- \(C([a,b])\), \([a,b]\) 위의 연속함수 공간에 상한 노름 \(\|f\|_\infty = \sup_{x \in [a,b]} |f(x)|\)을 부여한 공간.
- \(L^p([a,b])\), \(1 \leq p \leq \infty\) (거의 어디서나 같은 함수를 동일시한 후).
\(C([a,b])\)에 \(L^1\) 노름을 부여한 공간은 완비가
아니다.
Banach space는 노름만 주어진 완비 공간이다. 여기에 내적 구조를 추가하면 Hilbert space를 얻고, "각도"와 "직교"를 정의할 수 있게 된다.
10.2 Hilbert Spaces
Banach space에 내적이 추가되면 "각도"와 "직교"라는 기하학적 개념을 정의할 수 있다. 신호처리에서 두 신호의 상관(correlation)이 내적으로 표현되고, 직교성이 독립적 주파수 성분의 분리를 의미하는 것은 이 구조 덕분이다.
Definition 10.3 (Inner Product Space, Hilbert Space)
내적 공간(inner product space)이란 \(\mathbb{R}\)(또는 \(\mathbb{C}\)) 위의 벡터 공간 \(H\)에 다음 조건을 만족하는 사상 \(\langle \cdot, \cdot \rangle: H \times H \to \mathbb{R}\)(또는 \(\mathbb{C}\))이 주어진 것이다:
- \(\langle x, x \rangle \geq 0\)이고, 등호 조건은 \(x = 0\)일 때에만 성립,
- \(\langle x, y \rangle = \overline{\langle y, x \rangle}\) (켤레 대칭성),
- 첫째 변수에 대한 선형성.
모든 내적은 노름 \(\|x\| = \sqrt{\langle x, x \rangle}\)을 유도한다. 이 노름에 대해 완비인 내적 공간을
Hilbert space(힐베르트 공간)라 한다.
Theorem 10.1 (Cauchy-Schwarz Inequality)
임의의 내적 공간에서 \(|\langle x, y \rangle| \leq \|x\|\, \|y\|\)이 성립하며, 등호 조건은 \(x\)와 \(y\)가 선형 종속일 때에만 성립한다.
Theorem 10.2 (Projection Theorem)
\(H\)를 Hilbert space, \(M \subseteq H\)를 닫힌 볼록 부분집합이라 하자. 모든 \(x \in H\)에 대해, \(\|x - m_0\| = \inf_{m \in M} \|x - m\|\)을 만족하는 유일한 \(m_0 \in M\)(최적 근사)이 존재한다. \(M\)이 닫힌 부분공간이면, \(m_0\)는 \((x - m_0) \perp M\)을 만족하는 유일한 원소이며,
$$ H = M \oplus M^\perp. $$
Theorem 10.3 (Orthonormal Basis / Parseval's Identity)
\(\{e_n\}_{n=1}^\infty\)를 가분 Hilbert space \(H\)의 정규직교 기저라 하자. 모든 \(x \in H\)는 \(x = \sum_{n=1}^\infty \langle x, e_n \rangle e_n\)으로 전개되며,
$$ \|x\|^2 = \sum_{n=1}^\infty |\langle x, e_n \rangle|^2 \qquad \text{(Parseval's identity)}. $$
Parseval 항등식은 신호의 에너지가 시간 영역과 주파수 영역에서 보존됨을 의미한다. 이것은 Chapter 12에서 다룰 Plancherel 정리의 추상적 일반화이며, 통신 공학에서 전력 스펙트럼 밀도(power spectral density) 분석의 이론적 근거이다.
공간의 구조를 확립했으니, 공간 사이의 사상(map)으로 넘어간다. 유한차원에서 행렬이 선형변환을 나타내듯, 무한차원에서는 유계 선형 작용소가 그 역할을 한다.
10.3 Bounded Linear Operators
유한차원에서는 모든 선형변환이 자동으로 연속이지만, 무한차원에서는 그렇지 않다. "유계"라는 조건이 입력의 작은 변화에 대해 출력도 제한적으로 변한다는 것을 보장하며, 이것이 수치 해석에서 알고리즘의 안정성(stability)과 직결된다.
Definition 10.4 (Bounded Linear Operator)
노름 공간 사이의 선형 사상 \(T: X \to Y\)가 유계(bounded)라 함은, 모든 \(x \in X\)에 대해 \(\|Tx\|_Y \leq C\|x\|_X\)를 만족하는 \(C \geq 0\)이 존재하는 것이다. 작용소 노름(operator norm)은 다음과 같이 정의된다:
$$ \|T\| = \sup_{\|x\| = 1} \|Tx\| = \sup_{x \neq 0} \frac{\|Tx\|}{\|x\|}. $$
노름 공간 사이의 선형 작용소가 유계인 것은 연속인 것과 동치이다.
Definition 10.5 (Dual Space)
노름 공간 \(X\)의 쌍대 공간(dual space) \(X^*\)는 모든 유계 선형 범함수 \(\varphi: X \to \mathbb{R}\)(또는 \(\mathbb{C}\))로 이루어진 Banach space이며, 작용소 노름이 부여된다.
Theorem 10.4 (Hahn-Banach Theorem)
\(X\)를 실수 노름 공간, \(M \subseteq X\)를 부분공간, \(\varphi: M \to \mathbb{R}\)를 bounded linear functional(유계 선형 범함수)이라 하자. 이때 \(\varphi\)를 확장하는 유계 선형 범함수 \(\tilde{\varphi}: X \to \mathbb{R}\)가 존재하여 \(\|\tilde{\varphi}\| = \|\varphi\|\)를 만족한다.
Theorem 10.5 (Banach-Steinhaus / Uniform Boundedness Principle)
\(X\)를 Banach space, \(Y\)를 노름 공간, \(\{T_\alpha\}\)를 유계 작용소의 모임 \(T_\alpha: X \to Y\)이라 하자. 각 \(x \in X\)에 대해 \(\sup_\alpha \|T_\alpha x\| < \infty\)이면, \(\sup_\alpha \|T_\alpha\| < \infty\)이다.
Theorem 10.6 (Open Mapping Theorem)
\(T: X \to Y\)가 Banach space 사이의 전사 유계 작용소이면, \(T\)는 열린 집합을 열린 집합으로 보낸다. 따라서 \(T\)가 단사이기도 하면, \(T^{-1}\)은 유계이다(유계 역사상 정리(bounded inverse theorem)).
Theorem 10.7 (Closed Graph Theorem)
Banach space 사이의 선형 작용소 \(T: X \to Y\)가 유계인 것은, 그 그래프 \(\{(x, Tx) : x \in X\}\)가 \(X \times Y\)에서 닫혀 있는 것과 동치이다.
Hilbert space에서 유계 선형 범함수는 어떤 형태를 가지는가? Riesz 표현 정리는 모든 유계 선형 범함수가 내적으로 표현된다는 것을 보여준다. 이는 Hilbert space가 자기 자신의 쌍대 공간과 동형이라는 뜻이며, 유한차원에서 행벡터와 열벡터의 대응이 무한차원으로 확장된 것이다.
10.4 Riesz Representation Theorem
Theorem 10.8 (Riesz Representation Theorem for Hilbert Spaces)
\(H\)를 Hilbert space라 하자. 모든 유계 선형 범함수 \(\varphi \in H^*\)에 대해, 다음을 만족하는 유일한 \(y \in H\)가 존재한다:
$$ \varphi(x) = \langle x, y \rangle \quad \text{for all } x \in H, $$
또한 \(\|\varphi\| = \|y\|\)이다. 따라서 \(H^* \cong H\)가 등거리적으로(복소수 경우 켤레선형적으로) 성립한다.
Proof
\(\varphi = 0\)이면 \(y = 0\)으로 놓는다. 그렇지 않으면 \(\ker \varphi\)는 닫힌 진부분공간이므로, \((\ker \varphi)^\perp\)에 단위 벡터 \(e\)가 존재한다. \(y = \overline{\varphi(e)}\, e\)로 놓자. 임의의 \(x \in H\)에 대해 \(x = (x - \frac{\varphi(x)}{\varphi(e)} e) + \frac{\varphi(x)}{\varphi(e)} e\)로 쓸 수 있다. 첫째 항은 \(\ker \varphi\)에 속하므로, \(\langle x, y \rangle = \frac{\varphi(x)}{\varphi(e)} \langle e, \overline{\varphi(e)} e \rangle = \varphi(x)\)이다. 유일성은 내적의 확정성으로부터 따른다.
유한차원에서 행렬의 고유값 분해가 선형변환의 구조를 파악하는 데 쓰이듯, 스펙트럼 이론은 이를 무한차원 작용소로 확장한다. 무한차원에서는 고유값 외에 연속 스펙트럼이 등장하며, 이것이 양자역학에서 연속적인 물리량의 관측에 대응된다.
10.5 Spectral Theory Basics
유한차원에서 행렬의 특성 다항식이 0이 되는 값이 고유값이다. 무한차원에서는 고유값이 아니면서도 \(T - \lambda I\)가 가역이 아닌 \(\lambda\)가 존재할 수 있으며, 이를 포함한 전체 집합이 스펙트럼이다. 양자역학에서 수소 원자의 에너지 스펙트럼이 이산 고유값(속박 상태)과 연속 스펙트럼(산란 상태)으로 나뉘는 것이 이 수학적 구분의 물리적 발현이다.
Definition 10.6 (Spectrum)
\(T: X \to X\)를 Banach space \(X\) 위의 유계 작용소라 하자. \(T\)의
스펙트럼(spectrum)은 다음과 같이 정의된다:
$$ \sigma(T) = \{\lambda \in \mathbb{C} : T - \lambda I \text{ is not invertible in } \mathcal{B}(X)\}. $$
스펙트럼은 다음과 같이 분해된다:
- 점 스펙트럼(point spectrum) \(\sigma_p(T)\): \(\lambda\)가 고유값인 경우 (\(T - \lambda I\)가 단사가 아님).
- 연속 스펙트럼(continuous spectrum) \(\sigma_c(T)\): \(T - \lambda I\)가 단사이고, 치역이 조밀하지만 \(X\) 전체가 아닌 경우.
- 잔류 스펙트럼(residual spectrum) \(\sigma_r(T)\): \(T - \lambda I\)가 단사이고, 치역이 조밀하지 않은 경우.
Theorem 10.9 (Properties of the Spectrum)
Banach space 위의 임의의 유계 작용소 \(T\)에 대해:
- \(\sigma(T)\)는 \(\{|\lambda| \leq \|T\|\}\) 안의 공집합이 아닌 컴팩트 부분집합이다.
- 스펙트럼 반지름(spectral radius)은 \(r(T) = \lim_{n\to\infty} \|T^n\|^{1/n} = \inf_n \|T^n\|^{1/n}\)을 만족한다.
Theorem 10.10 (Spectral Theorem for Compact Self-Adjoint Operators)
\(T: H \to H\)를 Hilbert space 위의 컴팩트 자기수반 작용소라 하자. 그러면:
- \(\sigma(T)\)의 모든 0이 아닌 원소는 유한 중복도를 갖는 고유값이다.
- 고유값은 0에서만 집적될 수 있다.
- \(H\)는 \(T\)의 고유벡터로 이루어진 정규직교 기저 \(\{e_n\}\)을 가지며, \(Tx = \sum_n \lambda_n \langle x, e_n \rangle e_n\)이다.
이 정리는 유한차원의 대칭 행렬 대각화를 무한차원으로 확장한 것이다. Sturm-Liouville 경계값 문제에서 고유함수 전개, 구조 역학에서 고유진동수(natural frequency) 분석, 주성분 분석(PCA)에서 공분산 작용소의 고유값 분해가 모두 이 정리의 응용이다.
추상적 정리가 구체적 공간과 작용소에서 어떻게 작동하는지 아래 예제들로 살펴본다.
10.6 Additional Examples
10.6.1. Banach space 예제
Example 10.2 (\(L^p\) 공간의 완비성)
\( 1 \leq p < \infty \)일 때, \( L^p([0,1]) \)이 Banach space임을 보이는 핵심은 Riesz-Fischer 정리이다. 구체적 예로, 함수열 \( f_n(x) = n^{1/p}\, \mathbf{1}_{[0, 1/n]}(x) \)를 생각하자. 각 \( f_n \)에 대해 \( \|f_n\|_p = 1 \)이지만, \( \|f_n\|_q = n^{1/p - 1/q} \)이므로 \( q > p \)이면 \( \|f_n\|_q \to \infty \)이다. 따라서 \( f_n \in L^p \)이지만 \( f_n \notin L^q \) (\( q > p \))이며, 이는 \( p \)의 선택에 따라 공간이 본질적으로 다름을 보여준다.
Minkowski 부등식 \( \|f + g\|_p \leq \|f\|_p + \|g\|_p \)이 삼각 부등식을 제공하고, Hölder 부등식 \( \|fg\|_1 \leq \|f\|_p \|g\|_q \) (\( 1/p + 1/q = 1 \))은 쌍대성 분석의 기초가 된다.
Example 10.3 (\(C[a,b]\)의 완비성과 비완비 노름)
\( C[0,1] \)에 상한 노름 \( \|f\|_\infty = \sup_{x \in [0,1]}|f(x)| \)을 부여하면 Banach space이다. 이를 확인하기 위해, 코시 수열 \( \{f_n\} \)을 생각하면, 각 점에서 \( f_n(x) \to f(x) \)로 균등수렴하며, 균등수렴의 극한은 연속이므로 \( f \in C[0,1] \)이다.
반면, 같은 공간에 \( L^1 \) 노름 \( \|f\|_1 = \int_0^1 |f(x)|\,dx \)를 부여하면 완비가 아니다. 반례: 함수열
$$ f_n(x) = \begin{cases} 0, & 0 \leq x \leq \tfrac{1}{2} - \tfrac{1}{n}, \\ \tfrac{n}{2}(x - \tfrac{1}{2} + \tfrac{1}{n}), & \tfrac{1}{2} - \tfrac{1}{n} < x < \tfrac{1}{2}, \\ 1, & \tfrac{1}{2} \leq x \leq 1, \end{cases} $$
은 \( C[0,1] \)에서 \( L^1 \) 노름에 대한 코시 수열이지만, \( L^1 \) 극한인 계단함수 \( \mathbf{1}_{[1/2, 1]} \)은 연속이 아니므로 \( C[0,1] \)에 속하지 않는다.
10.6.2. Hilbert space의 직교 분해
Example 10.4 (직교 분해의 구체적 계산)
\( H = L^2([0, 2\pi]) \), 부분공간 \( M = \overline{\text{span}}\{1, \cos x, \sin x\} \)로 놓자. 벡터 \( f(x) = x \)의 \( M \)으로의 직교 사영을 구하라.
정규직교 기저 \( e_0 = \frac{1}{\sqrt{2\pi}} \), \( e_1 = \frac{\cos x}{\sqrt{\pi}} \), \( e_2 = \frac{\sin x}{\sqrt{\pi}} \)를 사용하면:
$$ \langle f, e_0 \rangle = \frac{1}{\sqrt{2\pi}}\int_0^{2\pi} x\,dx = \pi\sqrt{2\pi}, $$
$$ \langle f, e_1 \rangle = \frac{1}{\sqrt{\pi}}\int_0^{2\pi} x\cos x\,dx = 0, $$
$$ \langle f, e_2 \rangle = \frac{1}{\sqrt{\pi}}\int_0^{2\pi} x\sin x\,dx = \frac{-2\pi}{\sqrt{\pi}}. $$
따라서 직교 사영은:
$$ P_M f = \langle f, e_0\rangle e_0 + \langle f, e_1\rangle e_1 + \langle f, e_2\rangle e_2 = \pi - 2\sin x. $$
나머지 \( f - P_M f = x - \pi + 2\sin x \)는 \( M^\perp \)에 속한다. 이것은 \( H = M \oplus M^\perp \) (Theorem 10.2)의 구체적 실현이다.
Example 10.5 (Fourier 급수를 통한 직교 분해)
\( H = L^2([-\pi, \pi]) \)에서 정규직교 기저 \( \{e^{inx}/\sqrt{2\pi}\}_{n \in \mathbb{Z}} \)를 생각하자. 함수 \( f(x) = |x| \)에 대해 Parseval 항등식을 적용한다.
Fourier 계수를 계산하면 \( c_0 = \pi/2 \), \( c_n = \frac{(-1)^n - 1}{\pi n^2} \) (\( n \neq 0 \))이다. Parseval 항등식 \( \|f\|^2 = \sum |c_n|^2 \)로부터:
$$ \int_{-\pi}^{\pi} x^2\,dx = \frac{2\pi^3}{3} = 2\pi\left[\frac{\pi^2}{4} + \frac{2}{\pi^2}\sum_{k=0}^{\infty}\frac{4}{(2k+1)^4}\right]. $$
정리하면 \( \sum_{k=0}^{\infty} \frac{1}{(2k+1)^4} = \frac{\pi^4}{96} \)을 얻고, 이로부터 \( \zeta(4) = \frac{\pi^4}{90} \)을 유도할 수 있다.
10.6.3. Riesz 표현 정리의 활용
Example 10.6 (Riesz 표현 정리를 통한 범함수 식별)
\( H = L^2([0,1]) \)에서 유계 선형 범함수 \( \varphi(f) = \int_0^1 (3x^2 + 1)\, f(x)\,dx \)를 생각하자.
Riesz 표현 정리 (Theorem 10.8)를 적용하면, \( \varphi(f) = \langle f, y \rangle \)를 만족하는 유일한 \( y \in H \)가 존재한다. \( L^2 \)의 내적이 \( \langle f, y \rangle = \int_0^1 f(x)\overline{y(x)}\,dx \)이므로 (실수 공간이므로 켤레는 생략), 직접 비교하면:
$$ y(x) = 3x^2 + 1. $$
범함수의 노름은 \( \|\varphi\| = \|y\|_{L^2} = \left(\int_0^1 (3x^2+1)^2\,dx\right)^{1/2} = \left(\frac{9}{5} + 2 + 1\right)^{1/2} = \sqrt{\frac{24}{5}} \)이다.
Example 10.7 (Lax-Milgram 정리)
Riesz 표현 정리의 중요한 확장인 Lax-Milgram 정리는 비대칭 쌍선형 형식까지 다룬다. Hilbert space \( H \) 위의 쌍선형 형식 \( a: H \times H \to \mathbb{R} \)가 연속이고 강제적(coercive)이면, 즉
$$ |a(u,v)| \leq M\|u\|\|v\|, \qquad a(u,u) \geq \gamma\|u\|^2, \qquad \gamma > 0, $$
이면, 모든 \( F \in H^* \)에 대해 \( a(u,v) = F(v) \) (\( \forall v \in H \))를 만족하는 유일한 \( u \in H \)가 존재한다.
적용 예: Sobolev 공간 \( H = H_0^1(0,1) \)에서 \( a(u,v) = \int_0^1 u'v'\,dx \), \( F(v) = \int_0^1 f v\,dx \)로 놓으면, Lax-Milgram 정리로부터 \( -u'' = f \), \( u(0) = u(1) = 0 \)의 약해(weak solution)가 유일하게 존재한다.
10.6.4. 콤팩트 작용소
콤팩트 작용소는 무한차원에서 유한차원 작용소의 "좋은 성질"을 가장 많이 보존하는 클래스이다. 적분 방정식(integral equation)의 핵(kernel)으로 정의되는 작용소가 대표적이며, FEM에서 Green 함수를 통한 해 표현과 직결된다.
Definition 10.7 (Compact Operator)
노름 공간 사이의 선형 작용소 \( T: X \to Y \)가 콤팩트(compact)라 함은, \( X \)의 모든 유계 수열 \( \{x_n\} \)에 대해 \( \{Tx_n\} \)이 \( Y \)에서 수렴하는 부분수열을 가지는 것이다. 동치 조건으로, \( T \)가 유계 집합을 상대적 콤팩트 집합으로 사상하는 것이다.
Example 10.8 (적분 작용소의 콤팩트성)
\( K \in C([0,1] \times [0,1]) \)에 대해, 적분 작용소 \( T: L^2([0,1]) \to L^2([0,1]) \)를
$$ (Tf)(x) = \int_0^1 K(x,\xi)\, f(\xi)\, d\xi $$
로 정의하면, \( T \)는 콤팩트 작용소이다.
구체적 예로, \( K(x,\xi) = \min(x, \xi) \)을 취하자. 이 핵은 \( [0,1] \)에서 Dirichlet 경계 조건을 갖는 \( -u'' = f \)의 Green 함수이다. \( T \)는 자기수반이고 콤팩트이며, 고유값 문제 \( Tf = \lambda f \)는 \( -f'' = (1/\lambda)f \), \( f(0) = f(1) = 0 \)과 동치이다. 따라서:
$$ \lambda_n = \frac{1}{n^2\pi^2}, \qquad f_n(x) = \sqrt{2}\sin(n\pi x), \qquad n = 1, 2, 3, \ldots $$
고유값이 0으로 수렴하며 (\( \lambda_n \to 0 \)), 이는 Theorem 10.10의 결론과 일치한다.
Example 10.9 (Volterra 적분 작용소)
\( L^2([0,1]) \) 위의 Volterra 적분 작용소를
$$ (Vf)(x) = \int_0^x f(\xi)\, d\xi $$
로 정의한다. \( V \)는 콤팩트 작용소이다 (Arzelà-Ascoli 정리로 증명 가능). 그러나 \( V \)는 자기수반이 아니다: \( V^* \)를 계산하면
$$ (V^*g)(x) = \int_x^1 g(\xi)\, d\xi $$
이므로 \( V \neq V^* \)이다.
\( V \)의 스펙트럼은 \( \sigma(V) = \{0\} \)이다. \( Vf = \lambda f \)를 풀면 \( f(x) = Ce^{x/\lambda} \)인데, \( f(0) = 0 \) 조건에 의해 \( C = 0 \)이 되어 고유값이 존재하지 않는다. 따라서 \( \sigma(V) = \sigma_c(V) = \{0\} \)으로, 스펙트럼이 연속 스펙트럼으로만 구성된 콤팩트 작용소의 예이다.
Example 10.10 (유한 랭크 작용소에 의한 근사)
콤팩트 작용소는 유한 랭크 작용소의 작용소 노름 극한이다. Example 10.8의 적분 작용소 \( T \)에 대해, 유한 랭크 근사를:
$$ T_N f = \sum_{n=1}^{N} \lambda_n \langle f, f_n \rangle f_n = \sum_{n=1}^{N} \frac{1}{n^2\pi^2} \langle f, f_n \rangle f_n $$
으로 정의하면, \( \|T - T_N\| = \lambda_{N+1} = \frac{1}{(N+1)^2\pi^2} \to 0 \)이다. \( N = 3 \)이면 \( \|T - T_3\| = \frac{1}{16\pi^2} \approx 0.0063 \)이므로, 불과 3개의 항으로 상당히 정밀한 근사를 달성한다. 이는 수치 해석에서 저랭크 근사법의 이론적 기반이 된다.
10.6.5. 추가 예제
Example 10.11 (\(\ell^2\)에서의 대각 작용소)
수열 공간 \( \ell^2 \)에서 작용소 \( T: \ell^2 \to \ell^2 \)를 \( T(x_1, x_2, x_3, \ldots) = (x_1, x_2/2, x_3/3, \ldots) \)으로 정의하자. 즉 \( Te_n = \frac{1}{n}e_n \)이다.
\( T \)는 자기수반 작용소이고, 고유값은 \( \lambda_n = 1/n \)이다. \( \lambda_n \to 0 \)이므로 \( T \)는 콤팩트이다. 작용소 노름은 \( \|T\| = \sup_n |1/n| = 1 \)이다. 스펙트럼은 \( \sigma(T) = \{1/n : n \geq 1\} \cup \{0\} \)이며, 0은 고유값이 아니라 집적점으로서 스펙트럼에 포함된다 (스펙트럼은 닫힌 집합이므로).
Example 10.12 (오른쪽 이동 작용소)
\( \ell^2 \)에서 오른쪽 이동 작용소 \( S(x_1, x_2, x_3, \ldots) = (0, x_1, x_2, \ldots) \)를 생각하자. \( S \)는 등거리 사상(isometry)이므로 \( \|S\| = 1 \)이다. \( S \)는 단사이지만 전사가 아니다.
\( S \)의 수반 작용소는 왼쪽 이동 \( S^*(x_1, x_2, x_3, \ldots) = (x_2, x_3, x_4, \ldots) \)이다. 스펙트럼 분석:
- \( S \)에는 고유값이 없다: \( Sx = \lambda x \)이면 \( x_1 = 0 \), \( x_n = \lambda x_{n+1} \)에서 \( x = 0 \).
- \( S^* \)의 고유값은 단위 원판 내부의 모든 \( |\lambda| < 1 \)이다: \( x = (1, \lambda, \lambda^2, \ldots) \in \ell^2 \).
- \( \sigma(S) = \{|\lambda| \leq 1\} \) (단위 원판 전체).
\( S \)는 콤팩트가 아니다 (등거리이므로 단위 구의 상이 부분수렴열을 갖지 않음).
Example 10.13 (약수렴과 강수렴의 차이)
Hilbert space \( \ell^2 \)에서 정규직교 기저 \( \{e_n\} \)을 생각하자. 수열 \( \{e_n\} \)은 약수렴(weak convergence)의 의미에서 0으로 수렴한다:
$$ \langle e_n, y \rangle = y_n \to 0 \quad \text{for all } y \in \ell^2, $$
이는 \( \sum |y_n|^2 < \infty \)이면 \( y_n \to 0 \)이기 때문이다. 그러나 \( \|e_n\| = 1 \)이므로 노름(강)수렴은 성립하지 않는다.
무한 차원 공간의 본질적 특성이 여기에 있다: 단위 구가 콤팩트가 아니며, 약수렴과 강수렴이 일치하지 않는다. Banach-Alaoglu 정리는 단위 구가 약*-위상에서 콤팩트임을 보장한다.
Example 10.14 (Fredholm 대안 정리의 적용)
콤팩트 작용소 \( T: H \to H \)에 대해, 방정식 \( (I - T)x = y \)를 생각하자. Fredholm 대안 정리에 의하면:
- 1이 \( T \)의 고유값이 아니면, \( (I-T)^{-1} \)가 유계 작용소로 존재하여 모든 \( y \)에 대해 유일한 해가 존재한다.
- 1이 \( T \)의 고유값이면, \( (I-T)x = y \)는 \( y \perp \ker(I - T^*) \)인 경우에만 해를 가진다.
Example 10.8의 적분 작용소에 적용하면, \( \lambda_n = 1/(n^2\pi^2) \)이므로 1은 고유값이 아니다. 따라서 Fredholm 적분 방정식
$$ f(x) - \int_0^1 \min(x,\xi)\, f(\xi)\, d\xi = g(x) $$
는 모든 \( g \in L^2([0,1]) \)에 대해 유일한 해를 가진다.
Sources: MIT 18.102 (Introduction to Functional Analysis), NPTEL Functional Analysis.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Applied Analysis (Hunter & Nachtergaele, UC Davis) — 무료 교재
- Kreyszig, Introductory Functional Analysis with Applications — 가장 접근성 높은 입문서
- Rudin, Functional Analysis — "Big Rudin", 대학원 표준 교재
- Conway, A Course in Functional Analysis — GTM 96, 명쾌한 서술
- Brezis, Functional Analysis, Sobolev Spaces and Partial Differential Equations — PDE 연결
- Reed & Simon, Methods of Modern Mathematical Physics I: Functional Analysis — 물리 응용
11. Measure Theory
리만 적분(Riemann integral)은 공학 수학의 기본 도구이지만, 본질적인 한계가 있다. 극한과 적분의 교환이 자유롭지 않고, 디리클레 함수(Dirichlet function)처럼 "병리적인" 함수를 적분할 수 없다. 확률론을 엄밀하게 세우려면 "사건의 확률"을 체계적으로 정의해야 하는데, 이 역시 리만 적분만으로는 불가능하다. 확률 = 측도(measure)라는 통찰이 현대 확률론의 출발점이며, 이를 위한 수학적 장치가 측도론이다.
공학에서의 사용례를 보면, 신호의 에너지 \(\int |f(t)|^2\,dt\)와 전력 \(\lim_{T\to\infty}\frac{1}{2T}\int_{-T}^{T}|f(t)|^2\,dt\)은 르베그 적분(Lebesgue integral)으로 정의되며, 정보이론에서 섀넌 엔트로피(Shannon entropy)의 연속 확장인 미분 엔트로피(differential entropy)는 확률 밀도 함수의 르베그 적분으로 엄밀히 정의된다. 이미지 처리에서 잡음 모델이 확률 공간(probability space) 위에서 정식화되고, 베이즈 추론(Bayesian inference)에서 사전/사후 분포의 관계가 측도의 절대 연속성(absolute continuity)과 라돈-니코딤 도함수(Radon-Nikodym derivative)로 기술된다.
측도론(Measure Theory)은 길이, 넓이, 부피, 확률 등 "크기"의 개념을 일반적인 체계로 확장한다. 이 체계 위에 구축된 Lebesgue integral(르베그 적분)은 리만 적분보다 훨씬 유연하게 적분과 극한의 교환을 다룰 수 있으며, 현대 해석학, 확률론, 응용 수학의 표준이다.
11.1 Sigma-Algebras and Measures
측도를 정의하기 전에, "어떤 집합들에 대해 크기를 잴 수 있는가?"를 먼저 정해야 한다. 직관적으로는 모든 부분집합에 대해 크기를 정의하고 싶지만, Vitali 구성이 보여주듯 이는 불가능하다. 시그마 대수(sigma-algebra)는 여집합과 가산 합집합에 대해 닫혀 있는 "잴 수 있는 집합들의 모임"을 규정하며, 확률론에서는 이것이 관측 가능한 사건(event)들의 모임에 해당한다.
Definition 11.1 (Sigma-Algebra)
집합 \(\Omega\)의 부분집합들의 모임 \(\mathcal{F}\)가
sigma-algebra(시그마 대수)가 되려면 다음 조건을 만족해야 한다:
- \(\Omega \in \mathcal{F}\),
- \(A \in \mathcal{F} \implies A^c \in \mathcal{F}\) (여집합에 대해 닫혀 있음),
- \(A_1, A_2, \ldots \in \mathcal{F} \implies \bigcup_{n=1}^\infty A_n \in \mathcal{F}\) (가산 합집합에 대해 닫혀 있음).
쌍 \((\Omega, \mathcal{F})\)을
가측 공간(measurable space)이라 한다.
Definition 11.2 (Borel Sigma-Algebra)
보렐 sigma-algebra(시그마 대수) \(\mathcal{B}(\mathbb{R})\)는 \(\mathbb{R}\) 위의 모든 열린 집합을 포함하는 가장 작은 sigma-algebra(시그마 대수)이다. 동치적으로, 열린 구간들 또는 반직선 \((-\infty, a]\)에 의해 생성된다.
시그마 대수 위에 "크기"를 부여하는 것이 측도이다. 가산 가법성(countable additivity)은 중심 공리로, 서로소인 사건들의 확률의 합이 합사건의 확률과 같다는 확률 공리와 정확히 대응한다.
Definition 11.3 (Measure)
가측 공간 \((\Omega, \mathcal{F})\) 위의
측도(measure)란 다음 조건을 만족하는 함수 \(\mu: \mathcal{F} \to [0, \infty]\)이다:
- \(\mu(\emptyset) = 0\),
- 가산 가법성(countable additivity): \(A_1, A_2, \ldots \in \mathcal{F}\)가 쌍마다 서로소이면, \(\mu\bigl(\bigcup_{n=1}^\infty A_n\bigr) = \sum_{n=1}^\infty \mu(A_n)\).
삼중쌍 \((\Omega, \mathcal{F}, \mu)\)을
측도 공간(measure space)이라 한다. \(\mu(\Omega) = 1\)이면
확률 공간(probability space)이라 한다.
Theorem 11.1 (Properties of Measures)
\((\Omega, \mathcal{F}, \mu)\)를 측도 공간이라 하자. 그러면:
- 단조성: \(A \subseteq B \implies \mu(A) \leq \mu(B)\).
- 아래로부터의 연속성: \(A_1 \subseteq A_2 \subseteq \cdots \implies \mu(\bigcup A_n) = \lim \mu(A_n)\).
- 위로부터의 연속성: \(A_1 \supseteq A_2 \supseteq \cdots\)이고 \(\mu(A_1) < \infty\)이면 \(\mu(\bigcap A_n) = \lim \mu(A_n)\).
- 가산 열가법성: \(\mu(\bigcup_{n=1}^\infty A_n) \leq \sum_{n=1}^\infty \mu(A_n)\).
추상적 측도의 틀을 세웠으니, 이제 가장 중요한 구체적 측도인 Lebesgue 측도를 구성하고, 그 위에서 적분을 정의한다. Lebesgue 적분은 Riemann 적분과 달리 치역을 분할하여 적분을 구성하며, 이 접근이 훨씬 넓은 클래스의 함수를 적분 가능하게 만든다.
11.2 Lebesgue Measure and the Lebesgue Integral
Definition 11.4 (Lebesgue Outer Measure)
\(A \subseteq \mathbb{R}\)의 르베그 외측도(Lebesgue outer measure)는 다음과 같이 정의된다:
$$ m^*(A) = \inf\left\{ \sum_{n=1}^\infty (b_n - a_n) : A \subseteq \bigcup_{n=1}^\infty (a_n, b_n) \right\}. $$
집합 \(A\)가 르베그 가측(Lebesgue measurable)이라 함은, 모든 \(E \subseteq \mathbb{R}\)에 대해 다음이 성립하는 것이다:
$$ m^*(E) = m^*(E \cap A) + m^*(E \cap A^c) \qquad \text{(Caratheodory criterion)}. $$
가측 집합으로의 \(m^*\)의 제한이 르베그 측도(Lebesgue measure) \(m\)을 준다.
Example 11.1 (Lebesgue 측도 구성 예제)
Lebesgue 측도가 구체적으로 어떤 값을 주는지 몇 가지 집합에 대해 확인하자.
(a) 구간의 측도. 열린 구간 \((a,b)\)에 대해 \(m((a,b)) = b - a\)이다. 닫힌 구간 \([a,b]\)에 대해서도 \(m([a,b]) = b - a\)이다. 이는 한 점 집합 \(\{a\}\)의 측도가 0이므로 \(m([a,b]) = m((a,b)) + m(\{a\}) + m(\{b\}) = (b-a) + 0 + 0\)이기 때문이다.
(b) 가산 집합의 측도. 유리수 집합 \(\mathbb{Q}\)를 \(\{q_1, q_2, q_3, \ldots\}\)로 나열하자. 임의의 \(\varepsilon > 0\)에 대해, \(q_n\)을 길이 \(\varepsilon / 2^n\)인 구간 \((q_n - \varepsilon/2^{n+1}, q_n + \varepsilon/2^{n+1})\)으로 덮으면 전체 덮개의 길이 합은 \(\sum_{n=1}^\infty \varepsilon/2^n = \varepsilon\)이다. \(\varepsilon\)이 임의이므로 \(m(\mathbb{Q}) = 0\)이다. 일반적으로, 모든 가산 집합의 Lebesgue 측도는 0이다.
(c) 칸토어 집합. 칸토어 집합 \(C\)는 \([0,1]\)에서 반복적으로 각 구간의 가운데 1/3을 제거하여 구성한다. \(n\)번째 단계에서 제거되는 구간들의 총 길이는 \((1/3)(2/3)^{n-1}\)이므로, 제거된 전체 길이는
$$ \sum_{n=0}^\infty \frac{2^n}{3^{n+1}} = \frac{1/3}{1 - 2/3} = 1 $$
이다. 따라서 \(m(C) = 1 - 1 = 0\)이다. 그런데 \(C\)는 비가산 집합이다(3진 전개로 보면 \(C\)는 \([0,1]\)과 대등하다). 이는 "비가산이지만 측도가 0"인 집합이 존재함을 보여준다.
적분을 정의하려면 먼저 "적분할 수 있는 함수"의 클래스를 정해야 한다. 가측 함수(measurable function)는 함수값이 특정 범위에 속하는 정의역의 부분집합이 항상 가측인 함수를 말하며, 이는 확률론에서 확률변수(random variable)의 정의와 동일하다.
Definition 11.5 (Measurable Function)
함수 \(f: (\Omega, \mathcal{F}) \to (\mathbb{R}, \mathcal{B}(\mathbb{R}))\)가 가측(measurable)이라 함은, 모든 보렐 집합 \(B\)에 대해 \(f^{-1}(B) \in \mathcal{F}\)인 것이며, 이는 모든 \(a \in \mathbb{R}\)에 대해 \(\{f > a\} \in \mathcal{F}\)인 것과 동치이다.
리만 적분은 정의역을 분할하고 각 구간에서 함수값의 범위를 보지만, 르베그 적분은 치역을 분할하고 각 값에 대응하는 정의역의 크기(측도)를 본다. 이 관점 전환 덕분에 훨씬 넓은 함수 클래스를 적분할 수 있다.
Definition 11.6 (Lebesgue Integral)
Lebesgue integral(르베그 적분)은 다음 단계를 거쳐 구성된다:
- 단순 함수. \(c_i \geq 0\)이고 \(A_i\)가 가측인 \(\varphi = \sum_{i=1}^n c_i \mathbf{1}_{A_i}\)에 대해, \(\int \varphi\, d\mu = \sum c_i \mu(A_i)\)로 정의한다.
- 비음 가측 함수. \(\int f\, d\mu = \sup\{\int \varphi\, d\mu : 0 \leq \varphi \leq f,\; \varphi \text{ simple}\}\).
- 일반 가측 함수. \(f^+ = \max(f,0)\), \(f^- = \max(-f,0)\)으로 놓고 \(f = f^+ - f^-\)로 쓴다. 적어도 한쪽이 유한이면 \(\int f\, d\mu = \int f^+\, d\mu - \int f^-\, d\mu\)로 정의한다. 양쪽 모두 유한이면, \(f\)는 르베그 적분 가능(\(f \in L^1\))하다.
Example 11.2
디리클레 함수 \(\mathbf{1}_\mathbb{Q}\)는 가측이며(\(\mathbb{Q}\)가 보렐 집합이므로), \(\int_{[0,1]} \mathbf{1}_\mathbb{Q}\, dm = m(\mathbb{Q} \cap [0,1]) = 0\)이다. 유리수 집합의 측도가 0이기 때문이다. 리만 적분으로는 처리할 수 없는 이 함수를 Lebesgue integral(르베그 적분)은 다룰 수 있다.
Example 11.2a (Lebesgue 적분 구성의 단계별 예)
단순 함수에서 시작하여 Lebesgue 적분이 구성되는 과정을 구체적으로 추적하자. \(f(x) = x\)의 \([0,1]\) 위에서의 적분을 단순 함수 근사로 계산한다.
단순 함수 근사. \(n\)을 고정하고 \([0,1]\)을 \(n\)등분하자. \(A_k = [(k-1)/n, \; k/n)\) (\(k = 1, \ldots, n\))으로 놓으면, 아래 근사 단순 함수는
$$
\varphi_n(x) = \sum_{k=1}^n \frac{k-1}{n} \mathbf{1}_{A_k}(x)
$$
이고, \(\varphi_n \leq f\)이며 \(\varphi_n \nearrow f\)이다. 적분을 계산하면:
$$
\int_{[0,1]} \varphi_n\, dm = \sum_{k=1}^n \frac{k-1}{n} \cdot \frac{1}{n} = \frac{1}{n^2}\sum_{k=0}^{n-1} k = \frac{(n-1)n}{2n^2} = \frac{n-1}{2n}.
$$
정의에 의해 \(\int_{[0,1]} f\, dm = \sup_n \int \varphi_n\, dm = \lim_{n\to\infty} \frac{n-1}{2n} = \frac{1}{2}\)이다. 리만 적분과 같은 값이지만, 근사 방식이 근본적으로 다르다: 리만 적분은 정의역을 분할하고 각 구간에서 함수값의 범위를 보는 반면, Lebesgue 적분은 치역을 분할하고 각 값에 대응하는 정의역의 "크기"(측도)를 본다.
Lebesgue 적분을 구성한 진짜 이유가 여기에 있다. 수렴 정리들은 "언제 극한과 적분을 교환할 수 있는가?"라는 해석학의 핵심 질문에 답한다. Riemann 적분에서는 균등 수렴이라는 강한 조건이 필요했지만, Lebesgue 적분에서는 훨씬 약한 조건으로 교환이 가능하다.
11.3 Convergence Theorems
Lebesgue integral(르베그 적분)의 강점은 수렴 정리에 있다. 약한 조건만으로 극한과 적분을 교환할 수 있다.
Theorem 11.2 (Monotone Convergence Theorem, MCT)
\(f_n: \Omega \to [0, \infty]\)가 가측이고 \(f_1 \leq f_2 \leq \cdots\) (거의 어디서나)이면,
$$ \int \lim_{n\to\infty} f_n\, d\mu = \lim_{n\to\infty} \int f_n\, d\mu. $$
단조 수렴 정리는 비음이고 증가하는 함수열에 대해 극한과 적분의 교환을 무조건 보장한다. 이 정리가 급수의 항별 적분(term-by-term integration)을 정당화하며, 신호 에너지의 주파수 성분별 분해에서 급수와 적분의 순서를 바꿀 수 있는 것도 MCT 덕분이다.
Theorem 11.3 (Fatou's Lemma)
\(f_n \geq 0\)이 가측이면,
$$ \int \liminf_{n\to\infty} f_n\, d\mu \leq \liminf_{n\to\infty} \int f_n\, d\mu. $$
Theorem 11.4 (Dominated Convergence Theorem, DCT)
\(f_n\)이 가측이고 거의 어디서나 \(f_n \to f\)라 하자. 모든 \(n\)에 대해 거의 어디서나 \(|f_n| \leq g\)를 만족하는 적분 가능 함수 \(g\)가 존재하면, \(f\)는 적분 가능하고
$$ \lim_{n\to\infty} \int f_n\, d\mu = \int f\, d\mu. $$
또한, \(\int |f_n - f|\, d\mu \to 0\)이다.
지배 수렴 정리(DCT)는 부호가 바뀌는 함수열에 대해서도 적분 가능한 우함수(dominating function)가 있으면 극한과 적분을 교환할 수 있다. 매개변수 적분의 미분, 적률 생성 함수(moment generating function)의 미분, 최적화에서 목적함수의 기울기와 적분의 교환 등이 모두 DCT에 의존한다.
Example 11.3
\([0, \infty)\) 위에서 \(f_n(x) = n x e^{-nx^2}\)을 생각하자. 직접 계산하면 모든 \(n\)에 대해 \(\int_0^\infty f_n\, dx = \frac{1}{2}\)이지만, 각 \(x > 0\)에서 \(f_n(x) \to 0\)이다. 적분 가능한 우함수(dominator)가 존재하지 않아 DCT가 적용되지 않으므로, 극한과 적분을 교환할 수 없다: \(\int \lim f_n = 0 \neq \frac{1}{2} = \lim \int f_n\). 이는 우세 조건의 필요성을 보여준다.
Example 11.4 (MCT 활용: 급수와 적분의 교환)
MCT를 사용하여 다음 급수의 적분을 계산하자:
$$ \int_0^1 \sum_{n=1}^\infty x^n \, dx. $$
\(f_N(x) = \sum_{n=1}^N x^n\)으로 놓으면, \(0 \leq x \leq 1\)에서 \(f_1 \leq f_2 \leq \cdots\)이고 각 \(f_N\)은 비음 가측 함수이다. MCT에 의해 적분과 급수의 순서를 교환할 수 있다:
$$
\int_0^1 \sum_{n=1}^\infty x^n\, dx = \sum_{n=1}^\infty \int_0^1 x^n\, dx = \sum_{n=1}^\infty \frac{1}{n+1}.
$$
이 값은 \(\sum_{n=2}^\infty 1/n = +\infty\)이다. 실제로 \(\sum_{n=1}^\infty x^n = x/(1-x)\)이므로 \(\int_0^1 x/(1-x)\, dx = +\infty\)와 일치한다.
MCT가 적용되는 핵심 조건을 정리하면: (i) \(f_n \geq 0\), (ii) \(f_n\)이 단조증가, (iii) 각 \(f_n\)이 가측. 이 세 조건만 충족되면 극한이 무한일 때조차 등호가 성립한다. MCT는 DCT나 Fatou 보조정리의 증명에도 사용된다.
Example 11.4a (DCT 활용: 매개변수에 대한 극한)
\(f_n(x) = n(1 + n^2 x^2)^{-1}\)에 대해 \(\lim_{n \to \infty} \int_0^1 f_n(x)\, dx\)를 구하자.
점별 극한. 고정된 \(x > 0\)에 대해 \(f_n(x) = n/(1 + n^2 x^2) \to 0\) (\(n \to \infty\))이다. \(x = 0\)에서 \(f_n(0) = n \to \infty\)이지만, 한 점 집합 \(\{0\}\)의 측도는 0이므로 거의 어디서나(a.e.) \(f_n \to 0\)이다.
우함수 찾기. \(f_n(x) = n/(1 + n^2 x^2)\)를 \(n\)에 대해 최대화하면, \(\partial f_n / \partial n = (1 - n^2 x^2)/(1 + n^2 x^2)^2\)에서 최대는 \(n = 1/x\)일 때 달성되고, 최댓값은 \(1/(2x)\)이다. 따라서 모든 \(n\)에 대해 \(|f_n(x)| \leq 1/(2x)\)이다. 그런데 \(\int_0^1 1/(2x)\, dx = +\infty\)이므로 이 bound는 적분 가능하지 않다.
올바른 접근. 직접 계산으로 확인: \(\int_0^1 f_n\, dx = \int_0^1 \frac{n}{1 + n^2 x^2}\, dx = [\arctan(nx)]_0^1 = \arctan(n) \to \pi/2\).
따라서 \(\lim \int f_n = \pi/2 \neq 0 = \int \lim f_n\)이다. 극한과 적분이 교환되지 않는 이유는, 적분 가능한 우함수가 존재하지 않아 DCT의 가정이 충족되지 않기 때문이다. 이 예제가 우세 조건의 필요성을 직접 확인시켜 준다.
Example 11.5 (DCT의 전형적 활용)
매개변수 적분의 미분에 DCT를 적용하는 예를 보자. \(F(t) = \int_0^\infty e^{-tx} \frac{\sin x}{x}\, dx\) (\(t > 0\))로 정의하면, \(F'(t)\)를 구하고 싶다. 형식적으로 적분 부호 아래에서 미분하면:
$$ F'(t) = -\int_0^\infty e^{-tx} \sin x\, dx. $$
이 교환의 정당화: \(t \geq t_0 > 0\)인 영역에서 \(|{-x e^{-tx} \sin x}/{x}| = |e^{-tx} \sin x| \leq e^{-t_0 x}\)이고, \(\int_0^\infty e^{-t_0 x}\, dx = 1/t_0 < \infty\)이므로, DCT에 의해 교환이 정당하다. 이제 \(F'(t) = -\int_0^\infty e^{-tx}\sin x\, dx = -1/(1+t^2)\) (부분적분 두 번)이다. \(F(t) \to 0\) (\(t \to \infty\))이므로, \(F(t) = \pi/2 - \arctan t\)를 얻고, 특히 \(\lim_{t \to 0^+} F(t) = \pi/2\)이다. 이로부터 유명한 디리클레 적분 \(\int_0^\infty \frac{\sin x}{x}\, dx = \frac{\pi}{2}\)를 복원한다.
단일 변수의 적분을 다루었으니, 이제 다변수로 확장한다. 다중 적분에서 적분 순서를 바꿀 수 있는 조건을 제시하는 것이 Fubini 정리이다.
11.4 Product Measures and Fubini's Theorem
결합 확률 분포(joint probability distribution)에서 주변 확률(marginal probability)을 구하는 것은 적분 순서를 바꾸는 일이다. 곱 측도와 Fubini 정리는 이 교환이 언제 가능한지를 엄밀히 규정한다.
Definition 11.7 (Product Measure)
sigma-유한 측도 공간 \((X, \mathcal{A}, \mu)\)와 \((Y, \mathcal{B}, \nu)\)가 주어졌을 때, 곱 sigma-algebra(시그마 대수) \(\mathcal{A} \otimes \mathcal{B}\)는 가측 직사각형 \(A \times B\) (\(A \in \mathcal{A}\), \(B \in \mathcal{B}\))에 의해 생성된다. 곱 측도(product measure) \(\mu \otimes \nu\)는 \((\mu \otimes \nu)(A \times B) = \mu(A) \cdot \nu(B)\)를 만족하는 \(\mathcal{A} \otimes \mathcal{B}\) 위의 유일한 측도이다.
Theorem 11.5 (Tonelli's Theorem)
\(\mu\)와 \(\nu\)가 sigma-유한이고, \(f: X \times Y \to [0, \infty]\)가 \(\mathcal{A} \otimes \mathcal{B}\)에 대해 가측이면,
$$ \int_{X \times Y} f\, d(\mu \otimes \nu) = \int_X \left(\int_Y f(x,y)\, d\nu(y)\right) d\mu(x) = \int_Y \left(\int_X f(x,y)\, d\mu(x)\right) d\nu(y). $$
Theorem 11.6 (Fubini's Theorem)
\(f \in L^1(X \times Y, \mu \otimes \nu)\)이면, 반복 적분이 존재하고 서로 같다:
$$ \int_{X \times Y} f\, d(\mu \otimes \nu) = \int_X \left(\int_Y f(x,y)\, d\nu(y)\right) d\mu(x) = \int_Y \left(\int_X f(x,y)\, d\mu(x)\right) d\nu(y). $$
실용적 절차: 먼저 \(|f|\)에 토넬리 정리를 적용하여 적분 가능성을 확인한 뒤, \(f\)에 푸비니 정리를 적용한다.
Example 11.6
\(\int_0^1 \int_0^1 \frac{x^2 - y^2}{(x^2 + y^2)^2}\, dx\, dy\)를 계산하자. 적분 순서에 따라 반복 적분은 서로 다른 값(\(\pi/4\)와 \(-\pi/4\))을 준다. 이는 푸비니 정리에 모순되지 않는데,
$$ \int_0^1 \int_0^1 \frac{|x^2 - y^2|}{(x^2 + y^2)^2}\, dx\, dy = +\infty $$
이므로 \(f \notin L^1\)이고 푸비니 정리의 가정이 충족되지 않기 때문이다.
Example 11.7 (Fubini 정리 활용: 적분 순서 교환)
적분 \(\int_0^1 \int_x^1 e^{y^2}\, dy\, dx\)를 계산하자. 내부 적분 \(\int_x^1 e^{y^2}\, dy\)는 초등함수로 표현할 수 없다. 그러나 적분 순서를 바꾸면 계산이 가능하다.
적분 영역은 \(\{(x,y) : 0 \leq x \leq 1,\; x \leq y \leq 1\} = \{(x,y) : 0 \leq y \leq 1,\; 0 \leq x \leq y\}\)이다. 피적분함수 \(e^{y^2} \geq 0\)이므로 토넬리 정리에 의해 적분 순서를 자유롭게 교환할 수 있다:
$$
\int_0^1 \int_x^1 e^{y^2}\, dy\, dx = \int_0^1 \int_0^y e^{y^2}\, dx\, dy = \int_0^1 y \, e^{y^2}\, dy = \left[\frac{1}{2}e^{y^2}\right]_0^1 = \frac{e - 1}{2}.
$$
핵심은 적분 영역의 그림을 그려 \(x\)와 \(y\)의 범위를 재설정하는 것이다. 이 기법은 초등함수로 닫히지 않는 적분을 다룰 때 빈번하게 사용된다.
Example 11.8 (Fubini/Tonelli를 이용한 기댓값 공식)
비음 확률변수 \(X\)에 대해 기댓값의 "꼬리 합" 공식을 Tonelli 정리로 증명하자:
$$ E[X] = \int_0^\infty P(X > t)\, dt. $$
\((\Omega, \mathcal{F}, P)\)를 확률 공간이라 하자. \(X: \Omega \to [0,\infty)\)가 가측이면,
$$
E[X] = \int_\Omega X(\omega)\, dP(\omega) = \int_\Omega \int_0^{X(\omega)} 1\, dt\, dP(\omega) = \int_\Omega \int_0^\infty \mathbf{1}_{\{t < X(\omega)\}}\, dt\, dP(\omega).
$$
피적분함수 \(\mathbf{1}_{\{t < X(\omega)\}} \geq 0\)이고 두 측도 \(P\)와 Lebesgue 측도 \(m\)이 모두 sigma-유한이므로 Tonelli 정리를 적용할 수 있다:
$$
= \int_0^\infty \int_\Omega \mathbf{1}_{\{X(\omega) > t\}}\, dP(\omega)\, dt = \int_0^\infty P(X > t)\, dt.
$$
이 공식은 확률론에서 기댓값 계산에 광범위하게 활용된다. 예를 들어, \(X \sim \text{Exp}(\lambda)\)이면 \(P(X > t) = e^{-\lambda t}\)이므로 \(E[X] = \int_0^\infty e^{-\lambda t}\, dt = 1/\lambda\)를 즉시 얻는다.
Sources: MIT 18.103 (Measure Theory), NPTEL Measure and Integration.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
12. Fourier Analysis
임의의 신호를 사인(sine)과 코사인(cosine)의 합으로 분해한다 -- 이 아이디어가 공학에서 가장 중요한 관점 전환인 "시간 영역(time domain) vs 주파수 영역(frequency domain)"을 만들어냈다. 음향 신호의 스펙트럼 분석, JPEG 이미지 압축의 핵심인 DCT(Discrete Cosine Transform), 통신 시스템의 변조/복조(modulation/demodulation)와 대역폭(bandwidth) 할당, 구조물의 진동 해석에서 고유진동수(natural frequency) 추출, 안테나 방사 패턴(radiation pattern)과 개구면(aperture) 분포 사이의 푸리에 변환 관계 -- 이 모든 것이 푸리에 해석의 응용이다.
시간 영역에서 복잡한 합성곱(convolution)이 주파수 영역에서 단순한 곱셈이 된다는 사실은, 필터 설계를 주파수 응답(frequency response)의 관점에서 직관적으로 수행할 수 있게 한다. 불확정성 원리(uncertainty principle)는 신호가 시간과 주파수에서 동시에 좁게 국소화될 수 없음을 정량적으로 보여주며, 이는 레이더 펄스 설계, 통신 대역폭 설계, 양자역학의 하이젠베르크 부등식에까지 연결된다. 이 장은 푸리에 급수, 푸리에 변환, 합성곱, 이산 푸리에 변환(DFT)과 FFT를 순서대로 전개한다.
Fourier analysis(푸리에 해석)는 함수를 정현파 성분으로 분해하고, 주파수 데이터로부터 재구성한다. 수학(편미분방정식, 정수론), 공학(신호 처리, 제어), 응용 과학(영상, 양자역학) 전반에 쓰인다.
12.1 Fourier Series
주기 함수를 사인/코사인의 합으로 표현하는 것이 푸리에 급수이다. 역사적으로 Fourier가 열전도 방정식의 해를 삼각급수로 표현한 것이 시작이었으며, 오늘날에는 전력 계통의 고조파(harmonics) 분석, 악기 음색의 배음(overtone) 구조 파악, 구조물에 가해지는 주기 하중의 주파수 분해에 직접 사용된다. 수학적으로는 Chapter 10에서 다룬 \(L^2\) 공간의 정규직교 기저 \(\{e^{inx}/\sqrt{2\pi}\}\)에 대한 좌표 전개이다.
Definition 12.1 (Fourier Series)
\(f: [-\pi, \pi] \to \mathbb{C}\)가 적분 가능하다고 하자. \(f\)의 푸리에 계수(Fourier coefficients)는 다음과 같다:
$$ \hat{f}(n) = c_n = \frac{1}{2\pi} \int_{-\pi}^{\pi} f(x) e^{-inx}\, dx, \quad n \in \mathbb{Z}. $$
\(f\)의 푸리에 급수(Fourier series)는 형식적 급수
$$ f(x) \sim \sum_{n=-\infty}^{\infty} c_n e^{inx} $$
이다. 실수 형태로는 \(f(x) \sim \frac{a_0}{2} + \sum_{n=1}^\infty (a_n \cos nx + b_n \sin nx)\)이며, 여기서 \(a_n = \frac{1}{\pi}\int_{-\pi}^\pi f(x)\cos(nx)\, dx\), \(b_n = \frac{1}{\pi}\int_{-\pi}^\pi f(x)\sin(nx)\, dx\)이다.
Theorem 12.1 (Bessel's Inequality and Parseval's Theorem)
\(f \in L^2[-\pi, \pi]\)에 대해:
$$ \sum_{n=-\infty}^{\infty} |c_n|^2 \leq \frac{1}{2\pi}\int_{-\pi}^{\pi} |f(x)|^2\, dx \qquad \text{(Bessel's inequality)}. $$
등호가 성립하며(파르스발 정리), 푸리에 급수는 \(L^2\)에서 \(f\)로 수렴한다:
$$ \frac{1}{2\pi}\int_{-\pi}^{\pi} |f(x)|^2\, dx = \sum_{n=-\infty}^{\infty} |c_n|^2. $$
Theorem 12.2 (Pointwise Convergence -- Dirichlet Conditions)
\(f\)가 \([-\pi, \pi]\) 위에서 조각적으로 매끄러운(조각적 \(C^1\)이고 유한개의 점프 불연속을 갖는) 함수이면, 푸리에 급수는 모든 점에서 수렴한다:
$$ \sum_{n=-\infty}^{\infty} c_n e^{inx} = \frac{f(x^+) + f(x^-)}{2}. $$
연속점에서는 급수가 \(f(x)\)로 수렴한다.
Theorem 12.3 (Uniform Convergence)
\(f\)가 연속이고 주기적이며 조각적 \(C^1\)이면, 그 푸리에 급수는 \(f\)로 균등 수렴한다.
푸리에 급수의 수렴 속도는 함수의 매끄러움에 의해 결정된다. \(f\)가 \(k\)번 연속 미분 가능하면 \(|c_n| = O(|n|^{-k})\)이다. 이는 부분적분을 반복하면 얻어진다. 따라서 매끄러운 함수일수록 푸리에 계수가 빠르게 감쇠하고, 적은 항으로도 정확한 근사를 준다. 불연속이 있으면 \(c_n = O(1/n)\)으로 느리게 감쇠하며, Gibbs 현상이 나타난다.
Example 12.1
톱니파 \(f(x) = x\) (\((-\pi, \pi)\) 위)의 푸리에 계수는 \(b_n = \frac{2(-1)^{n+1}}{n}\) (그리고 \(a_n = 0\))이며, 다음을 준다:
$$ x \sim 2\sum_{n=1}^\infty \frac{(-1)^{n+1}}{n} \sin(nx), \quad x \in (-\pi, \pi). $$
\(x = \pi/2\)를 대입하면 \(\frac{\pi}{4} = 1 - \frac{1}{3} + \frac{1}{5} - \cdots\) (라이프니츠 공식)을 얻는다.
Example 12.1a (구형파의 푸리에 급수)
구형파(square wave)를 \([-\pi, \pi]\) 위에서 다음과 같이 정의하자:
$$ f(x) = \begin{cases} -1, & -\pi < x < 0, \\ \phantom{-}1, & 0 < x < \pi. \end{cases} $$
\(f\)는 홀함수이므로 \(a_n = 0\)이고, \(b_n\)을 계산하면:
$$ b_n = \frac{1}{\pi}\int_{-\pi}^{\pi} f(x)\sin(nx)\, dx = \frac{2}{\pi}\int_0^{\pi} \sin(nx)\, dx = \frac{2}{n\pi}(1 - \cos(n\pi)) = \begin{cases} \frac{4}{n\pi}, & n \text{ 홀수}, \\ 0, & n \text{ 짝수}. \end{cases} $$
따라서 구형파의 푸리에 급수는:
$$ f(x) \sim \frac{4}{\pi}\sum_{k=0}^{\infty} \frac{\sin((2k+1)x)}{2k+1} = \frac{4}{\pi}\left(\sin x + \frac{\sin 3x}{3} + \frac{\sin 5x}{5} + \cdots\right). $$
불연속점 \(x = 0, \pm\pi\)에서 급수는 \(\frac{f(x^+)+f(x^-)}{2} = 0\)으로 수렴한다. 불연속점 근처에서 부분합이 약 9% 초과하여 진동하는 현상을 Gibbs 현상이라 한다.
Example 12.1b (톱니파의 푸리에 계수 — 복소 형태)
주기 \(2\pi\)의 톱니파 \(f(x) = x\) (\((-\pi, \pi)\) 위)에 대해 복소 푸리에 계수를 직접 계산하자.
$$ c_n = \frac{1}{2\pi}\int_{-\pi}^{\pi} x\, e^{-inx}\, dx. $$
\(n = 0\)이면 \(c_0 = \frac{1}{2\pi}\int_{-\pi}^{\pi} x\, dx = 0\)이다 (홀함수).
\(n \neq 0\)이면 부분적분으로:
$$ c_n = \frac{1}{2\pi}\left[\frac{x\, e^{-inx}}{-in}\right]_{-\pi}^{\pi} - \frac{1}{2\pi}\int_{-\pi}^{\pi} \frac{e^{-inx}}{-in}\, dx = \frac{1}{2\pi} \cdot \frac{-2\pi\cos(n\pi)}{in} = \frac{(-1)^{n+1}}{in} = \frac{i(-1)^n}{n}. $$
이는 실수 형태의 계수 \(b_n = 2(-1)^{n+1}/n\)과 관계식 \(c_n = -ib_n/2\) (\(n > 0\))으로 일치함을 확인할 수 있다.
Example 12.1c (Parseval 등식의 활용)
구형파 \(f(x)\) (Example 12.1a)에 Parseval 등식을 적용하여 급수의 합을 구하자.
좌변: \(\frac{1}{2\pi}\int_{-\pi}^{\pi} |f(x)|^2\, dx = \frac{1}{2\pi}\int_{-\pi}^{\pi} 1\, dx = 1\).
우변: 실수 형태의 Parseval 등식은 \(\frac{a_0^2}{4} + \frac{1}{2}\sum_{n=1}^\infty (a_n^2 + b_n^2) = \frac{1}{2\pi}\int_{-\pi}^{\pi}|f(x)|^2\, dx\)이므로 (비표준화 주의를 맞추면):
$$ \frac{1}{2}\sum_{k=0}^{\infty} b_{2k+1}^2 = \frac{1}{2}\sum_{k=0}^{\infty} \frac{16}{(2k+1)^2 \pi^2} = 1. $$
따라서:
$$ \sum_{k=0}^{\infty} \frac{1}{(2k+1)^2} = 1 + \frac{1}{9} + \frac{1}{25} + \cdots = \frac{\pi^2}{8}. $$
여기서 \(\sum_{n=1}^{\infty} \frac{1}{n^2} = \sum_{k=0}^{\infty}\frac{1}{(2k+1)^2} + \sum_{m=1}^{\infty}\frac{1}{(2m)^2}\)임을 이용하면, \(\frac{\pi^2}{8} + \frac{1}{4}\sum\frac{1}{n^2} = \sum\frac{1}{n^2}\)이고, 이로부터 바젤 문제의 해 \(\sum_{n=1}^{\infty}\frac{1}{n^2} = \frac{\pi^2}{6}\)을 얻는다.
Fourier 급수는 주기 함수를 다룬다. 비주기 함수로 확장하려면 주기를 무한대로 보내야 하며, 그 결과가 Fourier 변환이다. 이산적인 Fourier 계수의 합이 연속적인 적분으로 바뀌고, 주파수도 이산 값에서 연속 변수가 된다.
푸리에 급수에서 주기를 무한대로 보내면, 이산적인 주파수 \(n\)이 연속 변수 \(\xi\)가 되고, 계수의 합이 적분으로 바뀐다. 이것이 푸리에 변환이며, 비주기 신호의 주파수 분석을 가능하게 한다. 레이더 신호 설계, 통신 채널의 대역폭 분석, 의료 영상(MRI)의 k-공간(k-space) 데이터 처리가 모두 푸리에 변환에 기반한다.
Definition 12.2 (Fourier Transform)
\(f \in L^1(\mathbb{R})\)에 대해, Fourier transform(푸리에 변환)은 다음과 같이 정의된다:
$$ \hat{f}(\xi) = \int_{-\infty}^{\infty} f(x)\, e^{-2\pi i \xi x}\, dx, \quad \xi \in \mathbb{R}. $$
역 Fourier transform(역 푸리에 변환)은 (적용 가능할 때) 다음과 같다:
$$ f(x) = \int_{-\infty}^{\infty} \hat{f}(\xi)\, e^{2\pi i \xi x}\, d\xi. $$
(일부 관례에서는 \(2\pi\)를 지수부에 다르게 배치한다; 여기서는 Stanford EE261 관례를 따른다.)
Theorem 12.4 (Properties of the Fourier Transform)
\(f, g \in L^1(\mathbb{R})\)에 대해, Fourier transform(푸리에 변환)은 다음 성질을 만족한다:
- 선형성: \(\widehat{af + bg} = a\hat{f} + b\hat{g}\).
- 시간 이동: \(g(x) = f(x - x_0)\)이면, \(\hat{g}(\xi) = e^{-2\pi i \xi x_0} \hat{f}(\xi)\).
- 변조: \(g(x) = e^{2\pi i \xi_0 x} f(x)\)이면, \(\hat{g}(\xi) = \hat{f}(\xi - \xi_0)\).
- 스케일링: \(g(x) = f(ax)\), \(a \neq 0\)이면, \(\hat{g}(\xi) = \frac{1}{|a|} \hat{f}(\xi/a)\).
- 미분: \(\widehat{f'}(\xi) = 2\pi i \xi\, \hat{f}(\xi)\) (\(f' \in L^1\)일 때).
- 리만-르베그 보조정리: \(|\xi| \to \infty\)일 때 \(\hat{f}(\xi) \to 0\).
Example 12.2a (직사각형 펄스의 푸리에 변환)
직사각형 펄스 \(f(x) = \mathbf{1}_{[-a/2,\, a/2]}(x)\)의 푸리에 변환을 구하자.
$$ \hat{f}(\xi) = \int_{-a/2}^{a/2} e^{-2\pi i \xi x}\, dx = \frac{e^{-2\pi i \xi \cdot (-a/2)} - e^{-2\pi i \xi \cdot a/2}}{2\pi i \xi} = \frac{2\sin(\pi a \xi)}{2\pi\xi} = a\operatorname{sinc}(a\xi), $$
여기서 \(\operatorname{sinc}(u) = \frac{\sin(\pi u)}{\pi u}\)이다. \(a = 1\)일 때 \(\hat{f}(\xi) = \operatorname{sinc}(\xi)\)이다.
이 결과는 중요한 쌍대성을 보여준다: 시간 영역에서 좁은 펄스(작은 \(a\))는 주파수 영역에서 넓게 퍼지고, 넓은 펄스(큰 \(a\))는 주파수 영역에서 좁아진다.
주요 푸리에 변환 쌍 표
| \(f(x)\) | \(\hat{f}(\xi)\) | 비고 |
| \(e^{-\pi x^2}\) | \(e^{-\pi \xi^2}\) | 가우시안 (자기쌍대) |
| \(\mathbf{1}_{[-a/2, a/2]}(x)\) | \(a\operatorname{sinc}(a\xi)\) | 직사각형 펄스 |
| \(e^{-a|x|}\), \(a > 0\) | \(\dfrac{2a}{a^2 + (2\pi\xi)^2}\) | 양쪽 지수 감쇠 |
| \(\dfrac{1}{x^2 + a^2}\), \(a > 0\) | \(\dfrac{\pi}{a} e^{-2\pi a|\xi|}\) | 로렌츠 함수 |
| \(\delta(x)\) | \(1\) | 디랙 델타 |
| \(1\) | \(\delta(\xi)\) | 상수 함수 |
| \(e^{2\pi i \xi_0 x}\) | \(\delta(\xi - \xi_0)\) | 복소 지수 |
| \(\cos(2\pi \xi_0 x)\) | \(\frac{1}{2}[\delta(\xi - \xi_0) + \delta(\xi + \xi_0)]\) | 코사인파 |
| \(\operatorname{sgn}(x)\) | \(\dfrac{1}{i\pi\xi}\) | 부호 함수 (분포 의미) |
| \(|x|^{-1/2}\) | \(|\xi|^{-1/2}\) | 동차 분포 |
푸리에 변환 성질 요약표
| 성질 | 시간 영역 | 주파수 영역 |
| 선형성 | \(\alpha f + \beta g\) | \(\alpha \hat{f} + \beta \hat{g}\) |
| 시간 이동 | \(f(x - x_0)\) | \(e^{-2\pi i \xi x_0}\hat{f}(\xi)\) |
| 주파수 이동 (변조) | \(e^{2\pi i \xi_0 x}f(x)\) | \(\hat{f}(\xi - \xi_0)\) |
| 스케일링 | \(f(ax)\) | \(\frac{1}{|a|}\hat{f}(\xi/a)\) |
| 시간 미분 | \(f'(x)\) | \(2\pi i\xi \, \hat{f}(\xi)\) |
| 주파수 미분 | \(-2\pi i x \, f(x)\) | \(\hat{f}'(\xi)\) |
| 반전 (시간 역전) | \(f(-x)\) | \(\hat{f}(-\xi)\) |
| 켤레 | \(\overline{f(x)}\) | \(\overline{\hat{f}(-\xi)}\) |
| 합성곱 | \((f * g)(x)\) | \(\hat{f}(\xi)\hat{g}(\xi)\) |
| 곱 | \(f(x)g(x)\) | \((\hat{f} * \hat{g})(\xi)\) |
| \(n\)차 도함수 | \(f^{(n)}(x)\) | \((2\pi i\xi)^n \hat{f}(\xi)\) |
| \(x^n\) 곱 | \(x^n f(x)\) | \(\left(\frac{1}{-2\pi i}\frac{d}{d\xi}\right)^n \hat{f}(\xi)\) |
Theorem 12.5 (Fourier Inversion)
\(f \in L^1(\mathbb{R})\)이고 \(\hat{f} \in L^1(\mathbb{R})\)이면,
$$ f(x) = \int_{-\infty}^{\infty} \hat{f}(\xi)\, e^{2\pi i \xi x}\, d\xi \quad \text{a.e.} $$
Theorem 12.6 (Plancherel Theorem)
Fourier transform(푸리에 변환)은 \(L^2(\mathbb{R})\) 위의 유니타리 작용소로 확장된다:
$$ \int_{-\infty}^{\infty} |f(x)|^2\, dx = \int_{-\infty}^{\infty} |\hat{f}(\xi)|^2\, d\xi. $$
시간 영역과 주파수 영역 사이에서 에너지가 보존된다. 이 등식은 통신 공학에서 신호의 총 전력을 주파수 성분별 전력의 합으로 분해할 수 있음을 보장한다.
Example 12.2
가우시안 \(f(x) = e^{-\pi x^2}\)은 자기 자신의 Fourier transform(푸리에 변환)이다: \(\hat{f}(\xi) = e^{-\pi \xi^2}\). 보다 일반적으로, \(f(x) = e^{-ax^2}\)의 경우 \(\hat{f}(\xi) = \sqrt{\pi/a}\, e^{-\pi^2 \xi^2/a}\)이다. 가우시안이 중심적 역할을 하는 이유는, 시간과 주파수 양쪽에서 동시에 퍼짐을 최소화하기 때문이다(불확정성 원리의 등호 조건을 충족한다).
Fourier 변환은 합성곱(convolution)을 곱셈으로 바꾼다. 미분방정식, 필터링, 확률 분포의 합 등 합성곱이 등장하는 문제를 주파수 영역에서 곱셈으로 풀 수 있다.
12.3 Convolution Theorem
선형 시불변(LTI, Linear Time-Invariant) 시스템에서 입력 신호 \(x(t)\)에 대한 출력은 임펄스 응답 \(h(t)\)와의 합성곱 \(y = h * x\)로 주어진다. 합성곱은 또한 두 독립 확률변수의 합의 분포, 이미지에 블러(blur) 필터를 적용하는 연산, 다항식 곱셈 등을 통합적으로 기술하는 연산이다.
Definition 12.3 (Convolution)
\(f, g \in L^1(\mathbb{R})\)의 convolution(합성곱)은 다음과 같이 정의된다:
$$ (f * g)(x) = \int_{-\infty}^{\infty} f(t)\, g(x - t)\, dt. $$
Convolution(합성곱)은 교환 법칙, 결합 법칙을 만족하며, 덧셈에 대해 분배 법칙이 성립한다. \(f \in L^1\)이고 \(g \in L^p\) (\(1 \leq p \leq \infty\))이면, \(f * g \in L^p\)이고 \(\|f * g\|_p \leq \|f\|_1 \|g\|_p\) (Young 부등식)이 성립한다.
Theorem 12.7 (Convolution Theorem)
\(f, g \in L^1(\mathbb{R})\)에 대해:
$$ \widehat{f * g}(\xi) = \hat{f}(\xi) \cdot \hat{g}(\xi). $$
시간 영역에서의 convolution(합성곱)은 주파수 영역에서의 점별 곱셈에 대응하며, 그 역도 성립한다:
$$ \widehat{f \cdot g}(\xi) = (\hat{f} * \hat{g})(\xi). $$
합성곱 정리는 시간 영역에서의 \(O(N^2)\) 합성곱 연산을 주파수 영역에서의 \(O(N)\) 점별 곱셈으로 대체할 수 있음을 의미한다. FFT를 활용하면 전체 과정이 \(O(N \log N)\)에 수행된다. 디지털 필터링, 이미지 처리, 다항식/큰 수의 곱셈이 대표적인 응용이다.
Example 12.3
\(f = \mathbf{1}_{[-1/2, 1/2]}\)(직사각형 함수)로 놓고 \(h = f * f\)라 하자. 그러면 \(\hat{f}(\xi) = \operatorname{sinc}(\xi)\)이고, \(\hat{h}(\xi) = \operatorname{sinc}^2(\xi)\)이다. Convolution(합성곱)을 직접 계산하면 삼각형 함수 \(h(x) = \max(1 - |x|, 0)\)을 얻으며, 삼각형 함수의 Fourier transform(푸리에 변환)이 \(\operatorname{sinc}^2\)임을 확인할 수 있다.
Example 12.3a (합성곱 정리 활용: LTI 시스템 출력 계산)
LTI 시스템의 임펄스 응답이 \(h(t) = e^{-t}\mathbf{1}_{[0,\infty)}(t)\) (인과적 지수 감쇠)이고, 입력이 \(x(t) = e^{-2t}\mathbf{1}_{[0,\infty)}(t)\)일 때 출력 \(y = h * x\)를 합성곱 정리로 구하자.
먼저 각각의 푸리에 변환을 계산한다:
$$ \hat{h}(\xi) = \frac{1}{1 + 2\pi i \xi}, \qquad \hat{x}(\xi) = \frac{1}{2 + 2\pi i \xi}. $$
합성곱 정리에 의해:
$$ \hat{y}(\xi) = \hat{h}(\xi)\hat{x}(\xi) = \frac{1}{(1 + 2\pi i \xi)(2 + 2\pi i \xi)}. $$
부분분수 분해하면:
$$ \hat{y}(\xi) = \frac{1}{1 + 2\pi i \xi} - \frac{1}{2 + 2\pi i \xi}. $$
역 푸리에 변환하면:
$$ y(t) = (e^{-t} - e^{-2t})\mathbf{1}_{[0,\infty)}(t). $$
이를 합성곱을 직접 계산하여 검증할 수 있다: \(t \geq 0\)일 때,
$$ y(t) = \int_0^t e^{-\tau} e^{-2(t-\tau)}\, d\tau = e^{-2t}\int_0^t e^{\tau}\, d\tau = e^{-2t}(e^t - 1) = e^{-t} - e^{-2t}. $$
Example 12.3b (Plancherel 정리 활용: 적분 계산)
Plancherel 정리를 이용하여 \(\int_{-\infty}^{\infty} \operatorname{sinc}^2(x)\, dx\)를 구하자.
\(f(x) = \mathbf{1}_{[-1/2, 1/2]}(x)\)의 푸리에 변환은 \(\hat{f}(\xi) = \operatorname{sinc}(\xi)\)이다. Plancherel 정리에 의해:
$$ \int_{-\infty}^{\infty} |\hat{f}(\xi)|^2\, d\xi = \int_{-\infty}^{\infty} |f(x)|^2\, dx. $$
좌변은 \(\int_{-\infty}^{\infty} \operatorname{sinc}^2(\xi)\, d\xi\)이고, 우변은 \(\int_{-1/2}^{1/2} 1\, dx = 1\)이다. 따라서:
$$ \int_{-\infty}^{\infty} \operatorname{sinc}^2(\xi)\, d\xi = 1, $$
즉 \(\int_{-\infty}^{\infty} \frac{\sin^2(\pi\xi)}{\pi^2 \xi^2}\, d\xi = 1\)이다.
이론적 도구가 갖춰졌으니 응용으로 넘어간다. 신호처리의 필터 설계와 편미분방정식의 풀이가 대표적이다.
12.4 Applications
Signal Processing
Fourier transform(푸리에 변환)은 신호 처리의 이론적 근간이다. 임펄스 응답 \(h(t)\)를 갖는 선형 시불변(LTI) 시스템은 입력 신호 \(x(t)\)에 convolution(합성곱)으로 작용한다: \(y = h * x\). 주파수 영역에서 이는 \(\hat{y} = \hat{h} \cdot \hat{x}\)가 되며, 여기서 \(\hat{h}\)가 전달 함수(transfer function)이다. 필터 설계란 원하는 주파수 대역을 증폭 또는 억제하도록 \(\hat{h}\)를 선택하는 것이다.
Theorem 12.8 (Shannon-Nyquist Sampling Theorem)
\(f \in L^2(\mathbb{R})\)가 대역 제한 함수로서 \(|\xi| > B\)일 때 \(\hat{f}(\xi) = 0\)이면, \(f\)는 \(1/(2B)\) 간격의 표본값으로부터 완전히 결정된다:
$$ f(t) = \sum_{n=-\infty}^{\infty} f\!\left(\frac{n}{2B}\right) \operatorname{sinc}\!\left(2Bt - n\right), $$
여기서 \(\operatorname{sinc}(x) = \frac{\sin(\pi x)}{\pi x}\)이다. 최소 표본화율 \(2B\)를 나이퀴스트율(Nyquist rate)이라 한다.
샘플링 정리는 아날로그-디지털 변환(ADC)의 이론적 기초이다. CD 음질의 표본화율 44.1kHz는 인간 청각의 상한 주파수 약 20kHz의 두 배 이상이며, 이는 나이퀴스트 조건을 만족시키기 위한 것이다. 나이퀴스트율보다 낮은 표본화율은 에일리어싱(aliasing)을 발생시켜 원래 신호를 복원할 수 없게 만든다.
Example 12.3c (양쪽 지수 감쇠의 푸리에 변환)
\(f(x) = e^{-a|x|}\) (\(a > 0\))의 푸리에 변환을 구하자.
$$\begin{aligned}
\hat{f}(\xi) &= \int_{-\infty}^{0} e^{ax} e^{-2\pi i\xi x}\, dx + \int_0^{\infty} e^{-ax} e^{-2\pi i\xi x}\, dx \\
&= \frac{1}{a - 2\pi i\xi} + \frac{1}{a + 2\pi i\xi} = \frac{2a}{a^2 + 4\pi^2\xi^2}.
\end{aligned}$$
이 결과는 로렌츠 분포(Lorentzian)의 형태이다. \(a\)가 작을수록 \(f(x)\)는 넓게 퍼지고 \(\hat{f}(\xi)\)는 좁은 피크를 가지며, \(a\)가 클수록 반대이다. 이는 불확정성 원리의 또 다른 사례이다.
Partial Differential Equations
Fourier transform(푸리에 변환)은 상수 계수 선형 편미분방정식을 대수 방정식으로 변환한다. \(\mathbb{R}\) 위의 열 방정식 \(u_t = k\, u_{xx}\)에 초기 조건 \(u(x,0) = f(x)\)가 주어졌을 때, \(x\)에 대해 Fourier transform(푸리에 변환)을 취하면 \(\hat{u}_t = -4\pi^2 k \xi^2 \hat{u}\)를 얻고, 이를 풀면 \(\hat{u}(\xi, t) = \hat{f}(\xi) e^{-4\pi^2 k \xi^2 t}\)이다. 역변환하면:
$$ u(x,t) = f * G_t(x), \qquad G_t(x) = \frac{1}{\sqrt{4\pi k t}}\, e^{-x^2/(4kt)}, $$
여기서 \(G_t\)는 열 핵(heat kernel)으로, 시간이 지남에 따라 넓어지는 가우시안이다.
Example 12.4
\(\mathbb{R}\) 위의 파동 방정식 \(u_{tt} = c^2 u_{xx}\)에 대해, \(x\)에 대한 Fourier transform(푸리에 변환)을 취하면 \(\hat{u}_{tt} = -4\pi^2 c^2 \xi^2 \hat{u}\)이고, 해는 \(\hat{u}(\xi,t) = A(\xi)\cos(2\pi c\xi t) + B(\xi)\sin(2\pi c\xi t)\)이다. 초기 데이터 \(u(x,0) = f(x)\), \(u_t(x,0) = g(x)\)로 역변환하면 달랑베르 공식 \(u(x,t) = \frac{1}{2}[f(x+ct) + f(x-ct)] + \frac{1}{2c}\int_{x-ct}^{x+ct} g(s)\, ds\)을 얻는다.
연속 Fourier 변환은 이론적으로 강력하지만, 컴퓨터로 계산하려면 이산화가 필요하다. 이산 Fourier 변환(DFT)은 유한 개의 샘플로부터 주파수 성분을 추출하며, FFT 알고리즘은 이를 \(O(N \log N)\) 시간에 수행하여 대규모 데이터의 주파수 분석을 실용적으로 만든다.
12.5 Discrete Fourier Transform (DFT) and Fast Fourier Transform (FFT)
컴퓨터로 신호를 처리하려면 유한 개의 이산 샘플을 다루어야 한다. DFT는 연속 푸리에 변환을 유한 이산 데이터에 적용한 것으로, 디지털 오실로스코프의 스펙트럼 표시, 음성 인식의 특징 추출(MFCC), 구조물 진동 데이터의 주파수 분석에서 실제로 계산되는 것이 바로 DFT이다.
Definition 12.5 (Discrete Fourier Transform)
길이 \(N\)인 복소수 열 \(x_0, x_1, \ldots, x_{N-1}\)에 대해, 이산 푸리에 변환(DFT)은 다음과 같이 정의된다:
$$ X_k = \sum_{n=0}^{N-1} x_n \, e^{-2\pi i \, kn / N}, \qquad k = 0, 1, \ldots, N-1. $$
역 DFT(IDFT)는:
$$ x_n = \frac{1}{N} \sum_{k=0}^{N-1} X_k \, e^{2\pi i \, kn / N}, \qquad n = 0, 1, \ldots, N-1. $$
DFT는 이산 합성곱을 점별 곱으로 변환하는 성질을 유지한다: 순환 합성곱 \(x \circledast y\)에 대해 \(\operatorname{DFT}(x \circledast y)_k = X_k Y_k\).
DFT를 정의대로 계산하면 \(O(N^2)\)의 곱셈이 필요하다. 고속 푸리에 변환(FFT)은 DFT의 대칭성과 주기성을 이용하여 연산량을 \(O(N \log N)\)으로 줄이는 알고리즘이다.
Theorem 12.9 (Cooley-Tukey FFT)
\(N = 2^m\)일 때, \(\omega_N = e^{-2\pi i/N}\)으로 놓자. DFT를 짝수 인덱스와 홀수 인덱스로 분리하면:
$$ X_k = \underbrace{\sum_{j=0}^{N/2-1} x_{2j}\, \omega_{N/2}^{jk}}_{E_k} + \omega_N^k \underbrace{\sum_{j=0}^{N/2-1} x_{2j+1}\, \omega_{N/2}^{jk}}_{O_k}, $$
여기서 \(E_k\)는 짝수 부분의 길이 \(N/2\) DFT, \(O_k\)는 홀수 부분의 길이 \(N/2\) DFT이다. \(E_k\)와 \(O_k\)는 \(k\)에 대해 주기 \(N/2\)이므로:
$$ X_k = E_k + \omega_N^k O_k, \qquad X_{k+N/2} = E_k - \omega_N^k O_k. $$
이 분할을 재귀적으로 적용하면, 총 연산량은 \(T(N) = 2T(N/2) + O(N)\)을 만족하여 \(T(N) = O(N \log N)\)이다.
FFT는 디지털 신호 처리, 영상 압축(JPEG, MP3), 다항식 곱셈, 큰 수의 곱셈(Schonhage-Strassen) 등에서 핵심 알고리즘이다. 실용적으로 \(N = 10^6\)인 경우, 직접 DFT(\(\sim 10^{12}\) 연산)에 비해 FFT(\(\sim 2 \times 10^7\) 연산)는 약 \(5 \times 10^4\)배 빠르다.
Example 12.5 (4점 DFT 수동 계산)
\(x = (1, 2, 3, 4)\)의 DFT를 구하자. \(N = 4\), \(\omega_4 = e^{-2\pi i/4} = -i\)이다.
$$\begin{aligned}
X_0 &= 1 + 2 + 3 + 4 = 10, \\
X_1 &= 1 + 2(-i) + 3(-1) + 4(i) = 1 - 2i - 3 + 4i = -2 + 2i, \\
X_2 &= 1 + 2(-1) + 3(1) + 4(-1) = 1 - 2 + 3 - 4 = -2, \\
X_3 &= 1 + 2(i) + 3(-1) + 4(-i) = 1 + 2i - 3 - 4i = -2 - 2i.
\end{aligned}$$
검증: Parseval 등식 \(\sum|x_n|^2 = \frac{1}{N}\sum|X_k|^2\)을 확인하면, 좌변 \(= 1+4+9+16 = 30\), 우변 \(= \frac{1}{4}(100+8+4+8) = 30\). 일치한다.
Example 12.6 (Fourier 변환을 이용한 확산 방정식의 해)
1차원 확산 방정식 \(u_t = D\, u_{xx}\) (\(x \in \mathbb{R}\), \(t > 0\))에 초기 조건 \(u(x,0) = e^{-|x|}\)가 주어졌을 때 해를 구하자.
\(x\)에 대해 푸리에 변환을 취하면:
$$ \hat{u}_t = -4\pi^2 D \xi^2 \hat{u}, \qquad \hat{u}(\xi, 0) = \hat{f}(\xi) = \frac{2}{1 + 4\pi^2\xi^2}. $$
(양쪽 지수 감쇠의 푸리에 변환 표 참고, \(a = 1\).)
이 ODE의 해는:
$$ \hat{u}(\xi, t) = \frac{2}{1 + 4\pi^2\xi^2}\, e^{-4\pi^2 D \xi^2 t}. $$
시간 영역에서 이는 초기 프로파일과 열 핵의 합성곱이다:
$$ u(x,t) = (f * G_t)(x), \qquad G_t(x) = \frac{1}{\sqrt{4\pi D t}}\, e^{-x^2/(4Dt)}. $$
\(t\)가 증가함에 따라 초기의 뾰족한 \(e^{-|x|}\) 프로파일이 점차 가우시안에 가까워지며 넓게 퍼진다.
Example 12.7 (주파수 필터링)
잡음이 섞인 신호 \(x(t) = \cos(2\pi \cdot 50t) + 0.5\cos(2\pi \cdot 500t)\)에서 50Hz 성분만 추출하려 한다. 이상적 저대역 필터(ideal low-pass filter)의 전달 함수를 다음과 같이 정의하자:
$$ \hat{h}(\xi) = \mathbf{1}_{[-B, B]}(\xi), \qquad B = 100\text{ Hz}. $$
합성곱 정리에 의해 출력의 주파수 영역 표현은:
$$ \hat{y}(\xi) = \hat{h}(\xi) \hat{x}(\xi). $$
\(\hat{x}(\xi)\)는 \(\pm 50\)Hz와 \(\pm 500\)Hz에 델타 함수를 가지므로, \(B = 100\)Hz 필터는 \(\pm 500\)Hz 성분을 제거하고 \(\pm 50\)Hz 성분만 통과시킨다. 따라서 \(y(t) = \cos(2\pi \cdot 50t)\)이다.
시간 영역에서 이 필터링은 합성곱 \(y(t) = (h * x)(t)\)에 해당하며, \(h(t) = 2B\operatorname{sinc}(2Bt)\)이다. 이상적 저대역 필터의 임펄스 응답은 무한 지속 시간을 가지므로 인과적이지 않다는 한계가 있다.
Example 12.8 (이산 신호의 순환 합성곱과 DFT)
길이 4인 두 신호 \(x = (1, 0, 1, 0)\)과 \(h = (1, 1, 0, 0)\)의 순환 합성곱을 DFT로 계산하자.
먼저 각 신호의 DFT를 구한다 (\(\omega_4 = -i\)):
$$\begin{aligned}
X &= (2, \; 1-(-i) + 1\cdot(-1) + 0\cdot(i), \; \ldots) \\
&= (2, \; 0, \; 2, \; 0), \\
H &= (2, \; 1+(-i), \; 0, \; 1+i) = (2, \; 1-i, \; 0, \; 1+i).
\end{aligned}$$
점별 곱: \(Y_k = X_k H_k\)이므로 \(Y = (4, 0, 0, 0)\).
IDFT: \(y_n = \frac{1}{4}\sum_{k} Y_k \omega_4^{-kn} = \frac{4}{4} = 1\) (모든 \(n\)에 대해). 따라서 \(y = (1, 1, 1, 1)\).
직접 순환 합성곱으로 확인: \(y_0 = x_0 h_0 + x_3 h_1 + x_2 h_2 + x_1 h_3 = 1+0+0+0 = 1\), \(y_1 = x_1 h_0 + x_0 h_1 + x_3 h_2 + x_2 h_3 = 0+1+0+0 = 1\), 나머지도 동일하게 1이다.
Example 12.9 (Gibbs 현상의 정량적 분석)
구형파 (Example 12.1a)의 부분합 \(S_N(x) = \frac{4}{\pi}\sum_{k=0}^{N-1}\frac{\sin((2k+1)x)}{2k+1}\)에서 Gibbs 현상을 정량적으로 분석하자.
\(N\)이 클 때, \(S_N\)의 최대값은 \(x \approx \frac{\pi}{2N+1}\) 부근에서 나타나며, 그 크기는:
$$ \max S_N \approx \frac{2}{\pi}\int_0^{\pi} \frac{\sin t}{t}\, dt \approx \frac{2}{\pi} \cdot \text{Si}(\pi) \approx \frac{2}{\pi} \cdot 1.8519 \approx 1.1790. $$
이는 목표값 1에 비해 약 \(8.95\%\) 초과한다. 이 초과량은 \(N \to \infty\)에서도 사라지지 않으며, 급수의 항수와 무관하게 약 \(9\%\)로 일정하다. 이는 \(L^2\) 수렴과 점별 수렴의 본질적 차이를 보여주는 현상이다.
불확정성 원리는 신호 설계의 물리적 한계를 규정한다. 레이더 공학에서 짧은 펄스(시간 분해능)와 좁은 대역폭(주파수 분해능)을 동시에 달성할 수 없다는 것, 양자역학에서 위치와 운동량의 동시 측정 정밀도에 한계가 있다는 것이 모두 같은 수학적 부등식의 서로 다른 물리적 표현이다.
Definition 12.6 (Uncertainty Principle)
\(f \in L^2(\mathbb{R})\)이고 \(\|f\|_2 = 1\)일 때, 시간 퍼짐(time spread) \(\Delta x^2 = \int x^2 |f(x)|^2\, dx\)과 주파수 퍼짐(frequency spread) \(\Delta \xi^2 = \int \xi^2 |\hat{f}(\xi)|^2\, d\xi\)를 정의하면(\(f\)가 중심에 놓여 있다고 가정),
$$ \Delta x \cdot \Delta \xi \geq \frac{1}{4\pi} $$
이 성립하며, 등호 조건은 \(f\)가 가우시안일 때에만 성립한다. 신호는 시간과 주파수에서 동시에 국소화될 수 없다.
Example 12.10 (불확정성 원리의 구체적 적용)
가우시안 파속(wave packet) \(f(x) = \left(\frac{2\alpha}{\pi}\right)^{1/4} e^{-\alpha x^2}\)의 시간-주파수 퍼짐을 계산하자. \(\|f\|_2 = 1\)이 되도록 정규화되어 있다.
시간 퍼짐: \(\Delta x^2 = \int x^2 |f(x)|^2\, dx = \frac{1}{4\alpha}\)이므로 \(\Delta x = \frac{1}{2\sqrt{\alpha}}\).
\(\hat{f}(\xi) = \left(\frac{2}{\pi\alpha}\right)^{1/4} \cdot \frac{1}{\sqrt{2\alpha}} \cdot \sqrt{\pi}\, e^{-\pi^2\xi^2/\alpha}\) (정규화된 가우시안의 변환)에서 주파수 퍼짐: \(\Delta \xi = \frac{\sqrt{\alpha}}{2\pi}\).
따라서 \(\Delta x \cdot \Delta \xi = \frac{1}{2\sqrt{\alpha}} \cdot \frac{\sqrt{\alpha}}{2\pi} = \frac{1}{4\pi}\)으로, 불확정성 원리의 하한과 정확히 일치한다. 가우시안은 시간-주파수 분해능을 동시에 최적화하는 유일한 함수 형태이다.
Sources: Stanford EE261 (The Fourier Transform and Its Applications), MIT 18.103.
대수학은 구조를 연구하는 학문이다. 숫자의 덧셈, 행렬의 곱셈, 대칭 변환의 합성 -- 이들의 공통 구조를 추상화한 것이 군, 환, 체이다. Part V에서는 이 세 가지 대수적 구조를 차례로 다루며, 추상 대수학의 기본 틀을 세운다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- The Fourier Transform and Its Applications (Osgood, Stanford) — 강의노트 PDF
- Stein & Shakarchi, Fourier Analysis: An Introduction (Princeton Lectures in Analysis I) — 현대적 입문
- Katznelson, An Introduction to Harmonic Analysis — 조화해석학 고전
- Grafakos, Classical Fourier Analysis — GTM 249, 대학원 표준
- Körner, Fourier Analysis — 다양한 응용과 역사적 맥락
- Folland, Fourier Analysis and Its Applications — PDE와의 연결 강조
13. Group Theory
군(group)은 대칭성을 수학적으로 포착하는 구조이다. 정다각형의 대칭, 루빅 큐브의 조작, 물리학의 보존법칙 -- 이 모든 것을 군론의 언어로 기술한다. 군의 정의에서 출발해 부분군, 잉여류, 동형 정리, 군 작용, Sylow 정리까지 전개한다.
대칭(symmetry)이 존재하는 곳에는 반드시 군이 있다. 결정학(crystallography)에서 230개의 공간군(space group)은 결정 구조의 가능한 대칭성을 완전히 분류하며, 이는 재료과학과 고체물리학의 기초가 된다. 화학공학에서 분자의 점군(point group)을 알면 적외선/라만 분광법에서 활성화되는 진동 모드(vibrational mode)를 군론적으로 예측할 수 있다. 로봇공학에서 3차원 회전은 특수직교군 \(\operatorname{SO}(3)\)으로, 강체의 자세와 운동은 특수유클리드군 \(\operatorname{SE}(3)\)으로 기술되며, 이 군들의 구조를 이해하는 것이 로봇 운동학(kinematics)의 핵심이다.
정보공학에서도 군은 자주 등장한다. 오류정정 부호(error-correcting code)의 자기동형군(automorphism group)은 부호의 대칭 구조를 결정하고 복호(decoding) 알고리즘의 효율에 직결된다. 양자 컴퓨팅(quantum computing)에서 양자 게이트(quantum gate)는 유니터리군 \(\operatorname{U}(2^n)\)의 원소이며, Clifford 군과 Pauli 군 같은 유한군이 양자 오류정정의 토대를 이룬다. 같은 군 구조를 공유하는 서로 다른 시스템은 하나의 틀로 분석할 수 있다.
13.1 Groups and Subgroups
군의 정의는 간결하다. 결합법칙, 항등원, 역원이라는 세 공리만으로 대칭성을 포착한다. 정수, 치환, 행렬 등 서로 다른 대상이 같은 군 구조를 공유한다.
Definition and First Examples
Definition 13.1 (Group)
group(군)은 집합 \(G\)와 이항연산 \(\cdot : G \times G \to G\)의 쌍으로, 다음 조건을 만족한다:
- Associativity: 모든 \(a, b, c \in G\)에 대해 \((ab)c = a(bc)\).
- Identity: 모든 \(a \in G\)에 대해 \(ea = ae = a\)인 \(e \in G\)가 존재한다.
- Inverses: 각 \(a \in G\)에 대해 \(aa^{-1} = a^{-1}a = e\)인 \(a^{-1} \in G\)가 존재한다.
추가로, 모든 \(a, b \in G\)에 대해 \(ab = ba\)이면 \(G\)를
abelian(또는 가환)이라 한다.
항등원은 유일하다: \(e\)와 \(e'\)가 모두 항등원이면, \(e = ee' = e'\)이다. 마찬가지로, 역원도 유일하다.
Definition 13.2 (Order)
group(군) \(G\)의 위수(order)는 \(|G|\)로 표기하며, 바탕 집합의 기수(cardinality)이다. 원소 \(g \in G\)의 위수(order)는 \(\operatorname{ord}(g)\)로 표기하며, \(g^n = e\)를 만족하는 가장 작은 양의 정수 \(n\)이다. 그러한 \(n\)이 존재하지 않으면 \(\infty\)로 정의한다.
Example 13.1
- \((\mathbb{Z}, +)\): 덧셈에 대한 정수 group(군)으로, 항등원은 \(0\)이고 각 \(n\)의 역원은 \(-n\)이다.
- \((\mathbb{Z}/n\mathbb{Z}, +)\): 정수 모듈로 \(n\), 위수 \(n\)인 유한 아벨 group(군)이다.
- \((S_n, \circ)\): \(n\)개 원소 위의 대칭군(symmetric group), 즉 \(\{1, \ldots, n\}\)의 모든 치환으로 이루어지며, 위수는 \(n!\)이다. \(n \geq 3\)이면 비가환이다.
- \((\operatorname{GL}_n(\mathbb{R}), \cdot)\): 가역인 \(n \times n\) 실수 행렬의 group(군)으로, 행렬 곱셈을 연산으로 갖는다.
- \((\mathbb{Z}/n\mathbb{Z})^\times\): 모듈로 \(n\) 단원군(group of units)으로, 위수는 \(\varphi(n)\)이다.
Concrete Group Examples
Definition 13.2a (Symmetric Group \(S_n\))
대칭군(symmetric group) \(S_n\)은 집합 \(\{1, 2, \ldots, n\}\)의 모든 치환(전단사 함수)의 group(군)이며, 연산은 함수 합성이다. \(|S_n| = n!\)이다. 각 치환은 순환(cycle)의 곱으로 유일하게(순서 제외) 분해된다. 길이 \(k\)인 순환 \((a_1\, a_2\, \cdots\, a_k)\)는 \(a_1 \mapsto a_2 \mapsto \cdots \mapsto a_k \mapsto a_1\)을 수행한다. 길이 2인 순환을 호환(transposition)이라 한다. 모든 치환은 호환의 곱으로 쓸 수 있으며, 필요한 호환의 수의 홀짝성은 치환에 의해 결정된다. 짝수 개의 호환으로 표현되는 치환을 짝치환(even permutation)이라 하고, 이들의 모임이 교대군(alternating group) \(A_n\)이며 \(|A_n| = n!/2\)이다.
Example 13.1a (\(S_3\)의 구조)
\(S_3\)은 위수 6인 가장 작은 비가환 group(군)이다. 원소를 나열하면:
$$
S_3 = \{e,\; (12),\; (13),\; (23),\; (123),\; (132)\}.
$$
순환 구조별로 분류하면: 항등원 \(e\), 호환 3개 \((12), (13), (23)\), 3-순환 2개 \((123), (132)\)이다. 위수별로 보면: \(\operatorname{ord}(e) = 1\), 호환의 위수는 2, 3-순환의 위수는 3이다. \(S_3\)의 켤레류는 \(\{e\}\), \(\{(12),(13),(23)\}\), \(\{(123),(132)\}\)의 세 개이다. \(S_3\)은 이면체군 \(D_3\)과 동형이다.
Definition 13.2b (Dihedral Group \(D_n\))
이면체군(dihedral group) \(D_n\)은 정\(n\)각형의 대칭군(등거리 변환군)이다. \(|D_n| = 2n\)이며, \(n\)개의 회전과 \(n\)개의 반사로 구성된다. 표시(presentation)는 다음과 같다:
$$
D_n = \langle r, s \mid r^n = e,\; s^2 = e,\; srs = r^{-1} \rangle,
$$
여기서 \(r\)은 \(2\pi/n\) 회전, \(s\)는 반사이다. \(D_n\)의 원소는 \(\{e, r, r^2, \ldots, r^{n-1}, s, sr, sr^2, \ldots, sr^{n-1}\}\)이다. \(n \geq 3\)이면 \(D_n\)은 비가환이다.
Example 13.1b (\(D_4\): 정사각형의 대칭)
\(D_4\)는 정사각형의 대칭군으로, 위수 8이다. 회전 4개: \(e, r, r^2, r^3\) (각각 \(0^\circ, 90^\circ, 180^\circ, 270^\circ\)). 반사 4개: \(s, sr, sr^2, sr^3\) (두 축 대칭과 두 대각선 대칭). 중심은 \(Z(D_4) = \{e, r^2\}\)이다. 정규 subgroup(부분군)은 \(\{e\}\), \(\{e, r^2\}\), \(\{e, r, r^2, r^3\}\), \(\{e, r^2, s, sr^2\}\), \(\{e, r^2, sr, sr^3\}\), \(D_4\) 자체이다.
Definition 13.2c (Matrix Groups)
실수체 \(\mathbb{R}\)(또는 일반 체 \(F\)) 위의 주요 행렬군은 다음과 같다:
- 일반선형군(general linear group) \(\operatorname{GL}_n(F) = \{A \in M_{n \times n}(F) : \det A \neq 0\}\): 가역 \(n \times n\) 행렬 전체, 행렬곱 연산.
- 특수선형군(special linear group) \(\operatorname{SL}_n(F) = \{A \in \operatorname{GL}_n(F) : \det A = 1\}\): \(\operatorname{GL}_n(F)\)의 정규 subgroup(부분군)이다.
- 직교군(orthogonal group) \(\operatorname{O}(n) = \{A \in \operatorname{GL}_n(\mathbb{R}) : A^T A = I\}\): 내적(유클리드 거리)을 보존하는 행렬.
- 특수직교군(special orthogonal group) \(\operatorname{SO}(n) = \{A \in \operatorname{O}(n) : \det A = 1\}\): 회전만을 나타내는 행렬. \(\operatorname{SO}(n) \trianglelefteq \operatorname{O}(n)\)이며 \([\operatorname{O}(n) : \operatorname{SO}(n)] = 2\)이다.
이들은 모두 무한군이지만, 유한체 \(\mathbb{F}_q\) 위에서 정의하면 유한군이 된다. 예를 들어 \(|\operatorname{GL}_2(\mathbb{F}_q)| = (q^2 - 1)(q^2 - q)\)이다.
추가적으로, 유니터리군(unitary group) \(\operatorname{U}(n) = \{A \in \operatorname{GL}_n(\mathbb{C}) : A^*A = I\}\)과 특수유니터리군 \(\operatorname{SU}(n) = \{A \in \operatorname{U}(n) : \det A = 1\}\)은 양자역학과 소립자 물리에서 쓴다. \(\operatorname{SO}(3)\)은 3차원 공간의 회전군이며, 로보틱스에서 강체 자세(attitude) 표현에 쓴다.
Example 13.1c (행렬군 사이의 포함 관계)
다음 포함 관계가 성립한다:
$$
\operatorname{SO}(n) \leq \operatorname{O}(n) \leq \operatorname{GL}_n(\mathbb{R}), \qquad
\operatorname{SO}(n) \leq \operatorname{SL}_n(\mathbb{R}) \leq \operatorname{GL}_n(\mathbb{R}).
$$
사상 \(\det : \operatorname{GL}_n(\mathbb{R}) \to \mathbb{R}^*\)는 group homomorphism(준동형)이며, \(\ker(\det) = \operatorname{SL}_n(\mathbb{R})\)이다. 제1동형정리에 의해 \(\operatorname{GL}_n(\mathbb{R})/\operatorname{SL}_n(\mathbb{R}) \cong \mathbb{R}^*\)이다. 마찬가지로 \(\operatorname{O}(n)/\operatorname{SO}(n) \cong \mathbb{Z}/2\mathbb{Z}\)이다.
Definition 13.3 (Subgroup)
부분집합 \(H \subseteq G\)가 \(G\)에서 물려받은 연산 아래 그 자체로 group(군)이 되면 \(H\)를
subgroup(부분군)이라 하고, \(H \leq G\)로 쓴다. 동치 조건으로, \(H\)가 subgroup(부분군)일 필요충분조건은 다음과 같다:
- \(H \neq \varnothing\) (보통, \(e \in H\)),
- 모든 \(a, b \in H\)에 대해 \(ab \in H\), 그리고
- 모든 \(a \in H\)에 대해 \(a^{-1} \in H\).
Theorem 13.1 (One-Step Subgroup Test)
공집합이 아닌 부분집합 \(H \subseteq G\)가 subgroup(부분군)일 필요충분조건은, 모든 \(a, b \in H\)에 대해 \(ab^{-1} \in H\)인 것이다.
Proof
(\(\Rightarrow\)) subgroup(부분군)은 연산과 역원에 대해 닫혀 있으므로 자명하다.
(\(\Leftarrow\)) \(H \neq \varnothing\)이므로 \(a \in H\)를 하나 택한다. 그러면 \(e = aa^{-1} \in H\)이다. 임의의 \(b \in H\)에 대해 \(b^{-1} = eb^{-1} \in H\)이다. 임의의 \(a, b \in H\)에 대해, \(b^{-1} \in H\)이므로 \(a(b^{-1})^{-1} = ab \in H\)이다. 결합법칙은 \(G\)로부터 상속된다. \(\blacksquare\)
Cyclic Groups
Definition 13.4 (Cyclic Group)
group(군) \(G\)가 순환군(cyclic)이란, \(G = \langle g \rangle = \{g^n : n \in \mathbb{Z}\}\)인 \(g \in G\)가 존재하는 것이다. 이때 \(g\)를 생성원(generator)이라 한다.
Theorem 13.2 (Classification of Cyclic Groups)
모든 순환군은 \(\mathbb{Z}\)(무한인 경우) 또는 \(\mathbb{Z}/n\mathbb{Z}\)(유한 위수 \(n\)인 경우)에 동형(isomorphic)이다.
Theorem 13.3 (Subgroups of Cyclic Groups)
- 순환군의 모든 subgroup(부분군)은 순환군이다.
- \(|G| = n\)이면, 각 약수 \(d \mid n\)에 대해 위수 \(d\)인 subgroup(부분군)이 정확히 하나 존재하며, 그것은 \(\langle g^{n/d} \rangle\)이다.
- \(\mathbb{Z}/n\mathbb{Z}\)의 생성원의 개수는 \(\varphi(n)\)이다. 여기서 \(\varphi\)는 오일러 토션트 함수이다.
Example 13.2
\(\mathbb{Z}/12\mathbb{Z}\)에서, subgroup(부분군)은 \(\langle 0 \rangle, \langle 6 \rangle, \langle 4 \rangle, \langle 3 \rangle, \langle 2 \rangle, \langle 1 \rangle\)이며, 위수는 각각 \(1, 2, 3, 4, 6, 12\)로, \(12\)의 각 약수에 하나씩 대응한다.
13.2 Cosets and Lagrange's Theorem
잉여류는 부분군이 군을 분할하는 방식을 보여준다. 라그랑주 정리는 유한군에서 가장 기본적인 제약 조건을 준다.
Definition 13.5 (Coset)
\(H \leq G\)이고 \(g \in G\)일 때, \(g\)를 포함하는 \(H\)의 좌잉여류(left coset)는
$$
gH = \{gh : h \in H\}
$$
이다. 우잉여류(right coset)는 \(Hg = \{hg : h \in H\}\)이다. \(G\)에서 \(H\)의 지표(index)는 \([G : H]\)로 표기하며, \(G\)에서 \(H\)의 서로 다른 좌잉여류의 개수이다.
좌잉여류는 \(G\)를 분할한다: 두 잉여류 \(aH\)와 \(bH\)는 같거나 서로소이며, \(G\)의 모든 원소는 정확히 하나의 좌잉여류에 속한다. 각 잉여류의 기수는 \(H\)의 기수와 같다.
Theorem 13.4 (Lagrange's Theorem)
\(G\)가 유한군이고 \(H \leq G\)이면, \(|H|\)는 \(|G|\)를 나눈다. 보다 정확히,
$$
|G| = [G : H] \cdot |H|.
$$
Proof
\(H\)의 서로 다른 좌잉여류들이 \(G\)를 분할한다. 각 잉여류는 정확히 \(|H|\)개의 원소를 가진다(사상 \(h \mapsto gh\)가 전단사 \(H \to gH\)이므로). 서로 다른 잉여류가 \([G:H]\)개이면, \(|G| = [G:H] \cdot |H|\)이다. \(\blacksquare\)
Corollary 13.1
- 모든 원소의 위수는 group(군)의 위수를 나눈다: \(\operatorname{ord}(g) \mid |G|\).
- 임의의 \(g \in G\)에 대해 \(g^{|G|} = e\).
- 소수 위수를 갖는 모든 group(군)은 순환군이다.
Example 13.3
\(S_3\)(위수 6)에서, 가능한 subgroup(부분군) 위수는 1, 2, 3, 6이다. subgroup(부분군) \(\langle (123) \rangle = \{e, (123), (132)\}\)는 위수 3, 지표 2이다. 이 subgroup(부분군)의 잉여류는 \(\{e, (123), (132)\}\)와 \(\{(12), (13), (23)\}\)이다.
13.3 Normal Subgroups and Quotient Groups
몫군(quotient group)은 어떤 대칭을 무시하고 남은 구조를 기술한다. 결정 격자의 병진 대칭(translation symmetry)을 몫으로 취하면 점군(point group)을 얻는데, 결정학에서 공간군을 점군으로 분류할 때 이 방법을 쓴다.
잉여류 위에 군 구조를 부여하려면 추가 조건이 필요하다. 정규 부분군이 그 조건을 충족시키며, 이로부터 몫군을 구성한다.
Definition 13.6 (Normal Subgroup)
subgroup(부분군) \(N \leq G\)가 정규(normal)라 함은, 모든 \(g \in G\)에 대해 \(gNg^{-1} = N\)인 것이며, \(N \trianglelefteq G\)로 표기한다. 모든 \(g\)에 대해 \(gN = Ng\)이다. 동치 조건으로, 좌잉여류와 우잉여류가 일치한다.
아벨 group(군)의 모든 subgroup(부분군)은 정규이다. 지표 2인 모든 subgroup(부분군)은 정규이다(잉여류가 두 개뿐이고, 그중 하나가 subgroup(부분군) 자체이므로). 임의의 homomorphism(준동형)의 kernel(핵)은 정규이다.
Definition 13.7 (Quotient Group)
\(N \trianglelefteq G\)이면, quotient group(상군)(또는 인자군)은
$$
G/N = \{gN : g \in G\}
$$
이며, 연산은 \((aN)(bN) = (ab)N\)으로 정의한다. 항등원은 \(eN = N\)이고, 역원은 \((gN)^{-1} = g^{-1}N\)이다. 위수는 \(|G/N| = [G:N]\)이다.
\(N\)이 정규이어야 잉여류의 곱셈이 잘 정의된다(well-defined). \(N\)이 정규가 아니면 좌잉여류의 집합은 군 구조를 물려받지 못한다.
Example 13.4
subgroup(부분군) \(n\mathbb{Z} \trianglelefteq \mathbb{Z}\)이고, quotient(몫) \(\mathbb{Z}/n\mathbb{Z}\)는 익숙한 정수 모듈로 \(n\) group(군)이다. \(S_3\)에서, subgroup(부분군) \(A_3 = \{e, (123), (132)\}\)는 정규이고(지표 2), \(S_3/A_3 \cong \mathbb{Z}/2\mathbb{Z}\)이다.
Theorem 13.5 (Simple Groups)
group(군) \(G\)가 단순(simple)이란, \(|G| > 1\)이고 정규 subgroup(부분군)이 \(\{e\}\)와 \(G\) 자신뿐인 것이다. 순환군 \(\mathbb{Z}/p\mathbb{Z}\)는 모든 소수 \(p\)에 대해 단순이다. 교대군 \(A_n\)은 \(n \geq 5\)일 때 단순이다.
13.4 Homomorphisms and Isomorphism Theorems
동형(isomorphic)인 군으로 기술되는 두 시스템은 한쪽에서 얻은 결과를 다른 쪽에 번역할 수 있다. 전기 회로의 임피던스 조합 법칙과 기계 시스템의 강성(stiffness) 조합 법칙이 같은 군 구조를 공유하는 것이 그 예이다.
준동형 사상은 군의 구조를 보존하며 한 군을 다른 군으로 보낸다. 동형 정리들은 핵, 상, 몫군 사이의 관계를 밝힌다.
Definition 13.8 (Group Homomorphism)
group(군) 사이의 사상 \(\varphi: G \to H\)가
homomorphism(준동형)이란, 모든 \(a, b \in G\)에 대해 \(\varphi(ab) = \varphi(a)\varphi(b)\)인 것이다. 주요 파생 성질:
- \(\varphi(e_G) = e_H\)
- \(\varphi(g^{-1}) = \varphi(g)^{-1}\)
kernel(핵)은 \(\ker \varphi = \{g \in G : \varphi(g) = e_H\}\)이고,
image(상)는 \(\operatorname{im} \varphi = \varphi(G)\)이다.
homomorphism(준동형)이 단사(injective)일 필요충분조건은 \(\ker \varphi = \{e\}\)인 것이다. 전단사 homomorphism(준동형)을 동형사상(isomorphism)이라 하고, \(G \cong H\)로 쓴다. group(군)에서 자기 자신으로의 동형사상을 자기동형사상(automorphism)이라 한다.
Theorem 13.6 (First Isomorphism Theorem)
\(\varphi: G \to H\)가 group(군) homomorphism(준동형)이면, \(\ker \varphi \trianglelefteq G\)이고
$$
G / \ker \varphi \cong \operatorname{im} \varphi.
$$
동형사상은 \(g \ker \varphi \mapsto \varphi(g)\)로 주어진다.
Proof
\(\bar{\varphi}: G/\ker\varphi \to \operatorname{im}\varphi\)를 \(\bar{\varphi}(g\ker\varphi) = \varphi(g)\)로 정의한다. 이것은 잘 정의된다: \(g\ker\varphi = g'\ker\varphi\)이면 \(g^{-1}g' \in \ker\varphi\)이므로 \(\varphi(g) = \varphi(g')\)이다. homomorphism(준동형)이다: \(\bar{\varphi}(gK \cdot g'K) = \bar{\varphi}(gg'K) = \varphi(gg') = \varphi(g)\varphi(g')\). 단사이다: \(\bar{\varphi}(gK) = e_H\)이면 \(g \in \ker\varphi\)이므로 \(gK = K\)이다. 정의에 의해 \(\operatorname{im}\varphi\) 위로의 전사이다. \(\blacksquare\)
Theorem 13.7 (Second Isomorphism Theorem)
\(H \leq G\)이고 \(N \trianglelefteq G\)라 하자. 그러면 \(HN \leq G\), \(H \cap N \trianglelefteq H\)이고,
$$
H / (H \cap N) \cong HN / N.
$$
Theorem 13.8 (Third Isomorphism Theorem)
\(N \trianglelefteq G\)이고 \(K \trianglelefteq G\)이며 \(N \leq K\)라 하자. 그러면 \(K/N \trianglelefteq G/N\)이고
$$
(G/N) / (K/N) \cong G/K.
$$
Example 13.5
\(\varphi: \mathbb{Z} \to \mathbb{Z}/n\mathbb{Z}\)를 \(\varphi(k) = k \bmod n\)으로 정의하자. 이것은 전사 homomorphism(준동형)이며 \(\ker \varphi = n\mathbb{Z}\)이다. 제1동형정리에 의해, \(\mathbb{Z}/n\mathbb{Z} \cong \mathbb{Z}/n\mathbb{Z}\)인데, 이는 동어반복적이지만 정리의 작동 원리를 보여 준다.
Example 13.4a (직접곱과 반직접곱)
group(군) \(G\)와 \(H\)의 직접곱(direct product)은 \(G \times H = \{(g, h) : g \in G, h \in H\}\)이며, 성분별 연산을 갖는다. 예를 들어, Klein 4-group은 \(V_4 = \mathbb{Z}/2\mathbb{Z} \times \mathbb{Z}/2\mathbb{Z}\)이며, 위수 4인 비순환 group(군)이다. 원소는 \(\{(0,0), (1,0), (0,1), (1,1)\}\)이고 모든 비항등 원소의 위수는 2이다. \(V_4\)는 \(S_4\)의 정규 subgroup(부분군)으로 나타나며, \(V_4 = \{e, (12)(34), (13)(24), (14)(23)\}\)이다.
Example 13.5a (부호 준동형과 교대군)
부호 사상(sign homomorphism) \(\operatorname{sgn}: S_n \to \{+1, -1\}\)는 짝치환을 \(+1\)로, 홀치환을 \(-1\)로 보낸다. 이것은 group homomorphism(준동형)이며 \(\ker(\operatorname{sgn}) = A_n\)이다. 제1동형정리에 의해 \(S_n / A_n \cong \mathbb{Z}/2\mathbb{Z}\)이다. 따라서 \(A_n \trianglelefteq S_n\)이고 \([S_n : A_n] = 2\)이다.
13.5 Group Actions and Sylow Theorems
분자 궤도 이론(molecular orbital theory)에서 분자의 대칭군이 전자 궤도 함수에 작용하면 허용 전이를 판별할 수 있다. Burnside 보조정리는 이성질체(isomer)의 수를 세거나, 대칭을 고려한 부호어(codeword)의 비동치류를 세는 데 쓰인다. Sylow 정리는 유한군의 구조를 소수 거듭제곱 단위로 분석한다.
군 작용은 군이 집합 위에 작용하는 상황을 형식화한다. 궤도-안정자 정리와 Burnside 보조정리는 조합론적 세기 문제에 쓰이고, Sylow 정리는 유한군의 소수 거듭제곱 위수 부분군의 존재와 개수를 확정한다.
Definition 13.9 (Group Action)
\(G\)의 집합 \(X\) 위의
group action(군 작용)이란, 사상 \(G \times X \to X\), \((g, x) \mapsto g \cdot x\)가 다음을 만족하는 것이다:
- 모든 \(x \in X\)에 대해 \(e \cdot x = x\),
- 모든 \(g, h \in G\)와 \(x \in X\)에 대해 \((gh) \cdot x = g \cdot (h \cdot x)\).
동치 조건으로, group action(군 작용)은 homomorphism(준동형) \(G \to \operatorname{Sym}(X)\)이다. 여기서 \(\operatorname{Sym}(X)\)는 \(X\)의 모든 전단사 사상의 group(군)이다.
Definition 13.10 (Orbits and Stabilizers)
\(x \in X\)에 대해:
- \(x\)의 궤도(orbit)는 \(\operatorname{Orb}(x) = G \cdot x = \{g \cdot x : g \in G\}\)이다.
- \(x\)의 안정자(stabilizer)는 \(\operatorname{Stab}(x) = G_x = \{g \in G : g \cdot x = x\} \leq G\)이다.
Theorem 13.9 (Orbit-Stabilizer Theorem)
유한군 \(G\)가 \(X\)에 작용할 때, 각 \(x \in X\)에 대해:
$$
|G| = |\operatorname{Orb}(x)| \cdot |\operatorname{Stab}(x)|.
$$
사상 \(g \operatorname{Stab}(x) \mapsto g \cdot x\)는 \(G/\operatorname{Stab}(x)\)에서 \(\operatorname{Orb}(x)\)로의 전단사이다.
Theorem 13.10 (Burnside's Lemma)
유한군 \(G\)가 유한 집합 \(X\)에 작용할 때, 서로 다른 궤도의 수는
$$
|\text{orbits}| = \frac{1}{|G|} \sum_{g \in G} |X^g|
$$
이다. 여기서 \(X^g = \{x \in X : g \cdot x = x\}\)는 \(g\)의 고정점 집합이다.
Burnside 보조정리는 세기 조합론(enumerative combinatorics)에서 "서로 다른" 구조의 수를 셀 때 쓴다. 대칭군이 구성(configuration)의 집합에 작용하면, 궤도의 수가 곧 대칭을 고려한 비동치 구성의 수이다.
Burnside's Lemma: Applications
Example 13.5b (목걸이 색칠 문제: 3구슬, 2색)
3개의 구슬로 이루어진 원형 목걸이를 2가지 색(흰, 검)으로 칠하는 서로 다른 목걸이의 수를 구하자. 회전 대칭만 고려하면 작용하는 group(군)은 \(\mathbb{Z}/3\mathbb{Z} = \{r^0, r^1, r^2\}\)이고, 색칠의 집합 \(X\)는 \(|X| = 2^3 = 8\)이다.
각 회전에 의해 고정되는 색칠의 수를 센다:
- \(r^0 = e\): 모든 색칠이 고정, \(|X^e| = 8\).
- \(r^1\) (120도 회전): 세 구슬이 모두 같은 색이어야 고정, \(|X^{r^1}| = 2\).
- \(r^2\) (240도 회전): 마찬가지로, \(|X^{r^2}| = 2\).
Burnside 보조정리에 의해, 서로 다른 목걸이의 수는
$$
\frac{1}{3}(8 + 2 + 2) = 4.
$$
실제로 나열하면: (흰흰흰), (검검검), (흰흰검), (흰검검)의 4가지이다.
Example 13.5c (목걸이 색칠 문제: 4구슬, 2색, 이면체군)
4개의 구슬로 이루어진 목걸이를 2가지 색으로 칠할 때, 회전과 뒤집기를 모두 대칭으로 간주하자. 작용하는 group(군)은 이면체군 \(D_4\)(위수 8)이고, \(|X| = 2^4 = 16\)이다.
\(D_4 = \{e, r, r^2, r^3, s, sr, sr^2, sr^3\}\)의 각 원소에 대해 고정점을 센다:
- \(e\): \(|X^e| = 16\).
- \(r\) (90도): 4구슬 모두 같은 색, \(|X^r| = 2\).
- \(r^2\) (180도): 대각 쌍끼리 같은 색, \(|X^{r^2}| = 2^2 = 4\).
- \(r^3\) (270도): \(r\)과 같은 조건, \(|X^{r^3}| = 2\).
- \(s, sr^2\) (대변 중점을 잇는 축 반사): 각각 2쌍이 고정, \(|X^s| = |X^{sr^2}| = 2^2 = 4\).
- \(sr, sr^3\) (대각선 축 반사): 2개 구슬 자유 + 2개 구슬 교환, \(|X^{sr}| = |X^{sr^3}| = 2^3 = 8\).
따라서 서로 다른 목걸이의 수는
$$
\frac{1}{8}(16 + 2 + 4 + 2 + 4 + 8 + 4 + 8) = \frac{48}{8} = 6.
$$
Theorem 13.11 (Class Equation)
\(G\)가 켤레변환(conjugation)으로 자기 자신에 작용한다고 하자(\(g \cdot x = gxg^{-1}\)). 궤도는 켤레류(conjugacy class)이다. 중심(center) \(Z(G) = \{g \in G : gx = xg \text{ for all } x \in G\}\)은 켤레류의 크기가 1인 원소들로 이루어진다. 그러면:
$$
|G| = |Z(G)| + \sum_{i} [G : C_G(g_i)],
$$
여기서 합은 비중심 켤레류에서 각각 하나의 대표원 \(g_i\)에 대해 취하며, \(C_G(g_i)\)는 \(g_i\)의 중심화군(centralizer)이다.
Sylow Theorems
Definition 13.11 (\(p\)-Group, Sylow Subgroup)
\(p\)를 소수라 하자. \(p\)-group(\(p\)-군)은 어떤 \(k \geq 1\)에 대해 위수가 \(p^k\)인 group(군)이다. \(|G| = p^a m\)이고 \(\gcd(p, m) = 1\), \(a \geq 1\)이면, \(G\)의 Sylow \(p\)-subgroup(\(p\)-부분군)은 위수 \(p^a\)인 subgroup(부분군)이다.
Theorem 13.12 (Sylow Theorems)
\(G\)를 \(|G| = p^a m\), \(p \nmid m\)인 유한군이라 하자. \(n_p\)를 \(G\)의 Sylow \(p\)-subgroup(부분군)의 개수라 하자.
- Sylow I (Existence): \(G\)에 Sylow \(p\)-subgroup(부분군)이 적어도 하나 존재한다.
- Sylow II (Conjugacy): 임의의 두 Sylow \(p\)-subgroup(부분군)은 \(G\)에서 켤레이다. 특히, 임의의 \(p\)-subgroup(부분군)은 어떤 Sylow \(p\)-subgroup(부분군)에 포함된다.
- Sylow III (Counting): \(n_p \equiv 1 \pmod{p}\)이고 \(n_p \mid m\)이다.
Proof
(Sylow I의 개요.) \(G\)에서 크기 \(p^a\)인 부분집합 전체의 집합 \(\mathcal{S}\)를 생각하자. \(G\)는 좌곱셈(left multiplication)으로 \(\mathcal{S}\)에 작용한다. 세기 논증에 의해 \(|\mathcal{S}| = \binom{p^a m}{p^a}\)은 일정 거듭제곱 이상으로는 \(p\)로 나누어지지 않으므로, 크기가 \(p\)로 나누어지지 않는 궤도가 존재해야 한다. 그러한 궤도에 속하는 집합의 안정자는 위수가 적어도 \(p^a\)이며, \(G\)의 subgroup(부분군)으로서 위수가 \(p^a m\)을 나누므로 정확히 \(p^a\)이다. Sylow II와 III는 Sylow \(p\)-subgroup(부분군)들이 켤레변환으로 서로에게 작용하는 것에서 따라 나온다. \(\blacksquare\)
Example 13.6
\(|G| = 12 = 2^2 \cdot 3\)이라 하자. Sylow 정리에 의해 \(n_3 \mid 4\)이고 \(n_3 \equiv 1 \pmod{3}\)이므로 \(n_3 \in \{1, 4\}\)이다. 또한, \(n_2 \mid 3\)이고 \(n_2 \equiv 1 \pmod{2}\)이므로 \(n_2 \in \{1, 3\}\)이다. \(n_3 = 1\)이면 유일한 Sylow 3-subgroup(부분군)이 정규이다. \(\mathbb{Z}/12\mathbb{Z}\), \(\mathbb{Z}/2\mathbb{Z} \times \mathbb{Z}/6\mathbb{Z}\), 이면체군 \(D_6\)가 이 경우에 해당한다. \(n_3 = 4\)이면 \(A_4\)를 얻는다.
주어진 위수의 군을 분류할 때, Sylow 정리로 가능한 Sylow 수를 제한한 뒤 각 경우를 분석하는 것이 표준 전략이다.
Sylow Theorems: Detailed Application
Example 13.6a (\(|G| = 12\)인 군의 완전 분류)
\(|G| = 12 = 2^2 \cdot 3\)인 group(군)을 Sylow 정리를 이용하여 분류하자.
Step 1: Sylow 수 결정. Sylow 정리에 의해:
- \(n_3 \mid 4\), \(n_3 \equiv 1 \pmod{3}\) \(\Rightarrow\) \(n_3 \in \{1, 4\}\).
- \(n_2 \mid 3\), \(n_2 \equiv 1 \pmod{2}\) \(\Rightarrow\) \(n_2 \in \{1, 3\}\).
Step 2: \(n_3 = 4\)인 경우. Sylow 3-subgroup(부분군) 4개가 있고, 각각 위수 3이므로, 항등원이 아닌 위수 3의 원소가 \(4 \times 2 = 8\)개이다. 나머지 원소는 \(12 - 8 = 4\)개이며, 이들이 유일한 Sylow 2-subgroup(부분군)(위수 4)을 이루므로 \(n_2 = 1\)이다. 이 경우 \(G\)의 Sylow 3-subgroup(부분군)에 대한 켤레 작용은 homomorphism(준동형) \(G \to S_4\)를 유도하며, 상(image)이 \(A_4\)임을 보일 수 있다. 따라서 \(G \cong A_4\)이다.
Step 3: \(n_3 = 1\)인 경우. 유일한 Sylow 3-subgroup(부분군) \(P \cong \mathbb{Z}/3\mathbb{Z}\)가 정규이다. Sylow 2-subgroup(부분군) \(Q\)는 위수 4이므로 \(Q \cong \mathbb{Z}/4\mathbb{Z}\) 또는 \(Q \cong \mathbb{Z}/2\mathbb{Z} \times \mathbb{Z}/2\mathbb{Z}\)이다. \(P \cap Q = \{e\}\)이고 \(|PQ| = |P||Q|/|P \cap Q| = 12 = |G|\)이므로 \(G = PQ\)이다. \(P \trianglelefteq G\)이므로 \(G\)는 \(P\)와 \(Q\)의 반직접곱(semidirect product)이다.
- \(Q \cong \mathbb{Z}/4\mathbb{Z}\)이고 작용이 자명하면: \(G \cong \mathbb{Z}/3\mathbb{Z} \times \mathbb{Z}/4\mathbb{Z} \cong \mathbb{Z}/12\mathbb{Z}\).
- \(Q \cong \mathbb{Z}/4\mathbb{Z}\)이고 작용이 비자명하면: \(G \cong \mathbb{Z}/3\mathbb{Z} \rtimes \mathbb{Z}/4\mathbb{Z}\). \(\operatorname{Aut}(\mathbb{Z}/3\mathbb{Z}) \cong \mathbb{Z}/2\mathbb{Z}\)이므로 비자명 homomorphism(준동형) \(\mathbb{Z}/4\mathbb{Z} \to \mathbb{Z}/2\mathbb{Z}\)이 하나 존재한다. 이 경우 \(G \cong \mathbb{Z}/3\mathbb{Z} \rtimes \mathbb{Z}/4\mathbb{Z}\), 즉 이분 교대군(dicyclic group) \(\operatorname{Dic}_3\)이다. 이것은 \(D_6\)와 동형이 아님에 주의한다.
- \(Q \cong \mathbb{Z}/2\mathbb{Z} \times \mathbb{Z}/2\mathbb{Z}\)이고 작용이 자명하면: \(G \cong \mathbb{Z}/3\mathbb{Z} \times \mathbb{Z}/2\mathbb{Z} \times \mathbb{Z}/2\mathbb{Z} \cong \mathbb{Z}/6\mathbb{Z} \times \mathbb{Z}/2\mathbb{Z}\).
- \(Q \cong \mathbb{Z}/2\mathbb{Z} \times \mathbb{Z}/2\mathbb{Z}\)이고 작용이 비자명하면: \(G \cong D_6\) (이면체군, 위수 12).
결론. 위수 12인 group(군)은 동형류가 5개이다: \(\mathbb{Z}/12\mathbb{Z}\), \(\mathbb{Z}/6\mathbb{Z} \times \mathbb{Z}/2\mathbb{Z}\), \(D_6\), \(\operatorname{Dic}_3\), \(A_4\).
Example 13.6b (Sylow 정리로 위수 15인 군이 순환군임을 증명)
\(|G| = 15 = 3 \cdot 5\)라 하자. Sylow 정리에 의해:
- \(n_3 \mid 5\), \(n_3 \equiv 1 \pmod{3}\) \(\Rightarrow\) \(n_3 \in \{1\}\). 따라서 유일한 Sylow 3-subgroup(부분군) \(P \cong \mathbb{Z}/3\mathbb{Z}\)가 정규이다.
- \(n_5 \mid 3\), \(n_5 \equiv 1 \pmod{5}\) \(\Rightarrow\) \(n_5 \in \{1\}\). 따라서 유일한 Sylow 5-subgroup(부분군) \(Q \cong \mathbb{Z}/5\mathbb{Z}\)가 정규이다.
\(P \cap Q = \{e\}\)이고 \(|PQ| = 15 = |G|\)이므로, \(G \cong P \times Q \cong \mathbb{Z}/3\mathbb{Z} \times \mathbb{Z}/5\mathbb{Z} \cong \mathbb{Z}/15\mathbb{Z}\). 따라서 위수 15인 group(군)은 반드시 순환군이다. 같은 논증이 \(|G| = pq\) (\(p < q\) 소수, \(p \nmid q-1\))인 모든 경우에 적용된다.
Example 13.6c (Class Equation 응용: \(p\)-군의 중심)
\(G\)가 비자명 \(p\)-군(\(|G| = p^k\), \(k \geq 1\))이면, \(Z(G) \neq \{e\}\)이다. Class equation \(|G| = |Z(G)| + \sum [G:C_G(g_i)]\)에서, 좌변은 \(p\)의 배수이고, 각 비중심 항 \([G:C_G(g_i)]\)는 \(1\)보다 큰 \(|G|\)의 약수이므로 \(p\)의 배수이다. 따라서 \(p \mid |Z(G)|\)이고, \(|Z(G)| \geq p\)이다.
응용: \(|G| = p^2\)이면, \(|Z(G)| \in \{p, p^2\}\)이다. \(|Z(G)| = p^2\)이면 \(G\)는 아벨이다. \(|Z(G)| = p\)이면 \(G/Z(G)\)의 위수가 \(p\)이므로 순환, 따라서 \(G\)는 아벨이다 (모순). 결론: 위수 \(p^2\)인 group(군)은 반드시 아벨이며, \(\mathbb{Z}/p^2\mathbb{Z}\) 또는 \(\mathbb{Z}/p\mathbb{Z} \times \mathbb{Z}/p\mathbb{Z}\)와 동형이다. 예를 들어, 위수 4인 group(군)은 \(\mathbb{Z}/4\mathbb{Z}\) 또는 \(V_4 = \mathbb{Z}/2\mathbb{Z} \times \mathbb{Z}/2\mathbb{Z}\)뿐이며, 위수 9인 group(군)은 \(\mathbb{Z}/9\mathbb{Z}\) 또는 \(\mathbb{Z}/3\mathbb{Z} \times \mathbb{Z}/3\mathbb{Z}\)뿐이다.
Theorem 13.13 (Cauchy's Theorem)
소수 \(p\)가 \(|G|\)를 나누면, \(G\)는 위수 \(p\)인 원소를 포함한다.
Proof
이것은 Sylow I로부터 바로 따라 나온다: Sylow \(p\)-subgroup(부분군) \(P\)는 위수 \(p^a \geq p\)를 가지므로, 라그랑주 정리에 의해 \(P\)는 위수 \(p\)인 subgroup(부분군)을 가진다. 이 subgroup(부분군)은 반드시 순환이며 위수 \(p\)인 원소에 의해 생성된다. 다른 직접적인 증명으로는 class equation을 사용한다: \(|G| = |Z(G)| + \sum [G:C_G(g_i)]\)에서, \(p \mid |G|\)이고 \(p\)가 모든 비중심 항을 나누면, \(p \mid |Z(G)|\)이고, 아벨의 경우(위수 \(p\)인 원소를 직접 찾을 수 있는)로 논증을 마무리한다. \(\blacksquare\)
Sources: Harvard Abstract Algebra, Dummit & Foote (Abstract Algebra, 3rd ed.), UPenn Math371/602/603/620/702.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
14. Rings and Fields
환(ring)은 덧셈과 곱셈 두 가지 연산을 가진 구조이다. 정수 \(\mathbb{Z}\), 다항식 환 \(R[x]\), 행렬 환 등 익숙한 대상들이 모두 환이다. 군이 하나의 연산에 대한 대칭성을 다뤘다면, 환과 체는 두 연산의 상호작용을 탐구한다. 이 장에서는 환과 아이디얼의 기본 이론에서 출발하여 다항식 환, 체 확장, 유한체까지 다룬다.
정수에서 자연스럽게 수행하는 덧셈, 곱셈, 나머지 연산은 다항식에서도 거의 동일한 규칙을 따른다. 이 관찰이 환론의 출발점이다. "정수와 다항식이 공유하는 연산 구조"를 추상화하면 환(ring)이 되고, 거기에 "나눗셈이 자유롭게 가능한" 조건을 추가하면 체(field)가 된다. 이 추상화는 디지털 통신과 암호학에서 직접 쓰인다.
디지털 통신에서 오류를 정정하는 BCH 부호와 Reed-Solomon 부호는 다항식 환 \(\mathbb{F}_q[x]\) 위의 대수 구조를 쓴다. CD, DVD, QR 코드, 심우주 위성 통신 모두 이 이론의 산물이다. AES(Advanced Encryption Standard) 암호화의 핵심 연산은 유한체 \(\operatorname{GF}(2^8)\)에서의 다항식 산술이며, 현대 인터넷 보안의 근간이다. 신호처리에서 z-변환(z-transform)은 이산 신호를 다항식(또는 형식적 멱급수)으로 표현하며, 디지털 필터의 설계와 분석은 다항식 환 위의 연산으로 돌아간다.
14.1 Rings and Ideals
환의 공리는 우리가 정수에서 익숙하게 사용하는 산술 규칙 -- 덧셈의 교환/결합 법칙, 곱셈의 결합법칙, 분배법칙 -- 을 최소한의 요구 조건으로 추출한 것이다. 아이디얼(ideal)은 환에서 "나머지 연산"을 가능하게 하는 특별한 부분집합으로, 정수에서 \(n\)의 배수 집합 \(n\mathbb{Z}\)가 그 원형(prototype)이다. 아이디얼을 통해 몫환(quotient ring)을 구성하면, 복소수체 \(\mathbb{C}\)를 \(\mathbb{R}[x]/(x^2+1)\)로 대수적으로 구성하는 것처럼, 원하는 성질을 갖는 새로운 환과 체를 체계적으로 만들어낼 수 있다.
Definition 14.1 (Ring)
ring(환)은 두 이항연산 \(+\)와 \(\cdot\)를 갖춘 집합 \(R\)로, 다음을 만족한다:
- \((R, +)\)는 아벨 group(군)이다(항등원은 \(0\)).
- 곱셈은 결합적이다: \(a(bc) = (ab)c\).
- 분배법칙이 성립한다: \(a(b + c) = ab + ac\)이고 \((a + b)c = ac + bc\).
모든 \(a, b\)에 대해 \(ab = ba\)이면 ring(환)을
가환(commutative)이라 한다. 모든 \(a\)에 대해 \(1 \cdot a = a \cdot 1 = a\)인 \(1 \in R\)이 존재하면, ring(환)은
항등원을 가진다(unital)고 한다. 항등원을 가진 가환 ring(환)에서 영이 아닌 원소 \(a\)가
영인자(zero divisor)란, \(ab = 0\)인 영이 아닌 \(b\)가 존재하는 것이다.
Definition 14.2 (Integral Domain, Field)
정역(integral domain)은 \(1 \neq 0\)인 항등원을 가진 가환 ring(환)으로 영인자가 없는 것이다. field(체)는 모든 영이 아닌 원소가 곱셈에 대한 역원을 갖는, 항등원을 가진 가환 ring(환)이다. \((R \setminus \{0\}, \cdot)\)가 아벨 group(군)이다. 모든 field(체)는 정역이다.
Example 14.1
- \(\mathbb{Z}\)는 정역이지만 field(체)는 아니다.
- \(\mathbb{Q}, \mathbb{R}, \mathbb{C}\)는 field(체)이다.
- \(\mathbb{Z}/n\mathbb{Z}\)가 field(체)일 필요충분조건은 \(n\)이 소수인 것이다. \(n\)이 합성수이면, 가령 \(n = ab\)이면, \(\bar{a} \cdot \bar{b} = \bar{0}\)이 영인자이다.
- \(M_n(\mathbb{R})\)(\(n \times n\) 행렬의 ring(환))은 \(n \geq 2\)일 때 항등원을 가진 비가환 ring(환)이다.
Example 14.1a (구체적 환 예제: 정수환과 다항식환)
(a) 정수환 \(\mathbb{Z}\)의 아이디얼 구조. \(\mathbb{Z}\)는 PID이므로 모든 ideal(아이디얼)은 주 아이디얼이다. 모든 ideal(아이디얼)은 어떤 정수 \(n\)에 대해 \((n) = n\mathbb{Z} = \{\ldots, -2n, -n, 0, n, 2n, \ldots\}\) 형태이다. 몫환 \(\mathbb{Z}/(n)\)은 원소가 \(n\)개인 환 \(\mathbb{Z}/n\mathbb{Z}\)이다. 아이디얼의 포함 관계는 나눗셈(divisibility)의 역순을 따른다: \((m) \supseteq (n) \iff m \mid n\). 예를 들어 \((6) \subset (3) \subset (1) = \mathbb{Z}\)이다.
(b) 다항식환 \(\mathbb{R}[x]\)에서의 아이디얼과 몫환. \(\mathbb{R}[x]\)는 유클리드 정역이므로 PID이다. \(f(x) = x^2 + 1\)은 \(\mathbb{R}\) 위에서 기약이다(실수 근이 없으므로). 따라서 \((x^2+1)\)은 극대 아이디얼이고, 몫환은
$$
\mathbb{R}[x]/(x^2+1) \cong \mathbb{C}
$$
이다. 이 동형은 \(\bar{x} \mapsto i\)로 주어진다. 몫환의 원소는 \(a + b\bar{x}\) (\(a,b \in \mathbb{R}\))이고, \(\bar{x}^2 = -1\)이므로 복소수의 곱셈 규칙과 정확히 일치한다. 이 복소수체를 대수적으로 구성하는 표준적인 방법이다.
(c) 다항식환 \(\mathbb{Z}[x]\)의 아이디얼. \(\mathbb{Z}[x]\)는 UFD이지만 PID가 아니다. 예를 들어, 아이디얼 \((2, x) = \{f(x) \in \mathbb{Z}[x] : f(0) \text{이 짝수}\}\)는 주 아이디얼이 아니다. 만약 \((2, x) = (g(x))\)라면, \(g \mid 2\)이고 \(g \mid x\)여야 한다. \(g \mid 2\)에서 \(g\)는 상수이고, \(g \mid x\)에서 \(g = \pm 1\)이어야 하지만, 그러면 \((g) = \mathbb{Z}[x] \neq (2, x)\)이므로 모순이다. 몫환 \(\mathbb{Z}[x]/(2, x) \cong \mathbb{Z}/2\mathbb{Z} = \mathbb{F}_2\)는 field(체)이므로 \((2, x)\)는 극대 아이디얼이다.
Definition 14.3 (Ideal)
ring(환) \(R\)의 부분집합 \(I \subseteq R\)가
ideal(아이디얼)이란, \(I \trianglelefteq R\)로 쓰며, 다음을 만족하는 것이다:
- \((I, +)\)는 \((R, +)\)의 subgroup(부분군)이고,
- 모든 \(r \in R\)과 \(a \in I\)에 대해 \(ra \in I\)이고 \(ar \in I\)이다(흡수 성질).
원소 \(a_1, \ldots, a_k\)에 의해 생성되는 ideal(아이디얼)은 \((a_1, \ldots, a_k) = \{r_1 a_1 + \cdots + r_k a_k : r_i \in R\}\)이다.
주 ideal(주 아이디얼)은 단일 원소로 생성되는 것이다: \((a) = Ra\).
Definition 14.4 (Quotient Ring)
\(I \trianglelefteq R\)이면, quotient ring(몫환) \(R/I = \{r + I : r \in R\}\)은 다음 연산을 갖는다:
$$
(a + I) + (b + I) = (a + b) + I, \qquad (a + I)(b + I) = ab + I.
$$
자연 사영 \(\pi: R \to R/I\), \(\pi(r) = r + I\)는 kernel(핵)이 \(I\)인 전사 ring(환) homomorphism(준동형)이다.
Theorem 14.1 (Ring Isomorphism Theorems)
- First: \(\varphi: R \to S\)가 ring(환) homomorphism(준동형)이면, \(\ker \varphi \trianglelefteq R\)이고 \(R / \ker \varphi \cong \operatorname{im} \varphi\)이다.
- Second: \(S\)가 부분환(subring)이고 \(I \trianglelefteq R\)이면, \(S/(S \cap I) \cong (S + I)/I\)이다.
- Third: \(I \subseteq J\)가 \(R\)의 ideal(아이디얼)이면, \((R/I)/(J/I) \cong R/J\)이다.
Theorem 14.2 (Prime and Maximal Ideals)
\(R\)을 항등원을 가진 가환 ring(환)이라 하자.
- ideal(아이디얼) \(P \neq R\)가 소(prime)란, \(ab \in P\)이면 \(a \in P\)이거나 \(b \in P\)인 것이다. 동치 조건으로, \(R/P\)가 정역이다.
- ideal(아이디얼) \(M \neq R\)가 극대(maximal)란, \(M \subsetneq I \subsetneq R\)인 ideal(아이디얼) \(I\)가 존재하지 않는 것이다. 동치 조건으로, \(R/M\)이 field(체)이다.
- 모든 극대 ideal(아이디얼)은 소 ideal(아이디얼)이다. 역은 PID에서는 성립하지만 일반적으로는 성립하지 않는다.
Example 14.2
\(\mathbb{Z}\)에서, 각 소수 \(p\)에 대해 ideal(아이디얼) \((p)\)는 극대(이자 소)이다. \(\mathbb{Z}/(p) \cong \mathbb{F}_p\)가 field(체)이기 때문이다. ideal(아이디얼) \((0)\)은 소이지만(\(\mathbb{Z}\)가 정역이므로) 극대는 아니다. ideal(아이디얼) \((6) = (2) \cap (3)\)은 소도 극대도 아니다.
14.2 Polynomial Rings, PIDs, and UFDs
정수의 소인수분해(prime factorization)는 수론의 근본 정리이다. 이 "유일한 인수분해" 성질이 다항식, 가우스 정수 등 다른 환에서도 성립하는지를 묻는 것이 유일 인수분해 정역(UFD)의 동기이다. 공학적으로, 디지털 통신에서 다항식의 기약 분해(irreducible factorization)는 순환 부호(cyclic code)의 생성 다항식(generator polynomial)을 결정하며, CRC(Cyclic Redundancy Check)의 설계는 \(\mathbb{F}_2[x]\)에서의 다항식 나눗셈에 직접 의존한다.
PID와 UFD는 정수의 소인수분해가 어느 범위까지 일반화되는지 보여주는 개념이다.
Definition 14.5 (Polynomial Ring)
가환 ring(환) \(R\)에 대해, 다항식 ring(환) \(R[x]\)는 형식적 표현 \(a_n x^n + \cdots + a_1 x + a_0\) (\(a_i \in R\))으로 이루어지며, 통상적인 덧셈과 곱셈을 갖는다. \(R\)이 정역이면 \(R[x]\)도 정역이고, \(\deg(fg) = \deg f + \deg g\)이다.
Theorem 14.3 (Division Algorithm for Polynomials)
\(F\)를 field(체)라 하고, \(f, g \in F[x]\), \(g \neq 0\)이라 하자. 그러면
$$
f = qg + r, \quad \deg r < \deg g
$$
를 만족하는 유일한 \(q, r \in F[x]\)가 존재한다. 따라서 \(F[x]\)는 유클리드 정역(Euclidean domain)이다(고로 PID이고, 고로 UFD이다).
Definition 14.6 (PID, UFD)
- 주 ideal(아이디얼) 정역(principal ideal domain, PID)은 모든 ideal(아이디얼)이 주 ideal(아이디얼)인 정역이다.
- 유일 인수 분해 정역(unique factorization domain, UFD)은 모든 영이 아닌 비단원(non-unit) 원소가 기약원(irreducible)의 곱으로 분해되며, 그 분해가 순서와 동반원(associate)을 제외하면 유일한 정역이다.
- 유클리드 정역(Euclidean domain)은 나눗셈 알고리즘을 지원하는 노름 함수 \(N: R \setminus \{0\} \to \mathbb{Z}_{\geq 0}\)를 갖춘 정역이다.
포함 관계는 다음과 같다:
$$
\text{Fields} \subset \text{Euclidean domains} \subset \text{PIDs} \subset \text{UFDs} \subset \text{Integral domains}.
$$
Example 14.3
- \(\mathbb{Z}\)는 유클리드 정역(노름 \(N(a) = |a|\))이므로, PID이자 UFD이다.
- \(\mathbb{Z}[i] = \{a + bi : a, b \in \mathbb{Z}\}\)(가우스 정수)는 노름 \(N(a+bi) = a^2 + b^2\)을 갖는 유클리드 정역이다.
- \(\mathbb{Z}[x]\)는 UFD이지만 PID가 아니다: ideal(아이디얼) \((2, x)\)는 주 ideal(아이디얼)이 아니다.
- \(\mathbb{Z}[\sqrt{-5}]\)는 UFD가 아니다: \(6 = 2 \cdot 3 = (1+\sqrt{-5})(1-\sqrt{-5})\)가 두 가지 서로 다른 기약 인수 분해이다.
Theorem 14.4 (Irreducibility Criteria)
- Eisenstein's Criterion: \(f(x) = a_n x^n + \cdots + a_0 \in \mathbb{Z}[x]\)라 하자. 소수 \(p\)가 존재하여 \(p \nmid a_n\), \(0 \leq i < n\)인 모든 \(i\)에 대해 \(p \mid a_i\), 그리고 \(p^2 \nmid a_0\)이면, \(f\)는 \(\mathbb{Q}\) 위에서 기약이다.
- Gauss's Lemma: \(f \in \mathbb{Z}[x]\)가 원시적(primitive)(계수의 최대공약수가 1)이면, \(f\)가 \(\mathbb{Z}[x]\)에서 기약일 필요충분조건은 \(\mathbb{Q}[x]\)에서 기약인 것이다.
Example 14.4
다항식 \(f(x) = x^4 + 1\)은 \(\mathbb{Q}\) 위에서 기약이지만, 모든 소수 \(p\)에 대해 모듈로 \(p\)에서는 가약이다. 원분 다항식 \(\Phi_p(x) = x^{p-1} + x^{p-2} + \cdots + 1\)은 \(\Phi_p(x+1)\)에 아이젠슈타인 판정법을 적용하면 \(\mathbb{Q}\) 위에서 기약임이 증명된다.
14.3 Field Extensions
체 확장은 기존 수 체계에서 풀리지 않는 방정식의 근을 추가하여 더 큰 수 체계를 만드는 방법이다. 실수에서 \(x^2 + 1 = 0\)의 근 \(i\)를 추가하면 복소수 \(\mathbb{C}\)가 된다. 이 과정을 임의의 체와 임의의 다항식으로 일반화한 것이 체 확장 이론이다. 유한체의 확장 \(\mathbb{F}_{2^n}/\mathbb{F}_2\)에서 확장 차수 \(n\)은 AES의 블록 비트 길이나 Reed-Solomon 부호의 심볼 크기(symbol size)를 결정한다.
체 확장은 기존 체에 새 원소를 첨가하여 더 큰 체를 구성하는 과정이다. 작도 불가능 문제의 해결과 갈루아 이론이 이 위에 놓인다.
Definition 14.7 (Field Extension)
field extension(체 확장) \(K/F\)란, field(체) \(K\)가 \(F\)를 부분체(subfield)로 포함하는 것이다. 확장의 차수(degree) \([K : F]\)는 \(K\)를 \(F\) 위의 벡터 공간으로 볼 때의 차원이다. \([K:F] < \infty\)이면 확장은 유한(finite)이다.
Theorem 14.5 (Tower Law)
\(F \subseteq K \subseteq L\)이 field(체)이면,
$$
[L : F] = [L : K] \cdot [K : F].
$$
Definition 14.8 (Algebraic, Transcendental)
원소 \(\alpha \in K\)가 \(F\) 위에서 대수적(algebraic)이란, \(F[x]\)의 어떤 영이 아닌 다항식의 근인 것이다. \(\alpha\)의 최소다항식(minimal polynomial)은 \(m_\alpha(\alpha) = 0\)인 유일한 모닉 기약 다항식 \(m_\alpha(x) \in F[x]\)이다. \(\alpha\)가 대수적이 아니면 초월적(transcendental)이라 한다.
Theorem 14.6
\(\alpha\)가 \(F\) 위에서 대수적이고 최소다항식의 차수가 \(n\)이면,
$$
F(\alpha) \cong F[x]/(m_\alpha(x)),
$$
이고 \([F(\alpha) : F] = n\)이다. \(F(\alpha)\)의 \(F\) 위의 기저는 \(\{1, \alpha, \alpha^2, \ldots, \alpha^{n-1}\}\)이다.
Example 14.5
\(\sqrt{2}\)는 \(\mathbb{Q}\) 위에서 대수적이며 최소다항식은 \(x^2 - 2\)이다. 따라서 \(\mathbb{Q}(\sqrt{2}) = \{a + b\sqrt{2} : a, b \in \mathbb{Q}\}\)이고, \([\mathbb{Q}(\sqrt{2}) : \mathbb{Q}] = 2\)이다.
Example 14.5a (체 확장 \(\mathbb{Q}(\sqrt{2})\)의 상세 구조)
산술 연산. \(\mathbb{Q}(\sqrt{2})\)의 원소는 \(a + b\sqrt{2}\) (\(a, b \in \mathbb{Q}\)) 형태이다. 덧셈은 성분별로 수행한다: \((a + b\sqrt{2}) + (c + d\sqrt{2}) = (a+c) + (b+d)\sqrt{2}\). 곱셈은 \(\sqrt{2}^2 = 2\)를 이용한다:
$$
(a + b\sqrt{2})(c + d\sqrt{2}) = ac + ad\sqrt{2} + bc\sqrt{2} + 2bd = (ac + 2bd) + (ad + bc)\sqrt{2}.
$$
역원 계산. \(a + b\sqrt{2} \neq 0\)의 곱셈 역원은 켤레를 이용하여 구한다:
$$
\frac{1}{a + b\sqrt{2}} = \frac{a - b\sqrt{2}}{a^2 - 2b^2} = \frac{a}{a^2 - 2b^2} - \frac{b}{a^2 - 2b^2}\sqrt{2}.
$$
분모 \(a^2 - 2b^2 \neq 0\)은 \(\sqrt{2}\)가 무리수이므로 \(a + b\sqrt{2} \neq 0\)일 때 항상 성립한다. 예: \((3 + 2\sqrt{2})^{-1} = \frac{3 - 2\sqrt{2}}{9 - 8} = 3 - 2\sqrt{2}\).
Tower Law 활용. \(\mathbb{Q} \subset \mathbb{Q}(\sqrt{2}) \subset \mathbb{Q}(\sqrt{2}, \sqrt{3})\)을 생각하자. \(\sqrt{3}\)의 \(\mathbb{Q}(\sqrt{2})\) 위에서의 최소다항식은 \(x^2 - 3\)이다(이 \(\mathbb{Q}(\sqrt{2})\)에서 기약임을 확인해야 한다: \(\sqrt{3} = a + b\sqrt{2}\)이면 \(3 = a^2 + 2b^2 + 2ab\sqrt{2}\)에서 \(ab = 0\)이어야 하고, \(b = 0\)이면 \(a^2 = 3\)이므로 \(a \notin \mathbb{Q}\), \(a = 0\)이면 \(2b^2 = 3\)이므로 \(b \notin \mathbb{Q}\)). Tower Law에 의해:
$$
[\mathbb{Q}(\sqrt{2}, \sqrt{3}) : \mathbb{Q}] = [\mathbb{Q}(\sqrt{2}, \sqrt{3}) : \mathbb{Q}(\sqrt{2})] \cdot [\mathbb{Q}(\sqrt{2}) : \mathbb{Q}] = 2 \cdot 2 = 4.
$$
\(\mathbb{Q}\) 위의 기저는 \(\{1, \sqrt{2}, \sqrt{3}, \sqrt{6}\}\)이다.
Example 14.5b (체 확장의 비자명한 예: \(\mathbb{Q}(\sqrt[3]{2})\)와 분해체)
\(\mathbb{Q}(\sqrt[3]{2})\). \(\sqrt[3]{2}\)의 \(\mathbb{Q}\) 위에서의 최소다항식은 \(x^3 - 2\)이다(아이젠슈타인, \(p = 2\)). 따라서 \([\mathbb{Q}(\sqrt[3]{2}) : \mathbb{Q}] = 3\)이고, 원소는 \(a + b\sqrt[3]{2} + c\sqrt[3]{4}\) (\(a,b,c \in \mathbb{Q}\)) 형태이다.
이 확장은 \(x^3 - 2\)의 분해체가 아니다. \(x^3 - 2 = (x - \sqrt[3]{2})(x - \omega\sqrt[3]{2})(x - \omega^2\sqrt[3]{2})\)에서 \(\omega = e^{2\pi i/3}\)이고, \(\omega\sqrt[3]{2} \notin \mathbb{Q}(\sqrt[3]{2}) \subset \mathbb{R}\)이다(\(\omega\sqrt[3]{2}\)는 복소수). 분해체는 \(\mathbb{Q}(\sqrt[3]{2}, \omega)\)이며, Tower Law에 의해:
$$
[\mathbb{Q}(\sqrt[3]{2}, \omega) : \mathbb{Q}] = [\mathbb{Q}(\sqrt[3]{2}, \omega) : \mathbb{Q}(\sqrt[3]{2})] \cdot [\mathbb{Q}(\sqrt[3]{2}) : \mathbb{Q}].
$$
\(\omega\)의 최소다항식은 \(x^2 + x + 1\) (\(\mathbb{Q}\) 위에서)이고, \(\omega \notin \mathbb{Q}(\sqrt[3]{2})\)이므로 \(\mathbb{Q}(\sqrt[3]{2})\) 위에서도 기약이다. 따라서 \([\mathbb{Q}(\sqrt[3]{2}, \omega) : \mathbb{Q}] = 2 \cdot 3 = 6\)이며, 이는 \(\deg(x^3 - 2) = 3\)에 대해 \(3! = 6\)의 상한과 일치한다.
Definition 14.9 (Splitting Field)
다항식 \(f(x) \in F[x]\)의 분해체(splitting field)는 \(f\)가 일차인수들의 곱으로 완전히 인수분해되는 \(F\)의 가장 작은 확장체이다. 동형을 제외하면 유일하다.
Theorem 14.7 (Existence and Uniqueness of Splitting Fields)
임의의 다항식 \(f(x) \in F[x]\)(차수 \(n\))에 대해, \([K:F] \leq n!\)인 분해체 \(K\)가 존재한다. \(f\)의 \(F\) 위의 임의의 두 분해체는 \(F\)를 고정하는 동형사상으로 연결된다.
Definition 14.10 (Algebraic Closure)
field(체) \(F\)가 대수적으로 닫혀 있다(algebraically closed)란, \(F[x]\)의 모든 비상수 다항식이 \(F\)에 근을 갖는 것이다. \(F\)의 대수적 폐포(algebraic closure) \(\overline{F}\)는 \(F\) 위에서 대수적인 대수적으로 닫힌 field(체)이다. 모든 field(체)는 동형을 제외하면 유일한 대수적 폐포를 갖는다.
14.4 Finite Fields
유한체(finite field)는 구조가 완전히 분류되어 있으면서, 디지털 시스템에서 널리 쓰인다. \(\operatorname{GF}(2^8)\)은 AES 암호 블록의 각 바이트가 사는 공간이고, \(\operatorname{GF}(2^{16})\) 위의 Reed-Solomon 부호는 Blu-ray 디스크와 심우주 통신(deep-space communication)의 오류정정을 담당한다.
유한체는 원소의 개수가 유한한 체이다. 암호학, 부호 이론, 조합론에서 쓴다.
Theorem 14.8 (Classification of Finite Fields)
- 모든 유한 field(체)의 위수는 어떤 소수 \(p\)와 양의 정수 \(n\)에 대해 \(p^n\)이다. 소수 \(p\)가 field(체)의 표수(characteristic)이다.
- 각 소수 거듭제곱 \(q = p^n\)에 대해, 위수 \(q\)인 field(체)가 동형을 제외하면 유일하게 존재하며, \(\mathbb{F}_q\) 또는 \(\operatorname{GF}(q)\)로 표기한다. 이것은 \(x^q - x\)의 \(\mathbb{F}_p\) 위의 분해체이다.
- 곱셈군 \(\mathbb{F}_q^\times\)는 위수 \(q - 1\)인 순환군이다.
Theorem 14.9 (Subfields of Finite Fields)
\(\mathbb{F}_{p^n}\)의 부분체(subfield)는 정확히 약수 \(d \mid n\)에 대한 \(\mathbb{F}_{p^d}\)이다. 확장 \(\mathbb{F}_{p^n} / \mathbb{F}_{p^d}\)의 차수는 \(n/d\)이다.
Theorem 14.10 (Frobenius Endomorphism)
사상 \(\sigma: \mathbb{F}_q \to \mathbb{F}_q\)를 \(\sigma(x) = x^p\)(\(q = p^n\))로 정의하면, 이것은 field(체) 자기동형사상이며 프로베니우스 자기준동형(Frobenius endomorphism)이라 한다. 갈루아 group(군) \(\operatorname{Gal}(\mathbb{F}_{p^n}/\mathbb{F}_p)\)는 \(\sigma\)에 의해 생성되는 위수 \(n\)인 순환군이다.
Example 14.6
\(\mathbb{F}_4 = \mathbb{F}_{2^2}\)를 구성하려면, \(\mathbb{F}_2\) 위에서 차수 2인 기약 다항식이 필요하다. 다항식 \(x^2 + x + 1\)은 \(\mathbb{F}_2\) 위에서 기약이다(\(\mathbb{F}_2\)에 근이 없으므로). 그러면
$$
\mathbb{F}_4 = \mathbb{F}_2[x]/(x^2 + x + 1) = \{0, 1, \alpha, \alpha + 1\},
$$
여기서 \(\alpha^2 = \alpha + 1\)이다. 곱셈군 \(\mathbb{F}_4^\times = \{1, \alpha, \alpha+1\} \cong \mathbb{Z}/3\mathbb{Z}\)이다. 곱셈표를 명시적으로 작성하면:
| \(\cdot\) | \(1\) | \(\alpha\) | \(\alpha+1\) |
| \(1\) | \(1\) | \(\alpha\) | \(\alpha+1\) |
| \(\alpha\) | \(\alpha\) | \(\alpha+1\) | \(1\) |
| \(\alpha+1\) | \(\alpha+1\) | \(1\) | \(\alpha\) |
예를 들어 \(\alpha \cdot \alpha = \alpha^2 = \alpha + 1\)이고, \(\alpha \cdot (\alpha+1) = \alpha^2 + \alpha = (\alpha+1) + \alpha = 1\)이다 (\(\mathbb{F}_2\)에서 \(1+1=0\)). 따라서 \(\alpha^{-1} = \alpha + 1\)이다. 프로베니우스 자기동형사상은 \(\sigma(\alpha) = \alpha^2 = \alpha + 1\)로 두 근 \(\alpha\)와 \(\alpha+1\)을 교환한다.
Example 14.6a (유한체 \(\mathbb{F}_8\)과 \(\mathbb{F}_9\)의 구성)
(a) \(\mathbb{F}_8 = \mathbb{F}_{2^3}\)의 구성. \(\mathbb{F}_2\) 위에서 차수 3인 기약 다항식이 필요하다. \(p(x) = x^3 + x + 1\)은 \(\mathbb{F}_2\)에서 \(p(0) = 1 \neq 0\), \(p(1) = 1 + 1 + 1 = 1 \neq 0\)이므로 기약이다. 따라서
$$
\mathbb{F}_8 = \mathbb{F}_2[x]/(x^3 + x + 1) = \{a_0 + a_1\alpha + a_2\alpha^2 : a_i \in \mathbb{F}_2\},
$$
여기서 \(\alpha^3 = \alpha + 1\)이다. 원소는 총 \(2^3 = 8\)개이다. 곱셈표를 구성할 때, 예를 들어
$$
\alpha^3 = \alpha + 1, \quad \alpha^4 = \alpha \cdot \alpha^3 = \alpha^2 + \alpha, \quad \alpha^5 = \alpha^3 + \alpha^2 = \alpha^2 + \alpha + 1,
$$
$$
\alpha^6 = \alpha^3 + \alpha^2 + \alpha = \alpha^2 + 1, \quad \alpha^7 = \alpha^3 + \alpha = 1.
$$
따라서 \(\alpha\)는 \(\mathbb{F}_8^\times\)의 생성원(원시근)이다. \(\mathbb{F}_8^\times = \langle \alpha \rangle \cong \mathbb{Z}/7\mathbb{Z}\).
(b) \(\mathbb{F}_9 = \mathbb{F}_{3^2}\)의 구성. \(\mathbb{F}_3\) 위에서 차수 2인 기약 다항식이 필요하다. \(p(x) = x^2 + 1\)을 검사하면: \(p(0) = 1\), \(p(1) = 2\), \(p(2) = 5 \equiv 2 \pmod{3}\). 모두 0이 아니므로 기약이다. 따라서
$$
\mathbb{F}_9 = \mathbb{F}_3[x]/(x^2 + 1) = \{a + b\alpha : a, b \in \mathbb{F}_3\},
$$
여기서 \(\alpha^2 = -1 \equiv 2 \pmod{3}\)이다. 원소는 \(\{0, 1, 2, \alpha, \alpha+1, \alpha+2, 2\alpha, 2\alpha+1, 2\alpha+2\}\)의 9개이다. 곱셈군 \(\mathbb{F}_9^\times\)는 위수 8인 순환군이다. \(\alpha\)가 생성원인지 확인: \(\alpha^2 = 2\), \(\alpha^4 = 4 = 1\)이므로 \(\alpha\)의 위수는 4이다. 따라서 \(\alpha\)는 생성원이 아니다. \(\alpha + 1\)을 시도하면: \((\alpha+1)^2 = \alpha^2 + 2\alpha + 1 = 2 + 2\alpha + 1 = 2\alpha\), \((\alpha+1)^4 = (2\alpha)^2 = 4\alpha^2 = 4 \cdot 2 = 8 \equiv 2 \pmod{3}\). 위수가 4가 아니므로 계속: \((\alpha+1)^8 = 2^2 = 4 \equiv 1\)이므로 \(\alpha+1\)의 위수는 8이고, 이 \(\mathbb{F}_9^\times\)의 생성원이다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Abstract Algebra: Theory and Applications (Judson) — Ch 16-23: Rings, Domains, Fields, Galois Theory
- Dummit & Foote, Abstract Algebra — Part II-IV: Ring Theory, Modules, Field/Galois Theory
- Artin, Algebra — Ch 11-15: Rings, Factoring, Fields, Galois Theory
- Jacobson, Basic Algebra I & II — 환론과 체론의 고전적 레퍼런스
- Atiyah & MacDonald, Introduction to Commutative Algebra — 가환대수 입문의 바이블
- Lang, Algebra — GTM 211, 대학원 대수학 백과사전
15. Graduate Algebra
대학원 수준의 대수학은 환 위의 가군, 갈루아 이론, 텐서곱 등 보다 정교한 도구를 도입한다. 이들은 선형대수의 표준형 이론, 방정식의 가해성 판정, 다중선형 대수 등 다양한 문제에 통일된 관점을 제공한다.
학부 대수학에서 배운 군, 환, 체는 각각 독립적인 이론처럼 보일 수 있지만, 대학원 대수학은 이들을 관통하는 통일적 구조를 드러낸다. 가군(module)은 벡터 공간의 일반화이면서 동시에 아벨 군의 일반화이며, PID 위의 가군에 대한 구조 정리 하나로 유한 생성 아벨 군의 분류와 조르당 표준형(Jordan normal form)이라는 전혀 다른 두 결과를 동시에 증명할 수 있다. 갈루아 이론은 체 확장과 군론을 하나의 대응으로 연결하여, 5차 방정식의 근의 공식이 존재하지 않음이라는 수세기의 난제를 해결한다. 추상적 구조가 구체적 계산을 단순화하는 패턴이 반복된다.
공학에서도 이 관점이 쓰인다. 선형 시스템 이론에서 상태 공간 모델 \(\dot{x} = Ax\)는 \(F[x]\)-가군 구조로 분석하며, 가제어성(controllability)과 가관측성(observability)의 구조적 분해가 가군의 분해에 대응한다. 양자 정보(quantum information)에서 여러 큐비트(qubit)의 합성 시스템은 벡터 공간의 텐서곱 \(\mathbb{C}^2 \otimes \mathbb{C}^2 \otimes \cdots\)으로 나타내며, 양자 얽힘(entanglement)은 텐서곱에서 분해 불가능한(non-decomposable) 원소의 존재로 정의된다. 함수형 프로그래밍(functional programming)에서 모나드(monad)와 펑터(functor)는 카테고리 이론의 개념을 프로그래밍 언어에 직접 구현한 것이다.
15.1 Modules over PIDs
가군(module)은 "스칼라가 체가 아닌 환에서 오는 벡터 공간"이다. 스칼라가 체일 때 우리는 벡터 공간의 풍부한 이론 -- 기저, 차원, 선형 사상의 행렬 표현 등 -- 을 자유롭게 사용하지만, 스칼라가 환일 때는 이들 중 일부가 무너진다. 예를 들어, 모든 가군이 기저를 갖는 것은 아니며, 비틀림(torsion)이라는 새로운 현상이 등장한다. 그러나 스칼라 환이 PID(주아이디얼 정역)라는 좋은 성질을 가지면, 유한 생성 가군의 구조를 완전히 분류할 수 있으며, 이 분류 정리가 선형대수의 표준형 이론과 아벨 군의 기본 정리를 하나로 통합한다.
Definition 15.1 (Module)
ring(환) \(R\)에 대해,
(좌) \(R\)-가군(module)은 아벨 group(군) \((M, +)\)와 스칼라 곱 \(R \times M \to M\), \((r, m) \mapsto rm\)의 쌍으로, 모든 \(r, s \in R\)과 \(m, n \in M\)에 대해 다음을 만족한다:
- \(r(m + n) = rm + rn\),
- \((r + s)m = rm + sm\),
- \((rs)m = r(sm)\),
- \(1m = m\) (\(R\)이 항등원을 가질 때).
\(R\)이 field(체)이면, \(R\)-가군은 정확히 \(R\) 위의 벡터 공간이다. \(R = \mathbb{Z}\)이면, \(\mathbb{Z}\)-가군은 정확히 아벨 group(군)이다.
Definition 15.2 (Free Module, Torsion)
가군 \(M\)이 자유(free)란 기저를 갖는 것, 즉 \(M \cong R^n\)인 것이다. 원소 \(m \in M\)이 비틀림 원소(torsion element)란, 어떤 영이 아닌 \(r \in R\)에 대해 \(rm = 0\)인 것이다. 모든 비틀림 원소의 집합은 비틀림 부분가군(torsion submodule) \(T(M)\)을 이룬다. \(T(M) = 0\)이면 가군은 비틀림 없는(torsion-free) 것이다.
Theorem 15.1 (Structure Theorem for Finitely Generated Modules over a PID)
\(R\)을 PID, \(M\)을 유한 생성 \(R\)-가군이라 하자. 그러면:
$$
M \cong R^r \oplus R/(d_1) \oplus R/(d_2) \oplus \cdots \oplus R/(d_k),
$$
여기서 \(r \geq 0\)이고 \(d_1 \mid d_2 \mid \cdots \mid d_k\)는 \(R\)의 영이 아닌 비단원 원소이다. 정수 \(r\)은 자유 계수(free rank)이고, \(d_i\)는 불변 인자(invariant factor)이며, 둘 다 유일하게 결정된다.
동치 조건으로, 중국인의 나머지 정리를 사용하여 각 \(R/(d_i)\)를 소수 거듭제곱 성분으로 분해하면:
Theorem 15.2 (Elementary Divisor Form)
같은 가정 아래,
$$
M \cong R^r \oplus R/(p_1^{a_1}) \oplus R/(p_2^{a_2}) \oplus \cdots \oplus R/(p_s^{a_s}),
$$
여기서 \(p_i\)는 (반드시 서로 다를 필요 없는) \(R\)의 소원소이고 \(a_i \geq 1\)이다. 다중집합 \(\{p_1^{a_1}, \ldots, p_s^{a_s}\}\)는 유일하게 결정되며, 이들을 단인자(elementary divisor)라 한다.
Example 15.1
유한 생성 아벨 group(군)의 분류. \(R = \mathbb{Z}\)를 택하면, 모든 유한 생성 아벨 group(군)은 다음 형태이다:
$$
G \cong \mathbb{Z}^r \oplus \mathbb{Z}/d_1\mathbb{Z} \oplus \cdots \oplus \mathbb{Z}/d_k\mathbb{Z}, \quad d_1 \mid d_2 \mid \cdots \mid d_k.
$$
예를 들어, 위수 12인 아벨 group(군)은 \(\mathbb{Z}/12\mathbb{Z}\)(불변 인자: 12)와 \(\mathbb{Z}/2\mathbb{Z} \oplus \mathbb{Z}/6\mathbb{Z}\)(불변 인자: 2, 6)이다. 단인자 형태로는: \(\mathbb{Z}/4\mathbb{Z} \oplus \mathbb{Z}/3\mathbb{Z}\)와 \(\mathbb{Z}/2\mathbb{Z} \oplus \mathbb{Z}/2\mathbb{Z} \oplus \mathbb{Z}/3\mathbb{Z}\)이다.
15.2 Galois Theory
"방정식을 근의 공식으로 풀 수 있는가?"라는 질문은 수천 년 된 문제이다. 2차는 고대에, 3차·4차는 16세기 이탈리아 수학자들이 근의 공식을 찾아냈지만, 5차 이상에서는 아벨(Abel)과 갈루아(Galois)가 일반적인 근의 공식이 없음을 증명했다. 갈루아의 통찰은, 근들이 서로 뒤바뀌는 방식(근의 대칭성)을 군으로 포착하고, 이 군의 구조가 방정식의 가해성(solvability)을 결정한다는 것이다. 부호 이론에서 순환 부호의 구조 분석이나, 체 확장의 차수 계산에도 이 이론이 쓰인다.
갈루아 이론은 체 확장과 군론을 연결하는 대응이다. 중간체의 격자와 갈루아 군의 부분군 격자를 대응시키면, 5차 이상 일반 방정식에 근의 공식이 없음이 따라온다.
Definition 15.3 (Separable, Normal Extension)
- 다항식 \(f \in F[x]\)가 분리(separable)란, 분해체에서 중복근을 갖지 않는 것이다. 대수적 확장 \(K/F\)가 분리란, \(K\)의 모든 원소가 \(F\) 위에서 분리 최소다항식을 갖는 것이다. (표수 0에서는 모든 대수적 확장이 분리이다.)
- 대수적 확장 \(K/F\)가 정규(normal)란, \(K\)에 하나의 근을 갖는 \(F[x]\)의 모든 기약 다항식이 \(K\)에서 완전히 분해되는 것이다. 동치 조건으로, \(K\)가 \(F\) 위의 어떤 다항식 족의 분해체이다.
Definition 15.4 (Galois Extension)
유한 확장 \(K/F\)가 갈루아 확장(Galois extension)이란, 분리이면서 정규인 것이다. 갈루아 group(군)(Galois group)은
$$
\operatorname{Gal}(K/F) = \{\sigma: K \to K \mid \sigma \text{ is an automorphism with } \sigma|_F = \operatorname{id}\}
$$
이다. 갈루아 확장에 대해 \(|\operatorname{Gal}(K/F)| = [K:F]\)이다.
Theorem 15.3 (Fundamental Theorem of Galois Theory)
\(K/F\)를 갈루아 group(군) \(G = \operatorname{Gal}(K/F)\)를 갖는 유한 갈루아 확장이라 하자. 포함 관계를 역전시키는 전단사 대응이 존재한다:
$$
\{\text{intermediate fields } F \subseteq E \subseteq K\} \longleftrightarrow \{\text{subgroups } H \leq G\}
$$
이 대응은 \(E \mapsto \operatorname{Gal}(K/E)\)와 \(H \mapsto K^H = \{x \in K : \sigma(x) = x \text{ for all } \sigma \in H\}\)로 주어진다. 또한:
- \([K : E] = |H|\)이고 \([E : F] = [G : H]\).
- \(E/F\)가 정규 확장일 필요충분조건은 \(H \trianglelefteq G\)이며, 이 경우 \(\operatorname{Gal}(E/F) \cong G/H\)이다.
Example 15.2
\(K = \mathbb{Q}(\sqrt{2}, \sqrt{3})\), \(F = \mathbb{Q}\)를 생각하자. 이것은 차수 4인 갈루아 확장이다. 갈루아 group(군)은 \(G = \{e, \sigma, \tau, \sigma\tau\}\)이며, \(\sigma(\sqrt{2}) = -\sqrt{2}, \sigma(\sqrt{3}) = \sqrt{3}\)이고 \(\tau(\sqrt{2}) = \sqrt{2}, \tau(\sqrt{3}) = -\sqrt{3}\)이다. 따라서 \(G \cong \mathbb{Z}/2\mathbb{Z} \times \mathbb{Z}/2\mathbb{Z}\)(클라인 4원군)이다. 세 비자명 subgroup(부분군) \(\langle\sigma\rangle, \langle\tau\rangle, \langle\sigma\tau\rangle\)는 중간체 \(\mathbb{Q}(\sqrt{3}), \mathbb{Q}(\sqrt{2}), \mathbb{Q}(\sqrt{6})\)에 대응한다.
Theorem 15.4 (Insolvability of the Quintic)
다항 방정식이 거듭제곱근으로 풀릴 필요충분조건은 그 갈루아 group(군)이 가해군(solvable group)인 것이다. 차수 \(n \geq 5\)인 일반 다항식의 갈루아 group(군)은 \(S_n\)이며, 이것은 가해가 아니다(\(A_n\)이 \(n \geq 5\)에서 단순이고 비가환이므로). 따라서, 일반 5차 방정식의 근에 대한 거듭제곱근 공식은 존재하지 않는다.
15.3 Tensor Products
텐서곱(tensor product)은 두 독립 시스템을 합성하는 구조이다. 양자 컴퓨팅에서 \(n\)개 큐비트의 상태 공간은 \((\mathbb{C}^2)^{\otimes n}\)이고, 기계학습에서 텐서 분해(tensor decomposition)는 고차원 데이터의 잠재 구조를 추출하는 데 쓰인다. 미분기하학의 곡률 텐서, 응력 텐서도 이 구조 위에 있다.
텐서곱은 두 가군으로부터 쌍선형성을 선형성으로 변환하는 새 가군을 구성한다.
Definition 15.5 (Tensor Product of Modules)
\(R\)을 가환 ring(환), \(M\)과 \(N\)을 \(R\)-가군이라 하자.
tensor product(텐서곱) \(M \otimes_R N\)은 \(m \in M, n \in N\)에 대한 기호 \(m \otimes n\)으로 생성되는 \(R\)-가군으로, 다음 관계식을 만족한다:
- \((m_1 + m_2) \otimes n = m_1 \otimes n + m_2 \otimes n\),
- \(m \otimes (n_1 + n_2) = m \otimes n_1 + m \otimes n_2\),
- \(r \in R\)에 대해 \(r(m \otimes n) = (rm) \otimes n = m \otimes (rn)\).
tensor product(텐서곱)은 보편 성질(universal property)을 만족한다: 쌍선형 사상(bilinear map) \(M \times N \to P\)는 선형 사상 \(M \otimes_R N \to P\)와 일대일 대응한다.
Theorem 15.5 (Properties of Tensor Products)
\(M, N, P\)를 \(R\)-가군이라 하자.
- Commutativity: \(M \otimes_R N \cong N \otimes_R M\).
- Associativity: \((M \otimes_R N) \otimes_R P \cong M \otimes_R (N \otimes_R P)\).
- Identity: \(R \otimes_R M \cong M\).
- Distributivity: \(M \otimes_R (N \oplus P) \cong (M \otimes_R N) \oplus (M \otimes_R P)\).
- Free modules: \(R^m \otimes_R R^n \cong R^{mn}\).
- Base change: \(R \to S\)가 ring(환) homomorphism(준동형)이면, \(S \otimes_R M\)은 \(S\)-가군이다(스칼라 확장).
Example 15.3
- \(\mathbb{Z}/m\mathbb{Z} \otimes_{\mathbb{Z}} \mathbb{Z}/n\mathbb{Z} \cong \mathbb{Z}/\gcd(m,n)\mathbb{Z}\). 특히, \(\mathbb{Z}/2\mathbb{Z} \otimes_{\mathbb{Z}} \mathbb{Z}/3\mathbb{Z} = 0\)이다.
- 모든 \(n \geq 1\)에 대해 \(\mathbb{Q} \otimes_{\mathbb{Z}} \mathbb{Z}/n\mathbb{Z} = 0\)이다. \(1 \otimes \bar{k} = \frac{1}{n} \otimes n\bar{k} = \frac{1}{n} \otimes 0 = 0\)이기 때문이다.
- 벡터 공간의 경우: \(V \otimes_F W\)의 차원은 \(\dim V \cdot \dim W\)이고, \(\{v_i\}\)와 \(\{w_j\}\)가 기저이면 \(\{v_i \otimes w_j\}\)가 \(V \otimes_F W\)의 기저이다.
Theorem 15.6 (Right Exactness of Tensor)
함자 \(M \otimes_R -\)는 우완전(right exact)이다: \(0 \to A \to B \to C \to 0\)이 short exact sequence(짧은 완전열)이면,
$$
M \otimes_R A \to M \otimes_R B \to M \otimes_R C \to 0
$$
은 완전이다. 그러나 이 함자는 일반적으로 좌완전(left exact)이 아니다. 가군 \(M\)이 평탄(flat)이란, \(M \otimes_R -\)가 완전(단사성도 보존)인 것이다.
텐서곱의 우완전성은 전사 사상은 보존하지만 단사 사상은 일반적으로 보존하지 않음을 뜻한다. 이 "단사성의 손실"을 체계적으로 측정하는 것이 다음 장의 Tor 함자이다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Course Notes (Milne) — Group Theory, Fields & Galois Theory, Algebraic Number Theory 등 무료 강의노트
- Lang, Algebra — GTM 211, 대학원 대수학의 바이블
- Hungerford, Algebra — GTM 73, 체계적 대학원 교재
- Jacobson, Basic Algebra I & II — 광범위한 주제를 다루는 고전
- Grillet, Abstract Algebra — GTM 242, 현대적 대학원 교재
- Roman, Advanced Linear Algebra — GTM 135, 모듈 이론과 다중선형대수
16. Homological Algebra
호몰로지 대수는 사슬 복합체와 완전열로 대수적 구조의 '결함'을 측정한다. 텐서곱의 비완전성, 확장 문제, 위상 공간의 불변량 — 맥락은 달라도 공통 구조가 있다. 호몰로지 대수가 그 공통 구조를 잡아낸다.
호몰로지(homology)는 대수적 구조에서 불변량(invariant)을 체계적으로 추출하는 방법이다. 위상수학에서 출발하여 대수학, 해석학, 기하학으로 뻗어 나갔다. 완전열(exact sequence)은 정보가 손실 없이 전달되는 상태를 기술하고, 호몰로지는 완전성이 깨지는 정도, 즉 장애물(obstruction)을 측정한다.
위상적 데이터 분석(topological data analysis, TDA)에서 지속 호몰로지(persistent homology)는 고차원 점 구름(point cloud) 데이터의 형태학적 특징 -- 연결 성분, 고리, 빈 공동(cavity) -- 을 다양한 스케일에서 추출하며, 약물 분자 설계, 뇌 신경망 분석, 재료과학의 다공성(porosity) 분석 등에 적용된다. 센서 네트워크(sensor network)에서 센서들의 커버리지(coverage)가 빈틈없는지 검증하는 문제는 신경 복합체(nerve complex)의 호몰로지로 환원되며, 개별 센서의 정확한 위치를 모르더라도 위상적 방법으로 커버리지를 보장할 수 있다. 전기 회로에서 키르히호프 전압 법칙(KVL)과 전류 법칙(KCL)은 회로 그래프의 사슬 복합체에서의 경계 작용소(boundary operator)와 쌍경계 작용소(coboundary operator)로 해석되며, 회로의 독립 루프 수와 독립 컷셋(cutset) 수는 각각 1차 호몰로지와 1차 코호몰로지의 차원이다.
16.1 Chain Complexes and Exact Sequences
사슬 복합체는 \(\partial^2 = 0\)이라는 조건에서 출발하며, 이 조건 덕분에 호몰로지를 정의할 수 있다. 짧은 완전열(short exact sequence)은 한 대상이 두 개의 더 단순한 대상으로 어떻게 조립되는지를 기술하고, 긴 완전열(long exact sequence)은 이 조립 과정에서 호몰로지 불변량의 연결을 추적한다.
Definition 16.1 (Chain Complex)
\(R\)-가군의 사슬 복합체(chain complex) \((C_\bullet, \partial)\)는 다음과 같은 열이다:
$$
\cdots \xrightarrow{\partial_{n+2}} C_{n+1} \xrightarrow{\partial_{n+1}} C_n \xrightarrow{\partial_n} C_{n-1} \xrightarrow{\partial_{n-1}} \cdots
$$
여기서 각 \(\partial_n: C_n \to C_{n-1}\)은 \(R\)-가군 homomorphism(준동형)이며, 모든 \(n\)에 대해 \(\partial_n \circ \partial_{n+1} = 0\)을 만족한다. 사상 \(\partial_n\)을 경계 작용소(boundary operator)(또는 미분)라 한다.
쌍대사슬 복합체(cochain complex) \((C^\bullet, d)\)는 쌍대적으로 정의되며, 사상 \(d^n: C^n \to C^{n+1}\)이 \(d^{n+1} \circ d^n = 0\)을 만족한다.
조건 \(\partial^2 = 0\)은 경계(boundary)가 항상 순환(cycle)임을 보장하지만, 모든 순환이 경계는 아닐 수 있다. 이 차이 -- "순환이지만 경계가 아닌 것" -- 를 측정하는 것이 호몰로지이다.
Definition 16.2 (Homology)
조건 \(\partial_n \circ \partial_{n+1} = 0\)은 \(\operatorname{im} \partial_{n+1} \subseteq \ker \partial_n\)을 함의한다. 사슬 복합체의 \(n\)번째 호몰로지(homology)는
$$
H_n(C_\bullet) = \ker \partial_n / \operatorname{im} \partial_{n+1} = Z_n / B_n
$$
이다. 여기서 \(Z_n = \ker \partial_n\)은 순환(cycle)이고 \(B_n = \operatorname{im} \partial_{n+1}\)은 경계(boundary)이다. 호몰로지는 복합체가 위치 \(n\)에서 완전이 되지 못하는 정도를 측정한다.
Definition 16.3 (Exact Sequence)
사슬 복합체가 \(C_n\)에서 완전(exact)이란, \(H_n = 0\), 즉 \(\ker \partial_n = \operatorname{im} \partial_{n+1}\)인 것이다. 복합체가 완전이란, 모든 위치에서 완전인 것이다. short exact sequence(짧은 완전열)은 다음 형태의 완전열이다:
$$
0 \to A \xrightarrow{f} B \xrightarrow{g} C \to 0.
$$
이것은 \(f\)가 단사이고 \(g\)가 전사이며 \(\ker g = \operatorname{im} f\)임을 의미하므로, \(C \cong B / f(A)\)이다.
Example 16.1
열 \(0 \to \mathbb{Z} \xrightarrow{\times n} \mathbb{Z} \xrightarrow{\pi} \mathbb{Z}/n\mathbb{Z} \to 0\)은 short exact sequence(짧은 완전열)이다. 첫째 사상은 \(n\)배 곱이고, 둘째 사상은 몫 사상이다.
Theorem 16.1 (Long Exact Sequence in Homology)
사슬 복합체의 short exact sequence(짧은 완전열) \(0 \to A_\bullet \to B_\bullet \to C_\bullet \to 0\)은 호몰로지에서의 긴 완전열(long exact sequence)을 유도한다:
$$
\cdots \to H_n(A) \to H_n(B) \to H_n(C) \xrightarrow{\delta} H_{n-1}(A) \to H_{n-1}(B) \to \cdots
$$
사상 \(\delta: H_n(C) \to H_{n-1}(A)\)를 연결 homomorphism(준동형)(connecting homomorphism)이라 하며, 다이어그램 추적(diagram chasing), 즉 뱀 보조정리(Snake Lemma)를 통해 구성된다.
Theorem 16.2 (Snake Lemma)
행이 완전인 \(R\)-가군의 가환 다이어그램이 주어질 때:
$$
\begin{array}{ccccccccc}
& & A & \xrightarrow{f} & B & \xrightarrow{g} & C & \to & 0 \\
& & \downarrow \alpha & & \downarrow \beta & & \downarrow \gamma & & \\
0 & \to & A' & \xrightarrow{f'} & B' & \xrightarrow{g'} & C' & & \\
\end{array}
$$
자연스러운 완전열이 존재한다:
$$
\ker \alpha \to \ker \beta \to \ker \gamma \xrightarrow{\delta} \operatorname{coker} \alpha \to \operatorname{coker} \beta \to \operatorname{coker} \gamma.
$$
Definition 16.4 (Split Exact Sequence)
short exact sequence(짧은 완전열) \(0 \to A \xrightarrow{f} B \xrightarrow{g} C \to 0\)이
분열(split)한다 함은, 다음 동치 조건 중 하나가 성립하는 것이다:
- \(g \circ s = \operatorname{id}_C\)인 \(s: C \to B\)가 존재한다(단면, section).
- \(r \circ f = \operatorname{id}_A\)인 \(r: B \to A\)가 존재한다(수축, retraction).
- \(B \cong A \oplus C\).
Theorem 16.3 (Projective and Injective Modules)
- 가군 \(P\)가 사영적(projective)이란, 모든 short exact sequence(짧은 완전열) \(0 \to A \to B \to P \to 0\)이 분열하는 것이다. 동치 조건으로, \(P\)가 자유 가군의 직합인수(direct summand)이다. 동치 조건으로, \(\operatorname{Hom}(P, -)\)가 완전이다.
- 가군 \(Q\)가 단사적(injective)이란, 모든 short exact sequence(짧은 완전열) \(0 \to Q \to B \to C \to 0\)이 분열하는 것이다. 동치 조건으로, \(\operatorname{Hom}(-, Q)\)가 완전이다.
PID 위에서, 가군이 사영적일 필요충분조건은 자유인 것이다. PID 위에서, 가군이 단사적일 필요충분조건은 가분(divisible)인 것이다.
16.2 Ext and Tor Functors
짧은 완전열에 함자(functor)를 적용하면 완전성이 깨질 수 있다. Hom 함자와 텐서곱 함자는 각각 한쪽 방향의 완전성만 보존한다. Ext와 Tor는 이 결손을 기록하는 유도 함자(derived functor)이다. 가군의 확장 분류(Ext), 비틀림 정보 추출(Tor), 보편 계수 정리를 통한 코호몰로지 계산 등에 쓰인다.
Definition 16.5 (Projective Resolution)
가군 \(M\)의 사영 분해(projective resolution)는 다음과 같은 완전열이다:
$$
\cdots \to P_2 \xrightarrow{d_2} P_1 \xrightarrow{d_1} P_0 \xrightarrow{\epsilon} M \to 0
$$
여기서 각 \(P_i\)는 사영 가군이다. 모든 가군은 사영 분해를 갖는다(항상 자유 가군을 택할 수 있다).
Definition 16.6 (Tor Functor)
\(R\)-가군 \(M\)과 \(N\)이 주어질 때, 사영 분해 \(P_\bullet \to M \to 0\)을 택하고 복합체 \(P_\bullet \otimes_R N\)을 구성한다.
Tor 함자는 이 복합체의 호몰로지이다:
$$
\operatorname{Tor}_n^R(M, N) = H_n(P_\bullet \otimes_R N).
$$
주요 성질:
- \(\operatorname{Tor}_0^R(M, N) \cong M \otimes_R N\).
- \(M\) 또는 \(N\)이 평탄이면, 모든 \(n \geq 1\)에 대해 \(\operatorname{Tor}_n^R(M, N) = 0\)이다.
- \(\operatorname{Tor}\)는 대칭적이다: \(\operatorname{Tor}_n^R(M, N) \cong \operatorname{Tor}_n^R(N, M)\).
Definition 16.7 (Ext Functor)
\(R\)-가군 \(M\)과 \(N\)이 주어질 때, 사영 분해 \(P_\bullet \to M \to 0\)을 택하고 쌍대사슬 복합체 \(\operatorname{Hom}_R(P_\bullet, N)\)을 구성한다.
Ext 함자는 이 복합체의 코호몰로지이다:
$$
\operatorname{Ext}_R^n(M, N) = H^n(\operatorname{Hom}_R(P_\bullet, N)).
$$
주요 성질:
- \(\operatorname{Ext}_R^0(M, N) \cong \operatorname{Hom}_R(M, N)\).
- \(M\)이 사영적이거나 \(N\)이 단사적이면, 모든 \(n \geq 1\)에 대해 \(\operatorname{Ext}_R^n(M, N) = 0\)이다.
- \(\operatorname{Ext}_R^1(M, N)\)은 \(M\)을 \(N\)으로 확장하는 것, 즉 short exact sequence(짧은 완전열) \(0 \to N \to E \to M \to 0\)의 동치류를 분류한다.
Example 16.2
\(R = \mathbb{Z}\)인 경우: 분해 \(0 \to \mathbb{Z} \xrightarrow{\times n} \mathbb{Z} \to \mathbb{Z}/n\mathbb{Z} \to 0\)으로부터
$$
\operatorname{Tor}_1^{\mathbb{Z}}(\mathbb{Z}/n\mathbb{Z}, A) \cong \{a \in A : na = 0\} = A[n], \qquad
\operatorname{Ext}_{\mathbb{Z}}^1(\mathbb{Z}/n\mathbb{Z}, A) \cong A/nA
$$
를 얻는다. 예를 들어, \(\operatorname{Tor}_1^{\mathbb{Z}}(\mathbb{Z}/2\mathbb{Z}, \mathbb{Z}/6\mathbb{Z}) \cong \mathbb{Z}/2\mathbb{Z}\)이고 \(\operatorname{Ext}_{\mathbb{Z}}^1(\mathbb{Z}/2\mathbb{Z}, \mathbb{Z}) \cong \mathbb{Z}/2\mathbb{Z}\)이다.
Theorem 16.4 (Universal Coefficient Theorem)
자유 아벨 group(군)의 사슬 복합체 \(C_\bullet\)와 아벨 group(군) \(G\)에 대해, 다음과 같은 (분열하는) short exact sequence(짧은 완전열)가 존재한다:
$$
0 \to H_n(C) \otimes G \to H_n(C \otimes G) \to \operatorname{Tor}_1^{\mathbb{Z}}(H_{n-1}(C), G) \to 0,
$$
$$
0 \to \operatorname{Ext}^1_{\mathbb{Z}}(H_{n-1}(C), G) \to H^n(\operatorname{Hom}(C, G)) \to \operatorname{Hom}(H_n(C), G) \to 0.
$$
보편 계수 정리(Universal Coefficient Theorem)는 정수 계수로 계산한 호몰로지 \(H_n(C)\)로부터 임의의 계수군 \(G\)에 대한 호몰로지와 코호몰로지를 복원하는 공식이다. Tor와 Ext 항은 계수를 바꿀 때 발생하는 "보정값"으로, 계수군에 비틀림(torsion)이 있을 때에만 비자명하게 기여한다.
정수론은 수학에서 가장 오래된 분야 중 하나이다. 소수의 분포, 합동식, 디오판토스 방정식 등 겉보기에 단순한 문제들이 수세기에 걸쳐 수학의 발전을 이끌어 왔다. Part VI에서는 초등 정수론의 기본 도구에서 출발하여 대수적 정수론의 심화 이론까지 다룬다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- An Introduction to Homological Algebra (Rotman) — 미리보기
- Weibel, An Introduction to Homological Algebra — 현대 호몰로지 대수의 표준 교재
- Rotman, An Introduction to Homological Algebra — 접근성 좋은 입문서
- Cartan & Eilenberg, Homological Algebra — 분야를 개척한 역사적 원전
- Hilton & Stammbach, A Course in Homological Algebra — GTM 4, 간결한 입문
- Gelfand & Manin, Methods of Homological Algebra — 도래 범주 포함 현대적 접근
17. Elementary Number Theory
초등 정수론은 정수의 나눗셈, 소인수분해, 합동식 등을 다루는 분야이다. '초등'이라는 이름과 달리 이 분야의 결과들은 암호학(RSA), 해시 함수, 난수 생성 등 현대 응용의 토대이다.
인터넷 보안의 근간인 RSA 암호 체계(RSA cryptosystem)는 전적으로 정수론에 기반한다. 두 큰 소수의 곱은 쉽게 계산할 수 있지만, 그 곱을 다시 소인수분해(prime factorization)하는 것은 현재 알려진 어떤 고전 알고리즘으로도 다항 시간 내에 해결할 수 없다. 이 비대칭성이 공개키 암호의 안전성을 보장한다. 디지털 통신에서 데이터 무결성을 검증하는 CRC(Cyclic Redundancy Check)는 다항식의 모듈러 나눗셈(modular division)에 기초하며, 의사난수 생성기(pseudorandom number generator)에 널리 쓰이는 선형 합동식(linear congruential generator) \(x_{n+1} \equiv ax_n + c \pmod{m}\)은 합동 산술의 직접적인 응용이다.
해시 함수(hash function)의 설계에서도 모듈러 연산은 핵심 도구이다. 예를 들어 해시 테이블의 주소 계산, 체크섬(checksum) 생성, 블룸 필터(Bloom filter) 등은 모두 정수를 특정 범위로 축소하는 나머지 연산에 의존한다. 나눗셈 정리, 유클리드 호제법, 페르마 소정리, 이차상호법칙 — 이 장에서 다루는 결과들이 그 수학적 바탕이다.
17.1 Divisibility and Primes
정수의 나눗셈 성질(divisibility)은 현대 암호학의 가장 기초적인 구성 요소이다. 두 수가 공통 인수를 갖는지, 어떤 수가 소수인지를 판정하는 문제는 단순해 보이지만, 이 판정의 계산 복잡도(computational complexity) 차이가 RSA와 같은 암호 체계의 안전성을 결정한다. 유클리드 호제법(Euclidean algorithm)은 최대공약수를 효율적으로 계산하는 알고리즘이자, 확장 형태에서는 모듈러 역원 계산과 키 생성(key generation)에 직접 쓰인다.
Definition 17.1 (Divisibility)
정수 \(a, b\)에 대해 \(a \neq 0\)일 때, \(b = ak\)를 만족하는 \(k \in \mathbb{Z}\)가 존재하면 \(a\)가 \(b\)를
나눈다(divides)고 하며 \(a \mid b\)로 표기한다. 기본 성질은 다음과 같다:
- \(a \mid b\)이고 \(a \mid c\)이면, 모든 \(x, y \in \mathbb{Z}\)에 대해 \(a \mid (bx + cy)\)이다 (선형성).
- \(a \mid b\)이고 \(b \mid c\)이면, \(a \mid c\)이다 (추이성).
- \(a \mid b\)이고 \(b \neq 0\)이면, \(|a| \leq |b|\)이다.
Theorem 17.1 (Division Algorithm)
임의의 정수 \(a\)와 \(b > 0\)에 대해, 다음을 만족하는 유일한 정수 \(q\) (몫)와 \(r\) (나머지)가 존재한다:
$$
a = bq + r, \quad 0 \leq r < b.
$$
Definition 17.2 (GCD and LCM)
최대공약수(greatest common divisor) \(\gcd(a, b)\)는 \(a\)와 \(b\)를 모두 나누는 가장 큰 양의 정수이다. 최소공배수(least common multiple) \(\operatorname{lcm}(a, b)\)는 \(a\)와 \(b\)로 모두 나누어지는 가장 작은 양의 정수이다. 이 둘의 관계는 다음과 같다:
$$
\gcd(a, b) \cdot \operatorname{lcm}(a, b) = |ab|.
$$
\(\gcd(a, b) = 1\)일 때 \(a\)와 \(b\)는 서로소(coprime)라 한다.
Theorem 17.2 (Euclidean Algorithm and Bezout's Identity)
유클리드 호제법은 반복적인 나눗셈(divisibility)을 통해 \(\gcd(a, b)\)를 계산한다: \(\gcd(a, b) = \gcd(b, a \bmod b)\). 이 알고리즘은 \(O(\log(\min(a,b)))\) 단계 내에 종료된다. 또한 다음을 만족하는 \(x, y \in \mathbb{Z}\)가 존재한다:
$$
\gcd(a, b) = ax + by.
$$
이 계수들은 확장 유클리드 호제법으로 구할 수 있다.
Example 17.1
\(\gcd(252, 198)\)을 계산하자:
$$
252 = 1 \cdot 198 + 54, \quad 198 = 3 \cdot 54 + 36, \quad 54 = 1 \cdot 36 + 18, \quad 36 = 2 \cdot 18 + 0.
$$
따라서 \(\gcd(252, 198) = 18\)이다. 역대입하면: \(18 = 54 - 36 = 54 - (198 - 3 \cdot 54) = 4 \cdot 54 - 198 = 4(252 - 198) - 198 = 4 \cdot 252 - 5 \cdot 198\).
Definition 17.3 (Prime Number)
정수 \(p > 1\)의 양의 약수가 1과 \(p\)뿐일 때, \(p\)를 소수(prime)라 한다. 소수(prime)가 아닌 정수 \(n > 1\)을 합성수(composite)라 한다. 관례적으로 1은 소수(prime)도 합성수도 아니다.
Theorem 17.3 (Fundamental Theorem of Arithmetic)
모든 정수 \(n > 1\)은 소수(prime)들의 곱으로 유일하게 (순서를 제외하고) 표현된다:
$$
n = p_1^{a_1} p_2^{a_2} \cdots p_k^{a_k}, \quad p_1 < p_2 < \cdots < p_k, \quad a_i \geq 1.
$$
Theorem 17.4 (Infinitude of Primes)
소수(prime)는 무한히 많다.
Proof
(유클리드.) 소수(prime)가 유한하게 \(p_1, \ldots, p_n\)만 존재한다고 가정하자. \(N = p_1 p_2 \cdots p_n + 1\)을 생각하면, \(N > 1\)이므로 \(N\)은 어떤 소인수(prime divisor) \(p\)를 가진다. 그런데 \(p \neq p_i\)인데, 이는 \(p \mid N\)이고 \(p_i \mid (N - 1)\)이면 \(p_i \mid 1\)이 되어 모순이기 때문이다. \(\blacksquare\)
Theorem 17.5 (Prime Number Theorem)
\(\pi(x)\)를 \(x\) 이하의 소수(prime)의 개수라 하면,
$$
\pi(x) \sim \frac{x}{\ln x}, \quad \text{i.e., } \lim_{x \to \infty} \frac{\pi(x)}{x / \ln x} = 1.
$$
소수의 분포는 점점 희박해지지만, 그 속도를 로그 함수가 정량적으로 잡아낸다. \(x\) 근방의 정수가 소수일 "확률"은 대략 \(1/\ln x\)이다.
17.2 Modular Arithmetic
나눗셈과 소수를 쥐었으면, 다음은 합동식이다. 모듈러 산술은 정수를 나머지에 따라 분류하며, 암호 체계의 수학적 바탕이다.
모듈러 산술(modular arithmetic)은 공학에서 가장 직접적으로 활용되는 정수론의 도구이다. 컴퓨터의 고정 크기 정수 연산은 본질적으로 \(2^{32}\) 또는 \(2^{64}\)를 법으로 하는 합동 산술이며, 네트워크 프로토콜의 시퀀스 번호 관리, 디지털 시계의 시간 계산 등 순환적(cyclic) 구조가 나타나는 모든 곳에 모듈러 산술이 깔려 있다. 중국인의 나머지 정리(Chinese Remainder Theorem)는 큰 수의 연산을 여러 작은 법에서의 병렬 연산으로 분해하는 원리를 제공하며, 실제로 큰 정수 곱셈 하드웨어와 RSA 복호화 가속에 활용된다.
합동 관계는 정수 전체를 나머지에 따라 분류하는 동치관계(equivalence relation)이며, 이로부터 만들어지는 잉여류 환(quotient ring) \(\mathbb{Z}/n\mathbb{Z}\)은 추상대수학과 정수론을 연결하는 가장 자연스러운 다리이다.
Definition 17.4 (Congruence)
정수 \(n > 0\)에 대해, \(n \mid (a - b)\)일 때 \(a \equiv b \pmod{n}\)이라 쓴다. 법 \(n\)에 대한 합동(congruence)은 \(\mathbb{Z}\) 위의 동치관계로, \(\mathbb{Z}\)를 \(n\)개의 잉여류 \(\bar{0}, \bar{1}, \ldots, \overline{n-1}\)로 분할한다. 잉여류의 집합은 환 \(\mathbb{Z}/n\mathbb{Z}\)를 이룬다.
Theorem 17.6 (Linear Congruences)
합동식(congruence) \(ax \equiv b \pmod{n}\)이 해를 가질 필요충분조건은 \(\gcd(a, n) \mid b\)이다. 해가 존재할 때, 법 \(n\)에 대한 해는 정확히 \(\gcd(a, n)\)개이다. 특히 \(\gcd(a, n) = 1\)이면, \(a\)는 법 \(n\)에 대한 유일한 곱셈 역원을 가진다.
Theorem 17.7 (Chinese Remainder Theorem)
\(n_1, n_2, \ldots, n_k\)가 쌍마다 서로소인 양의 정수이면, 연립 합동식(congruence)
$$
x \equiv a_1 \pmod{n_1}, \quad x \equiv a_2 \pmod{n_2}, \quad \ldots, \quad x \equiv a_k \pmod{n_k}
$$
은 법 \(N = n_1 n_2 \cdots n_k\)에 대해 유일한 해를 가진다. 동치적으로, 사상
$$
\mathbb{Z}/N\mathbb{Z} \xrightarrow{\;\sim\;} \mathbb{Z}/n_1\mathbb{Z} \times \mathbb{Z}/n_2\mathbb{Z} \times \cdots \times \mathbb{Z}/n_k\mathbb{Z}
$$
은 환 동형사상이다.
Proof
(구성적 증명.) 각 \(i\)에 대해 \(N_i = N / n_i\)로 놓자. \(\gcd(N_i, n_i) = 1\)이므로, \(N_i y_i \equiv 1 \pmod{n_i}\)를 만족하는 \(y_i\)가 존재한다. 그러면
$$
x = \sum_{i=1}^k a_i N_i y_i
$$
은 모든 합동식(congruence)을 만족한다: 각 \(j\)에 대해 항 \(a_j N_j y_j \equiv a_j \pmod{n_j}\)이고 나머지 항들은 법 \(n_j\)에 대해 사라진다. 법 \(N\)에 대한 유일성은, 두 해의 차이가 각 \(n_i\)의 배수이므로 \(N\)의 배수가 되는 것으로부터 따른다. \(\blacksquare\)
Example 17.2
\(x \equiv 2 \pmod{3}\), \(x \equiv 3 \pmod{5}\), \(x \equiv 2 \pmod{7}\)을 풀자. 여기서 \(N = 105\), \(N_1 = 35, N_2 = 21, N_3 = 15\)이다. \(35y_1 \equiv 1 \pmod{3}\)에서 \(y_1 = 2\). \(21y_2 \equiv 1 \pmod{5}\)에서 \(y_2 = 1\). \(15y_3 \equiv 1 \pmod{7}\)에서 \(y_3 = 1\). 따라서 \(x = 2 \cdot 35 \cdot 2 + 3 \cdot 21 \cdot 1 + 2 \cdot 15 \cdot 1 = 140 + 63 + 30 = 233 \equiv 23 \pmod{105}\).
Example 17.2a (CRT 활용: 큰 수의 나머지 계산)
\(3^{100} \bmod 35\)를 CRT를 이용하여 계산하자. \(35 = 5 \times 7\)이고 \(\gcd(5, 7) = 1\)이므로, 법 5와 법 7에서 각각 계산한 뒤 CRT로 합치면 된다.
법 5: 페르마 소정리에 의해 \(3^4 \equiv 1 \pmod{5}\). \(100 = 4 \times 25\)이므로 \(3^{100} = (3^4)^{25} \equiv 1 \pmod{5}\).
법 7: 페르마 소정리에 의해 \(3^6 \equiv 1 \pmod{7}\). \(100 = 6 \times 16 + 4\)이므로 \(3^{100} = (3^6)^{16} \cdot 3^4 \equiv 3^4 \equiv 81 \equiv 81 - 11 \times 7 = 81 - 77 = 4 \pmod{7}\).
CRT 합성: \(x \equiv 1 \pmod{5}\), \(x \equiv 4 \pmod{7}\)을 풀자. \(N = 35\), \(N_1 = 7\), \(N_2 = 5\). \(7y_1 \equiv 1 \pmod{5}\)에서 \(7 \equiv 2\)이므로 \(2y_1 \equiv 1\), \(y_1 = 3\). \(5y_2 \equiv 1 \pmod{7}\)에서 \(y_2 = 3\). 따라서
$$
x = 1 \cdot 7 \cdot 3 + 4 \cdot 5 \cdot 3 = 21 + 60 = 81 \equiv 11 \pmod{35}.
$$
검증: \(11 = 2 \cdot 5 + 1 \equiv 1 \pmod{5}\), \(11 = 1 \cdot 7 + 4 \equiv 4 \pmod{7}\). 따라서 \(3^{100} \equiv 11 \pmod{35}\)이다.
Example 17.2b (CRT의 환 동형사상 관점)
CRT의 환 동형사상 \(\mathbb{Z}/12\mathbb{Z} \cong \mathbb{Z}/3\mathbb{Z} \times \mathbb{Z}/4\mathbb{Z}\)를 명시적으로 구성하자. \(12 = 3 \times 4\)이고 \(\gcd(3,4) = 1\)이다.
사상 \(\phi: \mathbb{Z}/12\mathbb{Z} \to \mathbb{Z}/3\mathbb{Z} \times \mathbb{Z}/4\mathbb{Z}\)는 \(\phi(\bar{a}) = (a \bmod 3, \; a \bmod 4)\)로 정의된다. 대응표:
| \(\bar{0} \mapsto (0,0)\) | \(\bar{1} \mapsto (1,1)\) | \(\bar{2} \mapsto (2,2)\) | \(\bar{3} \mapsto (0,3)\) |
| \(\bar{4} \mapsto (1,0)\) | \(\bar{5} \mapsto (2,1)\) | \(\bar{6} \mapsto (0,2)\) | \(\bar{7} \mapsto (1,3)\) |
| \(\bar{8} \mapsto (2,0)\) | \(\bar{9} \mapsto (0,1)\) | \(\overline{10} \mapsto (1,2)\) | \(\overline{11} \mapsto (2,3)\) |
이 사상이 전단사이고 덧셈과 곱셈을 보존함을 확인할 수 있다. 응용: \((\mathbb{Z}/12\mathbb{Z})^\times\)의 구조를 파악할 때 유용하다. \((\mathbb{Z}/3\mathbb{Z})^\times \times (\mathbb{Z}/4\mathbb{Z})^\times \cong \mathbb{Z}/2\mathbb{Z} \times \mathbb{Z}/2\mathbb{Z}\)이므로, \((\mathbb{Z}/12\mathbb{Z})^\times\)는 클라인 4-군이다. 원소는 \(\{1, 5, 7, 11\}\)이며, 모든 원소의 위수가 2이다(\(5^2 = 25 \equiv 1\), \(7^2 = 49 \equiv 1\), \(11^2 = 121 \equiv 1\)).
17.3 Euler's Totient and Fermat's Little Theorem
오일러 토션트 함수와 페르마 소정리는 모듈러 산술에서 거듭제곱의 행동을 지배하는 결과이다. RSA 암호의 정당성이 바로 이 정리들에 기반한다.
RSA 암호에서 메시지 \(m\)을 공개키 \(e\)로 암호화한 뒤 비밀키 \(d\)로 복호화하면 원래 메시지가 복원되는 이유는, 정확히 오일러 정리(Euler's theorem)의 결과이다: \(m^{ed} \equiv m^{1 + k\varphi(n)} \equiv m \pmod{n}\). 이 절에서 다루는 오일러 토션트 함수(Euler's totient function) \(\varphi(n)\)은 법 \(n\)에 대한 가역원의 개수를 세는 함수로, 거듭제곱 연산의 주기(period)를 결정하며, RSA에서 키 쌍 \((e, d)\)의 관계식 \(ed \equiv 1 \pmod{\varphi(n)}\)에 직접 등장한다.
오일러 토션트 함수는 \(\mathbb{Z}/n\mathbb{Z}\)에서 곱셈에 대해 역원을 갖는 원소, 즉 가역원군(group of units) \((\mathbb{Z}/n\mathbb{Z})^\times\)의 크기를 측정한다.
Definition 17.5 (Euler's Totient Function)
오일러 토션트 함수 \(\varphi(n)\)은 \(1 \leq k \leq n\)인 정수 중 \(\gcd(k, n) = 1\)인 것의 개수를 센다. 동치적으로, \(\varphi(n) = |(\mathbb{Z}/n\mathbb{Z})^\times|\)이다. 소인수분해에 대해:
$$
\varphi(n) = n \prod_{p \mid n} \left(1 - \frac{1}{p}\right).
$$
특히 \(\varphi(p) = p - 1\)이고 \(\varphi(p^k) = p^{k-1}(p-1)\)이다. 이 함수는 곱셈적이다: \(\gcd(m,n) = 1\)일 때 \(\varphi(mn) = \varphi(m)\varphi(n)\).
Example 17.2c (Euler 함수 계산 예제)
여러 값에 대해 \(\varphi(n)\)을 계산하자.
(a) \(\varphi(36)\). \(36 = 2^2 \cdot 3^2\)이므로,
$$
\varphi(36) = 36 \left(1 - \frac{1}{2}\right)\left(1 - \frac{1}{3}\right) = 36 \cdot \frac{1}{2} \cdot \frac{2}{3} = 12.
$$
검증: \(1 \leq k \leq 36\)에서 \(\gcd(k, 36) = 1\)인 것은 \(\{1, 5, 7, 11, 13, 17, 19, 23, 25, 29, 31, 35\}\)로 정확히 12개이다.
(b) \(\varphi(100)\). \(100 = 2^2 \cdot 5^2\)이므로,
$$
\varphi(100) = 100 \left(1 - \frac{1}{2}\right)\left(1 - \frac{1}{5}\right) = 100 \cdot \frac{1}{2} \cdot \frac{4}{5} = 40.
$$
(c) \(\varphi(2^k)\). 소수 거듭제곱이므로 \(\varphi(2^k) = 2^{k-1}(2-1) = 2^{k-1}\)이다. 예를 들어 \(\varphi(8) = 4\), \(\varphi(16) = 8\), \(\varphi(32) = 16\).
(d) 곱셈적 성질의 활용. \(\varphi(360)\)을 구하자. \(360 = 8 \cdot 9 \cdot 5 = 2^3 \cdot 3^2 \cdot 5\)이므로,
$$
\varphi(360) = \varphi(2^3)\varphi(3^2)\varphi(5) = 4 \cdot 6 \cdot 4 = 96.
$$
또는 공식을 직접 적용하면 \(360(1 - 1/2)(1 - 1/3)(1 - 1/5) = 360 \cdot \frac{1}{2} \cdot \frac{2}{3} \cdot \frac{4}{5} = 96\)이다.
(e) 오일러 정리 활용. \(\varphi(36) = 12\)를 이용하면, \(\gcd(5, 36) = 1\)이므로 \(5^{12} \equiv 1 \pmod{36}\)이다. 따라서 \(5^{100} = 5^{12 \cdot 8 + 4} = (5^{12})^8 \cdot 5^4 \equiv 5^4 = 625 \equiv 625 - 17 \cdot 36 = 625 - 612 = 13 \pmod{36}\)이다.
Theorem 17.8 (Euler's Theorem)
\(\gcd(a, n) = 1\)이면,
$$
a^{\varphi(n)} \equiv 1 \pmod{n}.
$$
Proof
원소 \(\bar{a}\)는 위수가 \(\varphi(n)\)인 군 \((\mathbb{Z}/n\mathbb{Z})^\times\)에 속한다. 라그랑주 정리에 의해 \(\bar{a}\)의 위수는 \(\varphi(n)\)을 나누므로, \(a^{\varphi(n)} \equiv 1 \pmod{n}\)이다. \(\blacksquare\)
Theorem 17.9 (Fermat's Little Theorem)
\(p\)가 소수(prime)이고 \(p \nmid a\)이면,
$$
a^{p-1} \equiv 1 \pmod{p}.
$$
동치적으로, 모든 정수 \(a\)에 대해 \(a^p \equiv a \pmod{p}\)이다.
Example 17.3
\(2^{100} \bmod 13\)을 계산하자. \(13\)은 소수(prime)이고 \(\gcd(2, 13) = 1\)이므로, 페르마의 정리에 의해 \(2^{12} \equiv 1 \pmod{13}\)이다. \(100 = 12 \cdot 8 + 4\)이므로, \(2^{100} = (2^{12})^8 \cdot 2^4 \equiv 1^8 \cdot 16 \equiv 3 \pmod{13}\)이다.
Theorem 17.10 (Wilson's Theorem)
정수 \(p > 1\)이 소수(prime)일 필요충분조건은 \((p-1)! \equiv -1 \pmod{p}\)이다.
17.4 Quadratic Residues and the Legendre Symbol
이차잉여 이론의 핵심 질문은 하나다: 합동 방정식 \(x^2 \equiv a \pmod{p}\)가 해를 갖는가? 이차 상호법칙은 가우스가 "산술의 보석"이라 부른 결과이다.
이차잉여(quadratic residue) 이론은 타원 곡선 암호(elliptic curve cryptography, ECC)와 이차 체(quadratic sieve) 소인수분해 알고리즘에 직접 사용된다. 타원 곡선 위의 점을 찾으려면 유한체에서 제곱근의 존재 여부를 판정해야 하며, 이것이 바로 이차잉여 판정 문제이다. 더 넓게 보면, 소수가 가우스 정수환 \(\mathbb{Z}[i]\)이나 다른 수체(number field)에서 어떻게 분해되는지를 결정하는 것도 이차잉여 이론과 직결된다. 이차 상호법칙(quadratic reciprocity)은 서로 다른 두 소수에 대한 이차잉여 관계를 대칭적으로 연결하며, 유클리드 호제법과 유사한 재귀적 축소를 통해 효율적인 판정 알고리즘을 제공한다.
Definition 17.6 (Quadratic Residue)
\(p\)를 홀수 소수(prime)라 하자. \(p \nmid a\)인 정수 \(a\)에 대해, \(x^2 \equiv a \pmod{p}\)가 해를 가지면 \(a\)를 법 \(p\)에 대한 이차잉여(quadratic residue)라 하고, 그렇지 않으면 이차비잉여(quadratic nonresidue)라 한다. 법 \(p\)에 대한 이차잉여(quadratic residue)는 정확히 \((p-1)/2\)개이고, 이차비잉여도 \((p-1)/2\)개이다.
Definition 17.7 (Legendre Symbol)
홀수 소수(prime) \(p\)와 \(p \nmid a\)인 정수 \(a\)에 대해, 르장드르 기호(Legendre symbol)는 다음과 같이 정의된다:
$$
\left(\frac{a}{p}\right) = \begin{cases} 1 & \text{if } a \text{ is a quadratic residue mod } p, \\ -1 & \text{if } a \text{ is a quadratic nonresidue mod } p. \end{cases}
$$
Theorem 17.11 (Euler's Criterion)
홀수 소수(prime) \(p\)와 \(p \nmid a\)에 대해:
$$
\left(\frac{a}{p}\right) \equiv a^{(p-1)/2} \pmod{p}.
$$
Proof
페르마 정리에 의해 \(a^{p-1} \equiv 1 \pmod{p}\)이므로, \(a^{(p-1)/2}\)는 \(x^2 - 1 \equiv 0\)의 근이다. 따라서 \(a^{(p-1)/2} \equiv \pm 1\)이다. \(a = b^2\)이면 \(a^{(p-1)/2} = b^{p-1} \equiv 1\)이다. \(a\)가 이차비잉여(nonresidue)이면, 다항식 \(x^{(p-1)/2} - 1\)이 이미 \((p-1)/2\)개의 근(이차잉여(quadratic residue)들)을 가지므로 \(a^{(p-1)/2}\)는 \(-1\)이어야 한다. \(\blacksquare\)
Theorem 17.12 (Properties of the Legendre Symbol)
- Multiplicativity: \(\left(\frac{ab}{p}\right) = \left(\frac{a}{p}\right)\left(\frac{b}{p}\right)\).
- \(\left(\frac{-1}{p}\right) = (-1)^{(p-1)/2}\)이므로, \(-1\)이 법 \(p\)에 대한 이차잉여(quadratic residue)일 필요충분조건은 \(p \equiv 1 \pmod{4}\)이다.
- \(\left(\frac{2}{p}\right) = (-1)^{(p^2-1)/8}\)이므로, \(2\)가 법 \(p\)에 대한 이차잉여(quadratic residue)일 필요충분조건은 \(p \equiv \pm 1 \pmod{8}\)이다.
Theorem 17.13 (Quadratic Reciprocity)
\(p\)와 \(q\)를 서로 다른 홀수 소수(prime)라 하자. 그러면
$$
\left(\frac{p}{q}\right)\left(\frac{q}{p}\right) = (-1)^{\frac{p-1}{2} \cdot \frac{q-1}{2}}.
$$
즉, \(p \equiv q \equiv 3 \pmod{4}\)인 경우를 제외하면 \(\left(\frac{p}{q}\right) = \left(\frac{q}{p}\right)\)이고, 두 소수(prime) 모두 \(3 \pmod{4}\)와 합동(congruence)이면 \(\left(\frac{p}{q}\right) = -\left(\frac{q}{p}\right)\)이다.
Example 17.4
7은 법 11에 대한 이차잉여(quadratic residue)인가? 이차상호법칙에 의해 (\(7, 11 \equiv 3 \pmod{4}\)이므로):
$$
\left(\frac{7}{11}\right) = -\left(\frac{11}{7}\right) = -\left(\frac{4}{7}\right) = -(1) = -1.
$$
따라서 7은 법 11에 대한 이차비잉여이다. 검증: 법 11에 대한 이차잉여(quadratic residue)는 \(1^2, 2^2, 3^2, 4^2, 5^2 \equiv 1, 4, 9, 5, 3 \pmod{11}\)이며, \(7\)이 포함되지 않음을 확인할 수 있다.
Example 17.4a (이차잉여 판정: 오일러 판정법과 상호법칙의 종합 활용)
(a) \(\left(\frac{3}{13}\right)\)의 계산. 오일러 판정법을 사용한다: \(3^{(13-1)/2} = 3^6 \pmod{13}\). 단계적으로: \(3^2 = 9\), \(3^4 = 81 \equiv 81 - 6 \cdot 13 = 81 - 78 = 3 \pmod{13}\), \(3^6 = 3^4 \cdot 3^2 \equiv 3 \cdot 9 = 27 \equiv 1 \pmod{13}\). 따라서 \(\left(\frac{3}{13}\right) = 1\)이고, 3은 법 13에 대한 이차잉여이다. 실제로 \(4^2 = 16 \equiv 3 \pmod{13}\)이므로 확인된다.
(b) \(\left(\frac{5}{23}\right)\)의 계산. 이차상호법칙을 적용한다. \(5 \equiv 1 \pmod{4}\)이므로 부호 변화 없이:
$$
\left(\frac{5}{23}\right) = \left(\frac{23}{5}\right) = \left(\frac{3}{5}\right).
$$
\(23 \equiv 3 \pmod{5}\)를 사용했다. 이제 다시 상호법칙: \(3 \equiv 3 \pmod{4}\), \(5 \equiv 1 \pmod{4}\)이므로 \(\frac{3-1}{2} \cdot \frac{5-1}{2} = 1 \cdot 2 = 2\), 즉 부호 변화 없음:
$$
\left(\frac{3}{5}\right) = \left(\frac{5}{3}\right) = \left(\frac{2}{3}\right).
$$
\(3 \equiv 3 \pmod{8}\)이므로 \(\left(\frac{2}{3}\right) = (-1)^{(9-1)/8} = (-1)^1 = -1\). 따라서 \(\left(\frac{5}{23}\right) = -1\)이고, 5는 법 23에 대한 이차비잉여이다.
(c) 법 \(p\)에 대한 이차잉여 전체 목록 구하기: \(p = 13\). \(1^2 \equiv 1\), \(2^2 \equiv 4\), \(3^2 \equiv 9\), \(4^2 \equiv 3\), \(5^2 \equiv 12\), \(6^2 \equiv 10 \pmod{13}\). 따라서 법 13에 대한 이차잉여는 \(\{1, 3, 4, 9, 10, 12\}\)이고, 이차비잉여는 \(\{2, 5, 6, 7, 8, 11\}\)이다. \((p-1)/2 = 6\)개씩 정확히 반으로 나뉜다. 이차잉여의 곱은 다시 이차잉여이고(르장드르 기호의 곱셈성), 이차잉여와 이차비잉여의 곱은 이차비잉여이며, 이차비잉여끼리의 곱은 이차잉여이다.
Example 17.4b (이차잉여의 응용: 소수의 합으로 표현)
이차잉여 이론의 고전적 응용으로, 어떤 소수가 두 정수의 제곱합으로 표현되는지 판정하는 문제가 있다.
정리 (페르마). 홀수 소수 \(p\)가 \(p = a^2 + b^2\) 형태로 쓸 수 있을 필요충분조건은 \(p \equiv 1 \pmod{4}\)이다.
핵심 관찰: \(p \equiv 1 \pmod{4}\)이면 \(\left(\frac{-1}{p}\right) = 1\)이므로 \(x^2 \equiv -1 \pmod{p}\)를 만족하는 \(x\)가 존재한다. 이는 \(p \mid x^2 + 1\), 즉 가우스 정수환 \(\mathbb{Z}[i]\)에서 \(p \mid (x+i)(x-i)\)를 의미한다. 만약 \(p\)가 \(\mathbb{Z}[i]\)에서 기약이라면 \(p \mid (x+i)\) 또는 \(p \mid (x-i)\)여야 하는데, 둘 다 불가능하다(\(1/p \notin \mathbb{Z}\)). 따라서 \(p\)는 \(\mathbb{Z}[i]\)에서 분해되고, \(p = (a + bi)(a - bi) = a^2 + b^2\)이다.
예: \(p = 13 \equiv 1 \pmod{4}\). \(5^2 = 25 \equiv -1 \pmod{13}\)이므로 \(-1\)은 이차잉여이다. 실제로 \(13 = 4 + 9 = 2^2 + 3^2\)이다. 반면 \(p = 7 \equiv 3 \pmod{4}\)이면 \(-1\)은 이차비잉여이고, 7은 두 제곱합으로 표현할 수 없다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
18. Algebraic Number Theory
대수적 정수론은 정수의 성질을 수체(number field)로 확장하여 연구하는 분야이다. 유일 인수분해의 실패를 아이디얼의 유일 분해로 복원하는 데데킨트의 아이디어가 이 이론의 출발점이며, 류군과 단원 정리는 수체의 산술적 구조를 정밀하게 기술한다.
대수적 정수론의 구조는 현대 암호학과 부호 이론(coding theory)에서 점점 더 중요해지고 있다. 양자 컴퓨터의 등장 가능성에 대비한 포스트 양자 암호(post-quantum cryptography)에서 가장 유력한 후보 중 하나인 격자 기반 암호(lattice-based cryptography)는 대수적 수체의 정수환 위에 정의된 이상 격자(ideal lattice)의 구조를 활용한다. Shor의 양자 알고리즘(Shor's algorithm)이 RSA를 깨뜨릴 수 있는 이유 역시, 정수의 위수 찾기(order finding) 문제를 양자 푸리에 변환으로 효율적으로 풀 수 있다는 수론적 구조에 기인한다. 부호 이론에서는 대수적 수체의 아이디얼(ideal)이 갖는 유일 인수분해 성질이 오류 정정 부호(error-correcting code)의 구성에 활용된다.
이 장은 "정수" 개념을 일반화한다. 일반적인 수체에서는 원소의 유일 인수분해(unique factorization)가 성립하지 않을 수 있다. 데데킨트(Dedekind)는 원소 대신 아이디얼(ideal)을 인수분해의 기본 단위로 삼으면 유일성이 복원된다는 것을 보였다. "왜 '수' 대신 '아이디얼'로 인수분해하는가?"가 이 장이 답하는 질문이다.
18.1 Number Fields and Rings of Integers
정수론을 대수적 구조로 일반화하는 첫 단계는 유리수체 \(\mathbb{Q}\)를 확장하여 새로운 "수의 세계"를 만드는 것이다. 이 확장된 수체(number field)에서 정수 역할을 하는 원소들의 집합이 정수환(ring of integers) \(\mathcal{O}_K\)이며, 이 환의 산술적 성질을 이해하는 것이 대수적 정수론의 출발점이다. 노름(norm)과 판별식(discriminant)은 수체의 기하학적 구조를 수치로 포착한다.
Definition 18.1 (Number Field)
수체(number field)는 \(\mathbb{Q}\)의 유한 확대 \(K/\mathbb{Q}\)이다. 차수 \([K:\mathbb{Q}] = n\)을 수체(number field)의 차수(degree)라 한다. 원시원소 정리에 의해, 모든 수체(number field)는 어떤 대수적 수 \(\alpha\)에 대해 \(K = \mathbb{Q}(\alpha)\) 형태를 가진다.
Definition 18.2 (Algebraic Integer, Ring of Integers)
원소 \(\alpha \in K\)가 \(\mathbb{Z}[x]\) 위의 최고차 계수가 1인 다항식의 근이면 대수적 정수(algebraic integer)라 한다. \(K\) 안의 모든 대수적 정수의 집합은 환을 이루며, 이를 정수환(ring of integers) \(\mathcal{O}_K\)이라 한다. \(\mathbb{Z}\)-가군으로서 \(\mathcal{O}_K\)는 계수(rank) \(n = [K:\mathbb{Q}]\)인 자유 가군이다.
Example 18.1
- \(K = \mathbb{Q}\): \(\mathcal{O}_K = \mathbb{Z}\).
- \(K = \mathbb{Q}(i)\): \(\mathcal{O}_K = \mathbb{Z}[i]\), 가우스 정수환이다.
- \(K = \mathbb{Q}(\sqrt{d})\) (제곱인수가 없는 \(d\)):
$$
\mathcal{O}_K = \begin{cases} \mathbb{Z}\left[\frac{1+\sqrt{d}}{2}\right] & \text{if } d \equiv 1 \pmod{4}, \\ \mathbb{Z}[\sqrt{d}] & \text{if } d \equiv 2, 3 \pmod{4}. \end{cases}
$$
- \(K = \mathbb{Q}(\zeta_n)\), 제\(n\) 원분체: \(\mathcal{O}_K = \mathbb{Z}[\zeta_n]\).
Definition 18.3 (Norm, Trace, Discriminant)
\([K:\mathbb{Q}] = n\)이고 매장 \(\sigma_1, \ldots, \sigma_n: K \hookrightarrow \mathbb{C}\)가 주어진 \(\alpha \in K\)에 대해:
- 노름(norm): \(N_{K/\mathbb{Q}}(\alpha) = \prod_{i=1}^n \sigma_i(\alpha) \in \mathbb{Q}\).
- 대각합(trace): \(\operatorname{Tr}_{K/\mathbb{Q}}(\alpha) = \sum_{i=1}^n \sigma_i(\alpha) \in \mathbb{Q}\).
- \(\mathcal{O}_K\)의 기저 \(\{\omega_1, \ldots, \omega_n\}\)에 대한 판별식(discriminant): \(\Delta_K = \det(\sigma_i(\omega_j))^2\).
\(\alpha \in \mathcal{O}_K\)이면 \(N(\alpha)\)와 \(\operatorname{Tr}(\alpha)\)는 정수이다. 노름은 곱셈적이다: \(N(\alpha\beta) = N(\alpha)N(\beta)\). 원소 \(\alpha \in \mathcal{O}_K\)가 단원(unit)일 필요충분조건은 \(N(\alpha) = \pm 1\)이다.
Example 18.2
\(\mathbb{Z}[i]\)에서: \(\alpha = a + bi\)에 대해 노름은 \(N(\alpha) = a^2 + b^2\)이다. 단원은 \(\{\pm 1, \pm i\}\)이며, 각각의 노름은 1이다. 판별식은 \(\Delta_{\mathbb{Q}(i)} = -4\)이다.
18.2 Ideal Theory and Unique Factorization of Ideals
수체의 정수환에서는 원소의 유일 인수분해가 일반적으로 성립하지 않는다. 이 난점을 극복하기 위해 아이디얼 수준에서의 인수분해를 도입한다.
유일 인수분해의 실패는 실질적인 계산 문제를 야기한다. 예를 들어, \(\mathbb{Z}[\sqrt{-5}]\)에서 \(6 = 2 \times 3 = (1+\sqrt{-5})(1-\sqrt{-5})\)이라는 두 가지 인수분해가 공존하면, 나눗셈에 기반한 알고리즘의 정당성이 무너진다. 데데킨트의 아이디얼 이론(ideal theory)은 이 문제를 "인수분해의 단위를 원소에서 아이디얼로 격상"시킴으로써 해결한다. 격자 기반 암호에서 이상 격자(ideal lattice)의 구조적 성질이 중요한 이유도, 이 아이디얼의 유일 분해가 격자의 대수적 구조를 보장하기 때문이다.
\(\mathcal{O}_K\)의 원소가 기약원소들로 유일하게 분해되지 않을 수 있지만, 아이디얼은 (데데킨트 정역에서) 항상 유일하게 분해된다. 이 관찰에서 쿠머와 데데킨트가 아이디얼 수준의 인수분해를 도입했다.
Definition 18.4 (Fractional Ideal)
\(\mathcal{O}_K\)의 분수 아이디얼(fractional ideal)은 0이 아닌 \(\mathcal{O}_K\)-부분가군 \(\mathfrak{a} \subseteq K\)로서, 어떤 0이 아닌 \(d \in \mathcal{O}_K\)에 대해 \(d\mathfrak{a} \subseteq \mathcal{O}_K\)를 만족하는 것이다. 분수 아이디얼의 곱은 \(\mathfrak{a}\mathfrak{b} = \{\sum a_i b_i : a_i \in \mathfrak{a}, b_i \in \mathfrak{b}\}\)로 정의된다.
Theorem 18.1 (Unique Factorization of Ideals)
\(\mathcal{O}_K\)에서 모든 0이 아닌 아이디얼 \(\mathfrak{a}\)는 소 아이디얼(prime ideal)들의 곱으로 (순서를 제외하고) 유일하게 분해된다:
$$
\mathfrak{a} = \mathfrak{p}_1^{e_1} \mathfrak{p}_2^{e_2} \cdots \mathfrak{p}_r^{e_r}.
$$
이것이 원소의 유일 분해를 대체한다.
Definition 18.5 (Ideal Norm)
0이 아닌 아이디얼 \(\mathfrak{a} \trianglelefteq \mathcal{O}_K\)의 노름(norm)은 부분군으로서의 지표 \(N(\mathfrak{a}) = |\mathcal{O}_K / \mathfrak{a}|\)이다. 단항 아이디얼에 대해 \(N((\alpha)) = |N_{K/\mathbb{Q}}(\alpha)|\)이다. 노름은 곱셈적이다: \(N(\mathfrak{a}\mathfrak{b}) = N(\mathfrak{a}) N(\mathfrak{b})\).
Theorem 18.2 (Prime Ideal Behavior)
유리 소수(prime) \(p\)와 \(\mathcal{O}_K = \mathbb{Z}[\alpha]\), 최소다항식 \(f(x)\)를 가지는 수체(number field) \(K = \mathbb{Q}(\alpha)\)를 생각하자. \(\mathbb{F}_p[x]\)에서 \(\bar{f}(x) = \bar{g}_1(x)^{e_1} \cdots \bar{g}_r(x)^{e_r}\)로 인수분해하면, (데데킨트 정리에 의해):
$$
(p) = \mathfrak{p}_1^{e_1} \cdots \mathfrak{p}_r^{e_r}, \quad \text{where } \mathfrak{p}_i = (p, g_i(\alpha)), \quad N(\mathfrak{p}_i) = p^{\deg g_i}.
$$
소수(prime) \(p\)는 다음과 같이 분류된다:
- \(r > 1\)이고 모든 \(e_i = 1\)이면 분해(split),
- \(r = 1\)이고 \(e_1 = 1\)이면 (즉 \((p)\)가 소 아이디얼로 남으면) 불활성(inert),
- 어떤 \(e_i > 1\)이면 분기(ramified). 분기는 정확히 \(p \mid \Delta_K\)일 때 발생한다.
Example 18.3
\(\mathcal{O}_{\mathbb{Q}(\sqrt{-5})} = \mathbb{Z}[\sqrt{-5}]\)에서:
- \(6 = 2 \cdot 3 = (1+\sqrt{-5})(1-\sqrt{-5})\): 원소의 인수분해가 유일하지 않다.
- 그러나 아이디얼 수준에서는: \((2) = (2, 1+\sqrt{-5})^2\), \((3) = (3, 1+\sqrt{-5})(3, 1-\sqrt{-5})\)이고,
$$
(6) = (2, 1+\sqrt{-5})^2 (3, 1+\sqrt{-5})(3, 1-\sqrt{-5}).
$$
아이디얼의 인수분해는 유일하다.
18.3 Dedekind Domains
아이디얼의 유일 분해가 성립하는 환의 일반적 조건을 추상화한 것이 데데킨트 정역이다. 수체의 정수환은 모두 데데킨트 정역이며, 이 구조는 대수적 정수론과 대수기하학에서 공통적으로 등장한다.
앞 절에서 수체의 정수환 \(\mathcal{O}_K\)에서 아이디얼의 유일 분해를 확인했다. 자연스러운 질문은 "어떤 환에서 아이디얼의 유일 분해가 보장되는가?"이다. 데데킨트 정역(Dedekind domain)은 이 질문에 대한 정확한 답을 제공하는 추상적 조건이다. 이 개념은 정수론뿐 아니라 대수기하학(algebraic geometry)에서 매끄러운 대수 곡선(smooth algebraic curve)의 좌표환을 기술하는 데에도 등장하며, 두 분야 사이의 유사성이 여기서 드러난다.
Definition 18.6 (Dedekind Domain)
정역 \(R\)이
데데킨트 정역(Dedekind domain)이 되려면 다음 조건을 만족해야 한다:
- \(R\)은 뇌터 환이다 (모든 아이디얼이 유한 생성).
- \(R\)은 정수적으로 닫혀 있다 (분수체의 원소가 \(R\) 위의 최고차 계수 1인 다항식을 만족하면 \(R\)에 속한다).
- 모든 0이 아닌 소 아이디얼(prime ideal)이 극대 아이디얼이다.
Theorem 18.3 (Characterizations of Dedekind Domains)
체가 아닌 정역 \(R\)에 대해 다음은 동치이다:
- \(R\)은 데데킨트 정역이다.
- 모든 0이 아닌 아이디얼이 소 아이디얼(prime ideal)들의 곱으로 유일하게 분해된다.
- 모든 0이 아닌 분수 아이디얼이 가역이다 (즉, 분수 아이디얼들이 곱셈에 대해 군을 이룬다).
- \(R\)은 뇌터 환이고, 모든 0이 아닌 소 아이디얼 \(\mathfrak{p}\)에 대해 \(R_{\mathfrak{p}}\)가 DVR (이산 부치환)이다.
임의의 수체(number field) \(K\)의 정수환(ring of integers) \(\mathcal{O}_K\)은 데데킨트 정역이다.
Example 18.4
- 모든 PID는 데데킨트 정역이다 (역은 성립하지 않는다).
- \(\mathbb{Z}[\sqrt{-5}]\)는 PID가 아닌 데데킨트 정역이다 (\((2, 1+\sqrt{-5})\)가 단항 아이디얼이 아니므로).
- 환 \(k[x, y]/(y^2 - x^3)\)은 데데킨트 정역이 아니다: 정수적으로 닫혀 있지 않다 (분수체의 원소 \(y/x\)가 \(t^2 - x = 0\)을 만족하지만 이 환에 속하지 않는다).
18.4 The Class Group and Dirichlet's Unit Theorem
류군은 정수환이 PID에서 얼마나 벗어나는지를 측정하는 유한군이며, 디리클레 단원 정리는 단원군의 구조를 완전히 결정한다. 이 두 불변량은 수체의 산술을 지배한다.
류수(class number) \(h_K\)는 수체의 산술적 복잡도를 하나의 정수로 요약하는 불변량이다. \(h_K = 1\)이면 원소의 유일 인수분해가 성립하고, \(h_K > 1\)이면 그 실패의 정도를 정량적으로 측정한다. 격자 기반 암호에서 이상 격자의 안전성 분석에 류수가 등장하며, 류수의 계산 자체가 수론적 알고리즘의 주요 연구 주제이다. 디리클레 단원 정리(Dirichlet's unit theorem)는 정수환의 가역원(unit)이 어떤 구조를 갖는지를 완전히 기술하며, 이 정보는 해석적 류수 공식(analytic class number formula)을 통해 류수와 연결된다.
Definition 18.7 (Ideal Class Group)
\(\mathcal{O}_K\)의 0이 아닌 두 분수 아이디얼 \(\mathfrak{a}\)와 \(\mathfrak{b}\)가 어떤 \(\alpha \in K^\times\)에 대해 \(\mathfrak{a} = (\alpha)\mathfrak{b}\)이면 동치(equivalent)라 한다. 동치류의 집합이 아이디얼 류군(ideal class group)을 이룬다:
$$
\operatorname{Cl}(K) = \{\text{fractional ideals}\} / \{\text{principal fractional ideals}\}.
$$
류수(class number) \(h_K = |\operatorname{Cl}(K)|\)는 항상 유한하다.
류수는 원소의 유일 분해가 얼마나 실패하는지를 측정한다: \(h_K = 1\)일 필요충분조건은 \(\mathcal{O}_K\)가 PID (동치적으로 UFD)인 것이다.
Theorem 18.4 (Minkowski's Bound)
\(\operatorname{Cl}(K)\)의 모든 아이디얼 류에는 다음을 만족하는 아이디얼 \(\mathfrak{a}\)가 존재한다:
$$
N(\mathfrak{a}) \leq M_K = \frac{n!}{n^n} \left(\frac{4}{\pi}\right)^{r_2} \sqrt{|\Delta_K|},
$$
여기서 \(n = [K:\mathbb{Q}]\), \(r_2\)는 켤레 복소 매장의 쌍의 수, \(\Delta_K\)는 판별식이다. 따라서 류군은 노름이 \(M_K\) 이하인 소 아이디얼(prime ideal)들로 생성된다.
Example 18.5
\(K = \mathbb{Q}(\sqrt{-5})\)에서는: \(n = 2\), \(r_2 = 1\), \(\Delta_K = -20\). 민코프스키 한계는 \(M_K = \frac{2}{4} \cdot \frac{4}{\pi} \cdot \sqrt{20} = \frac{2\sqrt{20}}{\pi} \approx 2.85\)이다. 따라서 소수(prime) \(p = 2\)만 확인하면 된다. \((2) = (2, 1+\sqrt{-5})^2\)이고 \((2, 1+\sqrt{-5})\)는 단항 아이디얼이 아니므로 (노름이 2인 원소는 \(a^2 + 5b^2 = 2\)의 정수해가 없어 존재하지 않는다), 류군의 위수는 \(h_K = 2\)이다.
Theorem 18.5 (Dirichlet's Unit Theorem)
차수 \(n\)인 수체(number field) \(K\)가 \(r_1\)개의 실수 매장과 \(r_2\)쌍의 켤레 복소 매장을 가질 때 (\(n = r_1 + 2r_2\)), 단원군 \(\mathcal{O}_K^\times\)은 유한 생성이다:
$$
\mathcal{O}_K^\times \cong \mu_K \times \mathbb{Z}^{r_1 + r_2 - 1},
$$
여기서 \(\mu_K\)는 \(K\) 안의 단위근으로 이루어진 유한 순환군이다. 정수 \(r = r_1 + r_2 - 1\)을 단원 계수(unit rank)라 한다.
Proof
(개요.) 대수적 매장 \(\ell: \mathcal{O}_K^\times \to \mathbb{R}^{r_1 + r_2}\)를 \(\ell(u) = (\log|\sigma_1(u)|, \ldots, \log|\sigma_{r_1}(u)|, 2\log|\sigma_{r_1+1}(u)|, \ldots, 2\log|\sigma_{r_1+r_2}(u)|)\)로 정의한다. 상은 초평면 \(\sum x_i = 0\) 위에 놓인다 (단원에 대해 \(\sum = \log|N(u)| = 0\)이므로). \(\ell\)의 핵은 정확히 \(\mu_K\)이다. 격자 논법 (민코프스키의 볼록체 정리를 사용)에 의해, 상은 이 초평면에서 계수 \(r_1 + r_2 - 1\)인 격자이다. \(\blacksquare\)
Example 18.6
- \(K = \mathbb{Q}\): \(r_1 = 1, r_2 = 0\), 계수 \(= 0\). 단원: \(\{\pm 1\}\).
- \(K = \mathbb{Q}(i)\): \(r_1 = 0, r_2 = 1\), 계수 \(= 0\). 단원: \(\{\pm 1, \pm i\}\).
- \(K = \mathbb{Q}(\sqrt{2})\): \(r_1 = 2, r_2 = 0\), 계수 \(= 1\). 기본 단원은 \(1 + \sqrt{2}\)이므로, \(\mathcal{O}_K^\times = \{\pm(1+\sqrt{2})^n : n \in \mathbb{Z}\}\).
- \(K = \mathbb{Q}(\sqrt[3]{2})\): \(r_1 = 1, r_2 = 1\), 계수 \(= 1\).
Definition 18.8 (Regulator)
\(u_1, \ldots, u_r\)을 기본 단원 체계라 하자 (\(r = r_1 + r_2 - 1\)). 대수적 매장 \(\sigma_1, \ldots, \sigma_{r_1}\) (실수 매장)과 \(\sigma_{r_1+1}, \ldots, \sigma_{r_1+r_2}\) (복소 매장 대표)에 대해, 로그 매장(logarithmic embedding)을 \(\ell_j(u) = \log|\sigma_j(u)|\) (실수 매장) 또는 \(\ell_j(u) = 2\log|\sigma_j(u)|\) (복소 매장)으로 정의한다. 조정자(regulator) \(R_K\)는 \(r \times r\) 행렬 \((\ell_j(u_i))_{1 \leq i,j \leq r}\)에서 임의의 한 행을 제거한 행렬식의 절댓값이다. 조정자는 해석적 류수 공식에 등장한다.
Theorem 18.6 (Analytic Class Number Formula)
데데킨트 제타 함수 \(\zeta_K(s) = \sum_{\mathfrak{a}} N(\mathfrak{a})^{-s}\)는 \(s = 1\)에서 단순 극을 가지며, 그 유수(residue)는 다음과 같다:
$$
\lim_{s \to 1^+} (s - 1)\zeta_K(s) = \frac{2^{r_1} (2\pi)^{r_2} h_K R_K}{w_K \sqrt{|\Delta_K|}},
$$
여기서 \(h_K\)는 류수, \(R_K\)는 조정자, \(w_K = |\mu_K|\)는 단위근의 수이다.
해석학(제타 함수의 극)과 대수학(류수, 단원군)이 하나의 등식에 만난다. 류수를 실제로 계산할 때도 이 공식을 쓴다.
Sources: Harvard Abstract Algebra (Gross, Elkies), UPenn Math 371/602/603/620/702 (Chai, Harbater, Shatz), U Maryland MATH 406 (Ramachandran), Liberty University Number Theory (Zargar).
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Algebraic Number Theory (Milne) — 무료 강의노트 PDF
- Expository Papers (Keith Conrad) — 정수론 주제별 무료 해설
- Neukirch, Algebraic Number Theory — Grundlehren 322, 대학원 표준 교재
- Marcus, Number Fields — Springer UTM, 접근성 좋은 입문서
- Samuel, Algebraic Theory of Numbers — 간결한 고전적 입문
- Lang, Algebraic Number Theory — GTM 110, 포괄적 레퍼런스
- Cassels & Fröhlich, Algebraic Number Theory — 국소-대역 관점의 고전
Part VII — 위상수학 & 기하학
위상수학과 기하학은 공간의 성질을 연구한다. 위상수학은 '늘이고 구부려도 변하지 않는' 성질을, 기하학은 거리와 곡률 같은 계량적 성질을 다룬다. 이 두 분야는 서로 보완적이다: 위상수학이 공간의 정성적 구조를 포착한다면, 기하학은 정량적으로 잰다. Part VII에서는 일반 위상수학, 미분기하학, 대수기하학, 대수적 위상수학을 차례로 살펴본다.
19. 위상수학
일반 위상수학은 열린집합, 연속 사상, 컴팩트성, 연결성 등 공간의 가장 기본적인 성질을 다룬다. 거리 공간의 개념을 일반화하여 보다 넓은 범위의 공간을 통일된 틀에서 분석한다.
위상수학(topology)은 공간의 형태를 다루는 분야이다. 연속적으로 변형(늘이기, 구부리기, 비틀기)해도 보존되는 성질(연결성, 구멍의 개수, 차원 등)을 연구한다. 공학에서 이 관점이 직접 활용되는 대표적인 분야가 위상 최적화(topology optimization)이다. 구조물의 형상을 설계할 때, 재료의 분포를 최적화하여 무게 대비 강성을 극대화하는 문제에서 구조물에 뚫릴 구멍의 개수와 위치가 위상적 변수로 등장한다. 로보틱스에서는 로봇의 모든 가능한 자세를 나타내는 배치 공간(configuration space)이 위상 공간을 이루며, 이 공간의 연결성과 장애물에 의한 위상적 구조가 경로 계획(path planning)의 가능 여부를 결정한다.
데이터 과학에서는 위상적 데이터 분석(TDA, Topological Data Analysis)이 고차원 데이터의 "형태"를 파악하는 도구로 부상하고 있다. 지속 호몰로지(persistent homology)는 데이터 포인트 클라우드에서 다양한 스케일에 걸쳐 존재하는 구멍과 연결 성분을 추적한다. 물성물리학에서는 위상적 절연체(topological insulator)가 내부는 절연체이면서 표면에서만 전도성을 갖는 물질로, 위상 불변량이 그 성질을 지킨다. 위상수학은 "연속적으로 변형해도 보존되는 것"을 정밀하게 정의하고 분류한다.
이 장에서는 열린집합(open set)과 닫힌집합(closed set)의 개념으로 시작하여, 수렴과 연속의 일반적 정의를 세운 후, 콤팩트성(compactness)과 연결성(connectedness)이라는 두 핵심 성질을 다룬다. 극값 정리, 중간값 정리 등 해석학의 핵심 정리들은 위상적 토대가 여기에 있다.
위상 공간의 정의는 거리 공간(metric space)에서 "열린 공"을 통해 정의되던 열린집합의 성질을 추상화한 것이다. 거리 함수 없이도 열린집합의 세 가지 공리만으로 수렴, 연속, 콤팩트성 등의 개념을 전개할 수 있다.
Definition 19.1 (Topological Space)
위상 공간(topological space)이란 순서쌍 \((X, \tau)\)로, 여기서 \(X\)는 집합이고 \(\tau \subseteq \mathcal{P}(X)\)는 \(X\)의 부분집합들의 모임(이를
열린집합(open set)이라 한다)으로서 다음 조건을 만족한다:
- \(\emptyset \in \tau\)이고 \(X \in \tau\)이다.
- 임의의 합집합: 모든 \(\alpha \in I\)에 대해 \(U_\alpha \in \tau\)이면, \(\bigcup_{\alpha \in I} U_\alpha \in \tau\)이다.
- 유한 교집합: \(U_1, \ldots, U_n \in \tau\)이면, \(U_1 \cap \cdots \cap U_n \in \tau\)이다.
Definition 19.2 (Closed Set)
부분집합 \(F \subseteq X\)가 닫힌집합(closed)이라 함은 그 여집합 \(X \setminus F\)가 열린집합(open set)인 것을 말한다. 동치 조건으로, \(F\)가 닫힌집합일 필요충분조건은 \(F\)가 모든 극한점을 포함하는 것이다.
Definition 19.3 (Basis for a Topology)
모임 \(\mathcal{B} \subseteq \tau\)가 위상(topology) \(\tau\)의 기저(basis)라 함은, \(\tau\)의 모든 열린집합(open set)이 \(\mathcal{B}\)의 원소들의 합집합으로 표현될 수 있는 것을 말한다. 동치 조건으로, 모든 \(U \in \tau\)와 모든 \(x \in U\)에 대해 \(x \in B \subseteq U\)인 \(B \in \mathcal{B}\)가 존재하면 \(\mathcal{B}\)는 기저이다.
Example 19.1
열린 공 \(B(x,r) = \{y \in \mathbb{R}^n : \|y - x\| < r\}\)은 \(\mathbb{R}^n\) 위의 표준(유클리드) 위상(topology)의 기저를 이룬다.
Example 19.1a (이산 위상)
집합 \(X = \{a, b, c\}\) 위의 이산 위상(discrete topology)은 \(\tau = \mathcal{P}(X)\), 즉 모든 부분집합이 열린집합인 위상이다. 이 경우 \(|\tau| = 2^3 = 8\)이며, 모든 부분집합이 동시에 열린집합이자 닫힌집합이다. 임의의 함수 \(f : (X, \tau_{\text{discrete}}) \to (Y, \tau_Y)\)는 연속이다. 그 이유는 \(Y\)의 임의의 열린집합 \(V\)에 대해 \(f^{-1}(V) \in \mathcal{P}(X) = \tau\)이기 때문이다.
Example 19.1b (잔핀 위상)
무한 집합 \(X\) 위의 잔핀 위상(cofinite topology)은 \(\tau_{\text{cof}} = \{U \subseteq X : X \setminus U \text{가 유한}\} \cup \{\emptyset\}\)으로 정의된다. 예를 들어 \(X = \mathbb{Z}\)인 경우, \(\mathbb{Z} \setminus \{0, 1, 2\}\)는 여집합이 유한이므로 열린집합이지만, 짝수 전체의 집합 \(2\mathbb{Z}\)는 여집합 \(2\mathbb{Z}+1\)이 무한이므로 열린집합이 아니다. 잔핀 위상은 \(T_1\) 분리 공리를 만족하지만 일반적으로 하우스도르프(\(T_2\))가 아니다: 공집합이 아닌 열린집합 두 개의 교집합은 항상 공집합이 아니다 (교집합의 여집합이 두 유한 집합의 합집합이므로 유한).
Example 19.1c (부분공간 위상)
\(\mathbb{R}\)에 표준 위상을 부여하고 \(A = [0, 1]\)에 부분공간 위상을 부여하자. 그러면 \([0, 1/2)\)는 \(A\)에서 열린집합이다: 실제로 \([0, 1/2) = (-1, 1/2) \cap [0, 1]\)이고 \((-1, 1/2)\)는 \(\mathbb{R}\)에서 열린집합이기 때문이다. 반면 \([0, 1/2)\)는 \(\mathbb{R}\)에서는 열린집합이 아니다. 마찬가지로 \((1/2, 1]\)도 \(A\)에서 열린집합이다. 따라서 부분공간 위상에서 \(A\)의 열린집합과 닫힌집합의 구조는 원래 공간과 다를 수 있다.
Definition 19.4 (Interior, Closure, Boundary)
\(A \subseteq X\)로 놓자.
- 내부(interior) \(\operatorname{int}(A)\)는 \(A\)에 포함되는 가장 큰 열린집합(open set)이다.
- 폐포(closure) \(\overline{A}\)는 \(A\)를 포함하는 가장 작은 닫힌집합이다.
- 경계(boundary) \(\partial A = \overline{A} \setminus \operatorname{int}(A)\).
Definition 19.5 (Continuity)
함수 \(f : (X, \tau_X) \to (Y, \tau_Y)\)가 연속(continuous)이라 함은, 모든 열린집합(open set) \(V \in \tau_Y\)에 대해 역상 \(f^{-1}(V) \in \tau_X\)인 것을 말한다.
Definition 19.6 (Homeomorphism)
전단사 함수 \(f : X \to Y\)가 위상동형사상(homeomorphism)이라 함은, \(f\)와 \(f^{-1}\)가 모두 연속인 것을 말한다. 이러한 사상이 존재하면 두 공간은 위상동형(homeomorphic)이라 하며, 위상적으로 구별할 수 없다.
Definition 19.7 (Hausdorff Space)
위상 공간(topological space) \(X\)가 하우스도르프(Hausdorff) (또는 \(T_2\))라 함은, 서로 다른 두 점 \(x \neq y\)에 대해 \(x \in U\), \(y \in V\)인 서로소인 열린집합(open set) \(U, V\)가 존재하는 것을 말한다.
콤팩트성(compactness)은 "유한한 정보로 전체를 통제할 수 있는" 성질을 포착한다. 최적화 문제에서 최솟값과 최댓값의 존재를 보장하는 조건이며, 수치 해석에서 유한 요소법(FEM)의 수렴 이론도 이 성질에 기댄다.
Definition 19.8 (Compactness)
위상 공간(topological space) \(X\)가 콤팩트(compact)라 함은, \(X\)의 모든 열린 덮개가 유한 부분 덮개를 가지는 것을 말한다. 즉, 각 \(U_\alpha\)가 열린집합(open set)이고 \(X = \bigcup_{\alpha \in I} U_\alpha\)이면, \(X = U_{\alpha_1} \cup \cdots \cup U_{\alpha_n}\)을 만족하는 \(\alpha_1, \ldots, \alpha_n \in I\)가 존재한다.
Theorem 19.1 (Heine–Borel)
\(\mathbb{R}^n\)의 부분집합이 콤팩트(compact)일 필요충분조건은 닫혀 있고 유계인 것이다.
Example 19.2 (Heine–Borel 활용)
\(A = \{1/n : n \in \mathbb{N}\} \subset \mathbb{R}\)가 콤팩트인지 판정하자. \(A\)는 유계이다 (\(A \subset [0, 2]\)). 그러나 \(A\)는 닫혀 있지 않다: 극한점 \(0 \notin A\)이므로 \(A\)는 닫힌집합이 아니다. Heine–Borel 정리에 의해, \(A\)는 콤팩트가 아니다. 실제로 열린 덮개 \(\mathcal{U} = \{(1/(n+1), 1/(n-1)) : n \geq 2\}\)를 잡으면 유한 부분 덮개가 존재하지 않음을 직접 확인할 수 있다.
반면, \(\overline{A} = A \cup \{0\} = \{0\} \cup \{1/n : n \in \mathbb{N}\}\)은 닫혀 있고 유계이므로 Heine–Borel에 의해 콤팩트이다. 따라서 \(\overline{A}\) 위의 임의의 연속 실함수는 최댓값과 최솟값을 달성한다.
Theorem 19.2 (Extreme Value Theorem)
\(f : X \to \mathbb{R}\)가 연속이고 \(X\)가 콤팩트(compact)이면, \(f\)는 최댓값과 최솟값을 달성한다.
Example 19.3 (콤팩트성의 열린 덮개 논증)
닫힌 구간 \([0,1]\)이 콤팩트임을 열린 덮개로부터 직접 보이자. \(\mathcal{U} = \{U_\alpha\}\)를 \([0,1]\)의 임의의 열린 덮개라 하고,
$$ s = \sup\{x \in [0,1] : [0, x] \text{가 } \mathcal{U}\text{의 유한 부분 덮개를 가진다}\} $$
로 놓자. \(s\)를 포함하는 \(U_{\alpha_0} \in \mathcal{U}\)가 존재한다. \(U_{\alpha_0}\)가 열린집합이므로 \((s - \varepsilon, s + \varepsilon) \subseteq U_{\alpha_0}\)인 \(\varepsilon > 0\)이 존재한다. 상한의 정의에 의해 \([0, s - \varepsilon/2]\)는 유한 부분 덮개 \(\{U_{\alpha_1}, \ldots, U_{\alpha_m}\}\)을 가진다. 따라서 \([0, \min(s + \varepsilon/2, 1)]\)은 \(\{U_{\alpha_0}, U_{\alpha_1}, \ldots, U_{\alpha_m}\}\)으로 덮인다. \(s < 1\)이면 모순이므로 \(s = 1\)이고, \([0,1]\)은 유한 부분 덮개를 가진다.
Example 19.4 (잔핀 위상에서의 콤팩트성)
무한 집합 \(X\)에 잔핀 위상을 부여하면, \(X\)는 항상 콤팩트이다. \(\{U_\alpha\}_{\alpha \in I}\)를 \(X\)의 열린 덮개라 하자. 공집합이 아닌 \(U_{\alpha_0}\)를 하나 택하면, \(X \setminus U_{\alpha_0}\)는 유한 집합 \(\{x_1, \ldots, x_m\}\)이다. 각 \(x_i\)에 대해 \(x_i \in U_{\alpha_i}\)인 \(\alpha_i\)를 택하면, \(\{U_{\alpha_0}, U_{\alpha_1}, \ldots, U_{\alpha_m}\}\)이 유한 부분 덮개이다. 그러나 이 공간은 하우스도르프가 아니므로, 콤팩트 하우스도르프 공간의 좋은 성질(예: 정규성)은 성립하지 않는다.
연결성(connectedness)은 공간이 "한 덩어리"인지를 판별하는 성질이다. 네트워크 이론에서 그래프의 연결성, 로봇 배치 공간에서 두 자세 사이에 연속 경로가 존재하는지의 문제가 모두 이 개념에 기반한다. 해석학에서 중간값 정리(intermediate value theorem)는 연결성의 귀결이다.
Definition 19.9 (Connectedness)
위상 공간(topological space) \(X\)가 연결(connected)이라 함은, \(X\)를 두 개의 공집합이 아닌 서로소인 열린집합(open set)의 합집합으로 나타낼 수 없는 것을 말한다. 동치 조건으로, \(X\)에서 열린집합이면서 동시에 닫힌집합인 부분집합은 \(\emptyset\)과 \(X\) 뿐이다.
Definition 19.10 (Path-Connectedness)
공간 \(X\)가 경로 연결(path-connected)이라 함은, 모든 \(x, y \in X\)에 대해 \(\gamma(0) = x\), \(\gamma(1) = y\)인 연속 사상 \(\gamma : [0,1] \to X\)가 존재하는 것을 말한다. 경로 연결은 연결(connected)을 함의하지만, 일반적으로 그 역은 성립하지 않는다.
Definition 19.11 (Product Topology)
공간 \((X, \tau_X)\)와 \((Y, \tau_Y)\)가 주어질 때, \(X \times Y\) 위의 곱위상(product topology)은 모임 \(\{U \times V : U \in \tau_X,\, V \in \tau_Y\}\)을 기저로 가진다.
Theorem 19.3 (Tychonoff)
콤팩트(compact) 공간들의 임의의 곱은 (곱위상(product topology)에서) 콤팩트이다.
Example 19.5 (곱위상과 콤팩트성)
\([0,1]\)은 Heine–Borel에 의해 콤팩트이다. 따라서 Tychonoff 정리에 의해 \([0,1]^n\)은 임의의 \(n\)에 대해 곱위상에서 콤팩트이다. 비가산 곱 \([0,1]^{\mathbb{R}}\) (점별 수렴 위상)도 콤팩트이다. 이로부터 Alaoglu 정리의 증명이 따라온다: 노름 공간의 쌍대 공간에서 단위 공의 약*-콤팩트성은, 적절한 곱 공간 \(\prod_{x \in B_X} [-\|x\|, \|x\|]\)의 닫힌 부분집합으로의 매장과 Tychonoff 정리를 결합하여 얻는다.
Example 19.6 (연결성 판별)
\(\mathbb{R}\)에서 유리수 집합 \(\mathbb{Q}\)에 부분공간 위상을 부여하면, \(\mathbb{Q}\)는 연결이 아니다: 임의의 무리수 \(\alpha\)에 대해 \(\mathbb{Q} = (\mathbb{Q} \cap (-\infty, \alpha)) \cup (\mathbb{Q} \cap (\alpha, \infty))\)는 공집합이 아닌 서로소인 열린집합 두 개의 합집합이다. 실제로 \(\mathbb{Q}\)는 전불연결(totally disconnected)이다: 두 개 이상의 점을 포함하는 연결 부분집합이 존재하지 않는다. 반면 \(\mathbb{R}\)은 연결이다. 완비성에서 바로 따라오며, 중간값 정리의 위상적 토대이기도 하다.
몫공간(quotient space)은 "점들을 붙이는" 연산을 정밀하게 정의하는 도구이다. 직사각형의 변을 동일시하여 토러스, 매비우스 띠, 클라인 병 등을 만드는 것이 대표적인 예이며, 대칭군에 의한 궤도 공간(orbit space)도 몫공간의 틀로 이해된다.
Definition 19.12 (Quotient Space)
\(X\)를 위상 공간(topological space)이라 하고 \(\sim\)을 \(X\) 위의 동치관계라 하자. 몫공간(quotient space) \(X/{\sim}\)은 동치류들의 집합에 몫위상을 부여한 것이다: 부분집합 \(U \subseteq X/{\sim}\)이 열린집합(open set)일 필요충분조건은 \(\pi^{-1}(U)\)가 \(X\)에서 열린집합인 것이며, 여기서 \(\pi : X \to X/{\sim}\)은 자연스러운 사영이다.
Example 19.7
토러스 \(T^2\)는 \([0,1]^2\)에서 \((x,0) \sim (x,1)\)과 \((0,y) \sim (1,y)\)를 동일시하여 얻는 몫공간(quotient space)이다. 실사영평면 \(\mathbb{R}P^2\)는 \(S^2\) 위의 대척점들을 동일시하여 얻는다.
Example 19.7a (몫공간: 매비우스 띠와 클라인 병)
\([0,1]^2\)에서 \((0, y) \sim (1, 1-y)\)만 동일시하면 매비우스 띠(Mobius strip)를 얻는다. 매비우스 띠는 비가향 곡면이며 경계 \(\partial M \cong S^1\)을 가진다. 여기에 추가로 \((x, 0) \sim (x, 1)\)도 동일시하면 클라인 병을 얻는다. 클라인 병은 \(\mathbb{R}^3\)에 자기교차 없이 매장할 수 없지만, \(\mathbb{R}^4\)에는 매장 가능하다. 이러한 차이는 가향성과 관련된 위상적 장애물이다.
Definition 19.13 (Subspace Topology)
\(A \subseteq X\)일 때, \(A\) 위의 부분공간 위상(subspace topology)은 \(X\)에서 열린집합(open set)인 \(U\)에 대해 \(U \cap A\) 꼴의 모든 집합으로 이루어진다.
Theorem 19.4 (Urysohn's Lemma)
\(X\)가 정규 공간(모든 서로소인 닫힌집합 쌍을 서로소인 열린집합(open set)으로 분리할 수 있는 공간)이고 \(A, B \subseteq X\)가 서로소인 닫힌집합이면, \(f(A) = \{0\}\)이고 \(f(B) = \{1\}\)인 연속 함수 \(f : X \to [0,1]\)가 존재한다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
20. 미분기하
미분기하학은 매끄러운 곡선과 곡면의 곡률, 측지선, 계량 등을 연구한다. 가우스-보네 정리는 곡률(국소적 성질)과 위상(대역적 성질)을 연결하며, 일반상대론과 로보틱스의 수학적 기초이다.
미분기하학(differential geometry)은 "곡면이 얼마나 휘어져 있는가"를 정량화하는 학문이다. 이 질문은 공학 여러 분야에서 직접 등장한다. GPS와 관성항법장치(INS)에서 지구 표면 위의 최단 경로를 계산하는 것은 구면 위의 측지선(geodesic) 문제이며, 로봇 팔의 운동학(kinematics)에서 관절 각도의 공간은 유클리드 공간이 아닌 매니폴드(manifold)를 이룬다. 컴퓨터 비전(computer vision)에서 3D 스캔 데이터로부터 곡면을 재구성하고 곡률을 추정하는 작업, 일반상대론(general relativity)에서 시공간(spacetime)의 기하학을 기술하는 것, 기계학습(machine learning)에서 확률 분포의 공간 위에 기하학적 구조를 부여하는 정보 기하학(information geometry) 등이 모두 미분기하학에 기반한다.
곡선의 곡률(curvature)과 비틀림(torsion)에서 출발하여, 곡면의 제1/제2 기본형식(fundamental form), 가우스 곡률(Gaussian curvature)을 거쳐, 국소적 곡률과 대역적 위상을 연결하는 가우스-보네 정리(Gauss-Bonnet theorem)까지 이어진다. 평평한 유클리드 공간의 기하학만으로는 현실 세계의 곡면과 공간을 기술할 수 없다. 핵심은 "내재적 기하학(intrinsic geometry)"이다.
곡선의 "굽은 정도"를 정량화하는 것이 미분기하학의 첫 번째 과제이다. 도로 설계에서 곡률은 차량의 안전 속도를 결정하고, CNC 가공에서 공구 경로의 곡률은 가공 정밀도와 직결된다.
Definition 20.1 (Smooth Curve)
\(\mathbb{R}^n\)에서의 매끄러운 곡선(smooth curve)이란 매끄러운 사상 \(\gamma : I \to \mathbb{R}^n\) (\(I\)는 구간)으로, 모든 \(t \in I\)에서 \(\gamma'(t) \neq 0\)인 것(정칙 곡선)을 말한다. 호의 길이(arc length)는 다음과 같다:
$$ s(t) = \int_{t_0}^{t} \|\gamma'(u)\| \, du. $$
Definition 20.2 (Curvature of a Plane Curve)
단위 속력 평면 곡선 \(\gamma(s)\)에 대해, 곡률(curvature)은 \(\kappa(s) = \|\gamma''(s)\|\)이다. \(\mathbb{R}^2\)에서 임의 속력 곡선 \(\gamma(t)\)에 대해서는 다음과 같다:
$$ \kappa = \frac{|x' y'' - y' x''|}{(x'^2 + y'^2)^{3/2}}. $$
Example 20.1a (포물선의 곡률)
포물선 \(y = x^2\)를 \(\gamma(t) = (t, t^2)\)로 매개변수화하자. 그러면 \(x' = 1\), \(y' = 2t\), \(x'' = 0\), \(y'' = 2\)이므로,
$$ \kappa(t) = \frac{|x' y'' - y' x''|}{(x'^2 + y'^2)^{3/2}} = \frac{|1 \cdot 2 - 2t \cdot 0|}{(1 + 4t^2)^{3/2}} = \frac{2}{(1 + 4t^2)^{3/2}}. $$
꼭짓점 \(t = 0\)에서 곡률이 \(\kappa(0) = 2\)로 최대이며, \(|t| \to \infty\)일 때 \(\kappa(t) \to 0\)이다. 접촉원의 반지름(곡률 반지름)은 \(R = 1/\kappa\)이므로, 꼭짓점에서 \(R = 1/2\)이다.
Example 20.1a' (타원의 곡률)
타원 \(\gamma(t) = (a\cos t,\; b\sin t)\) (\(a > b > 0\))의 곡률을 구하자.
\(x' = -a\sin t\), \(y' = b\cos t\), \(x'' = -a\cos t\), \(y'' = -b\sin t\)이므로:
$$ \kappa(t) = \frac{|(-a\sin t)(-b\sin t) - (b\cos t)(-a\cos t)|}{(a^2\sin^2 t + b^2\cos^2 t)^{3/2}} = \frac{ab}{(a^2\sin^2 t + b^2\cos^2 t)^{3/2}}. $$
장축 끝(\(t = 0, \pi\))에서 \(\kappa = ab/b^3 = a/b^2\)이고, 단축 끝(\(t = \pi/2, 3\pi/2\))에서 \(\kappa = ab/a^3 = b/a^2\)이다. \(a > b\)이므로, 곡률은 장축 끝에서 최대이고 단축 끝에서 최소이다. 원 (\(a = b = r\))인 경우 \(\kappa = 1/r\)로 일정하다.
Example 20.1b (나선의 곡률과 비틀림)
등속 나선(helix) \(\gamma(t) = (a\cos t,\; a\sin t,\; bt)\) (\(a > 0\), \(b \neq 0\))을 생각하자.
\(\gamma'(t) = (-a\sin t,\; a\cos t,\; b)\)이므로 \(\|\gamma'\| = \sqrt{a^2 + b^2}\)이다. 이 곡선은 등속이지만 단위 속력은 아니다. 일반 공식을 적용하면:
$$ \gamma''(t) = (-a\cos t,\; -a\sin t,\; 0), \quad \gamma' \times \gamma'' = (ab\sin t,\; -ab\cos t,\; a^2), $$
$$ \|\gamma' \times \gamma''\| = a\sqrt{a^2 + b^2}, \quad \kappa = \frac{a\sqrt{a^2+b^2}}{(a^2+b^2)^{3/2}} = \frac{a}{a^2 + b^2}. $$
비틀림(torsion)은 \(\tau = \frac{b}{a^2 + b^2}\)이다. 곡률과 비틀림이 모두 상수이므로, 등속 나선은 \(\mathbb{R}^3\)에서 상수 곡률과 상수 비틀림을 가지는 유일한 곡선이다 (이는 곡선의 기본 정리의 직접적인 결과이다).
Definition 20.3 (Frenet–Serret Frame)
\(\mathbb{R}^3\)에서 단위 속력 곡선 \(\gamma(s)\)에 대해, 접선 벡터(tangent) \(\mathbf{T} = \gamma'\), 법선 벡터(normal) \(\mathbf{N} = \mathbf{T}'/\|\mathbf{T}'\|\), 종법선 벡터(binormal) \(\mathbf{B} = \mathbf{T} \times \mathbf{N}\)를 정의한다. Frenet–Serret 방정식은 다음과 같다:
$$ \begin{pmatrix} \mathbf{T}' \\ \mathbf{N}' \\ \mathbf{B}' \end{pmatrix} = \begin{pmatrix} 0 & \kappa & 0 \\ -\kappa & 0 & \tau \\ 0 & -\tau & 0 \end{pmatrix} \begin{pmatrix} \mathbf{T} \\ \mathbf{N} \\ \mathbf{B} \end{pmatrix}, $$
여기서 \(\kappa\)는 곡률(curvature)이고 \(\tau\)는 비틀림(torsion)이다.
Example 20.1c (원환선의 Frenet 틀)
원 \(\gamma(t) = (R\cos t,\; R\sin t,\; 0)\)의 Frenet 틀을 구하자. \(\|\gamma'\| = R\)이므로 호의 길이 매개변수는 \(s = Rt\)이다. 단위 속력 재매개변수화 후:
$$ \mathbf{T} = (-\sin(s/R),\; \cos(s/R),\; 0), \quad \mathbf{T}' = \frac{1}{R}(-\cos(s/R),\; -\sin(s/R),\; 0). $$
따라서 \(\kappa = \|\mathbf{T}'\| = 1/R\)이고, \(\mathbf{N} = (-\cos(s/R),\; -\sin(s/R),\; 0)\) (중심을 향한다), \(\mathbf{B} = \mathbf{T} \times \mathbf{N} = (0, 0, 1)\)이다. 평면 곡선이므로 비틀림 \(\tau = 0\)이다. 이는 Frenet–Serret 방정식에서 \(\mathbf{B}' = -\tau \mathbf{N} = 0\)인 것과 일치한다.
곡선에서 곡면으로 넘어가면, "굽은 정도"는 방향에 따라 달라진다. 곡면의 기하학적 성질을 기술하기 위해 접평면 위의 내적(제1기본형식)과 법선 방향의 곡률(제2기본형식)이라는 두 가지 도구가 필요하다. 컴퓨터 그래픽스(computer graphics)에서 곡면을 렌더링하거나, CAD에서 곡면의 매끄러움을 판정하거나, 지리정보시스템(GIS)에서 지형의 경사와 곡률을 분석할 때 이 두 도구를 직접 쓴다.
Definition 20.4 (Regular Surface)
부분집합 \(S \subseteq \mathbb{R}^3\)이 정칙 곡면(regular surface)이라 함은, 각 \(p \in S\)에 대해 \(\mathbb{R}^3\)에서 \(p\)의 근방 \(V\)와 매끄러운 사상 \(\mathbf{r} : U \to V \cap S\) (\(U \subseteq \mathbb{R}^2\)는 열린집합(open set))이 존재하여, \(\mathbf{r}\)이 위상동형사상(homeomorphism)이고 \(U\)의 모든 점에서 \(\mathbf{r}_u \times \mathbf{r}_v \neq 0\)인 것을 말한다.
Definition 20.5 (First Fundamental Form)
곡면 조각 \(\mathbf{r}(u,v)\)의 제1기본형식(first fundamental form)은 접평면 위의 내적이다:
$$ I = E\, du^2 + 2F\, du\, dv + G\, dv^2, $$
여기서 \(E = \mathbf{r}_u \cdot \mathbf{r}_u\), \(F = \mathbf{r}_u \cdot \mathbf{r}_v\), \(G = \mathbf{r}_v \cdot \mathbf{r}_v\)이다. 이것은 내재적 기하를 부호화한다: 곡면 위의 호의 길이, 각도, 넓이 등을 나타낸다.
Definition 20.6 (Second Fundamental Form)
제2기본형식(second fundamental form)은 곡면의 외재적 곡률(curvature)을 측정한다:
$$ II = L\, du^2 + 2M\, du\, dv + N\, dv^2, $$
여기서 \(L = \mathbf{r}_{uu} \cdot \hat{\mathbf{n}}\), \(M = \mathbf{r}_{uv} \cdot \hat{\mathbf{n}}\), \(N = \mathbf{r}_{vv} \cdot \hat{\mathbf{n}}\)이고, \(\hat{\mathbf{n}} = \frac{\mathbf{r}_u \times \mathbf{r}_v}{\|\mathbf{r}_u \times \mathbf{r}_v\|}\)는 단위 법선 벡터이다.
Definition 20.7 (Principal, Gaussian, and Mean Curvature)
주곡률(principal curvature) \(\kappa_1, \kappa_2\)는 형상 연산자의 고유값이다 (동치 조건으로, 행렬 형태에서 \(\det(II - \kappa\, I) = 0\)의 근이다). 그러면:
- 가우스 곡률(Gaussian curvature): \(K = \kappa_1 \kappa_2 = \frac{LN - M^2}{EG - F^2}\).
- 평균 곡률(mean curvature): \(H = \frac{1}{2}(\kappa_1 + \kappa_2) = \frac{EN - 2FM + GL}{2(EG - F^2)}\).
Theorem 20.1 (Theorema Egregium, Gauss)
가우스 곡률(Gaussian curvature) \(K\)는 곡면의 내재적 불변량이다: 이는 제1기본형식(first fundamental form)과 그 도함수에만 의존하며, 곡면이 \(\mathbb{R}^3\)에 어떻게 매장되어 있는지에는 의존하지 않는다.
직관적으로, 곡면 위에 사는 2차원 생물이 자신의 세계 안에서의 측정만으로 가우스 곡률을 알 수 있다는 뜻이다. 이것이 지도 제작에서 평면 지도가 구면을 왜곡 없이 표현할 수 없는 이유이며, 일반상대론에서 시공간의 곡률을 내부 관측만으로 측정할 수 있는 이론적 근거이다.
Example 20.1d (구면의 제1, 제2 기본형식)
반지름 \(R\)인 구면을 \(\mathbf{r}(\theta, \phi) = (R\sin\theta\cos\phi,\; R\sin\theta\sin\phi,\; R\cos\theta)\)로 매개변수화하자.
$$ \mathbf{r}_\theta = (R\cos\theta\cos\phi,\; R\cos\theta\sin\phi,\; -R\sin\theta), \quad \mathbf{r}_\phi = (-R\sin\theta\sin\phi,\; R\sin\theta\cos\phi,\; 0). $$
제1기본형식: \(E = R^2\), \(F = 0\), \(G = R^2\sin^2\theta\). 따라서 \(ds^2 = R^2(d\theta^2 + \sin^2\theta\, d\phi^2)\)이다.
단위 법선 \(\hat{\mathbf{n}} = (\sin\theta\cos\phi,\; \sin\theta\sin\phi,\; \cos\theta)\) (바깥쪽)이고, 제2기본형식: \(L = -R\), \(M = 0\), \(N = -R\sin^2\theta\). 형상 연산자(shape operator) \(S = -d\hat{\mathbf{n}}\)의 고유값으로 주곡률을 구하면 \(\kappa_1 = \kappa_2 = -L/E = -(-R)/R^2 = 1/R\)이므로, \(K = 1/R^2\), \(H = 1/R\)이다. (부호 관례: 형상 연산자는 \(S = -d\hat{\mathbf{n}}\)이므로, 바깥쪽 법선에 대해 볼록한 곡면의 주곡률이 양수가 된다.) 모든 방향에서 곡률이 같으므로 구면은 엄빌릭(umbilic) 곡면이다.
Example 20.1d' (안장 곡면의 가우스 곡률)
쌍곡 포물면(안장 곡면) \(z = xy\)를 \(\mathbf{r}(u,v) = (u, v, uv)\)로 매개변수화하자.
$$ \mathbf{r}_u = (1, 0, v), \quad \mathbf{r}_v = (0, 1, u), \quad \hat{\mathbf{n}} = \frac{(-v, -u, 1)}{\sqrt{1 + u^2 + v^2}}. $$
제1기본형식의 계수: \(E = 1 + v^2\), \(F = uv\), \(G = 1 + u^2\).
$$ \mathbf{r}_{uu} = (0,0,0), \quad \mathbf{r}_{uv} = (0,0,1), \quad \mathbf{r}_{vv} = (0,0,0). $$
제2기본형식의 계수: \(L = 0\), \(M = \frac{1}{\sqrt{1+u^2+v^2}}\), \(N = 0\). 따라서:
$$ K = \frac{LN - M^2}{EG - F^2} = \frac{-1/(1+u^2+v^2)}{(1+v^2)(1+u^2) - u^2v^2} = \frac{-1}{(1+u^2+v^2)^2}. $$
가우스 곡률이 모든 곳에서 음이므로, 안장 곡면의 각 점은 쌍곡점이다. 원점에서 \(K(0,0) = -1\)이다.
측지선(geodesic)은 곡면 위에서 "가장 곧은 경로"이자 "최단 경로"의 후보이다. GPS 항법에서 두 지점 사이의 최단 거리는 지구를 구(sphere)로 근사할 때 대원(great circle)의 호, 즉 구면 위의 측지선이다. 매니폴드 위의 경로 계획(path planning)에서도 측지선 방정식을 쓴다.
Definition 20.8 (Geodesic)
곡면 \(S\) 위의 곡선 \(\gamma\)가 측지선(geodesic)이라 함은, 측지 곡률이 항등적으로 소멸하는 것, 즉 가속도 \(\gamma''\)가 항상 곡면에 수직인 것을 말한다. 좌표로 표현하면, 측지선(geodesic)은 다음을 만족한다:
$$ \ddot{u}^k + \sum_{i,j} \Gamma^k_{ij}\, \dot{u}^i \dot{u}^j = 0, $$
여기서 \(\Gamma^k_{ij}\)는 제1기본형식(first fundamental form)의 크리스토펠 기호이다.
Theorem 20.2 (Gauss–Bonnet)
\(S\)를 경계가 없는 콤팩트(compact) 유향 곡면이라 하자. 그러면
$$ \int_S K \, dA = 2\pi \chi(S), $$
여기서 \(\chi(S)\)는 오일러 지표이다. 종수(genus) \(g\)인 곡면에 대해 \(\chi = 2 - 2g\)이다.
이 정리는 곡률이라는 국소적(local) 미분기하학적 양과 오일러 지표라는 대역적(global) 위상 불변량을 등호로 연결한다. 곡면의 형상을 아무리 변형하더라도 위상적 유형이 총 곡률의 적분을 고정한다.
Example 20.1
반지름 \(R\)인 구면 \(S^2\)는 모든 곳에서 \(K = 1/R^2\)이다. Gauss–Bonnet 정리에 의해, \(\int_{S^2} K\, dA = (1/R^2)(4\pi R^2) = 4\pi = 2\pi \cdot 2 = 2\pi\chi(S^2)\)이다. 토러스는 \(\chi = 0\)이므로 전체 곡률(curvature)의 적분은 0이다 (양의 곡률 영역과 음의 곡률 영역이 상쇄된다).
Example 20.2 (Gauss–Bonnet: 구)
반지름 \(R\)인 구 \(S^2\)는 종수 \(g = 0\)이므로 \(\chi(S^2) = 2\)이다. 구면 위의 가우스 곡률은 상수 \(K = 1/R^2\)이고, 넓이는 \(4\pi R^2\)이다. Gauss–Bonnet 정리를 직접 확인하면:
$$ \int_{S^2} K\, dA = \frac{1}{R^2} \cdot 4\pi R^2 = 4\pi = 2\pi \cdot 2 = 2\pi\chi(S^2). $$
경계를 가진 경우도 적용할 수 있다. 구면 위의 측지 삼각형(세 변이 대원의 호)의 내각의 합이 \(\pi + A/R^2\) (\(A\)는 삼각형의 넓이)임을 Gauss–Bonnet으로부터 유도할 수 있다.
Example 20.3 (Gauss–Bonnet: 토러스)
토러스 \(T^2\)는 종수 \(g = 1\)이므로 \(\chi(T^2) = 2 - 2 \cdot 1 = 0\)이다. Gauss–Bonnet 정리에 의해:
$$ \int_{T^2} K\, dA = 2\pi \cdot 0 = 0. $$
토러스 위의 가우스 곡률은 양인 영역과 음인 영역이 정확히 상쇄된다. 구체적으로, 표준 매개변수화 \(\mathbf{r}(u,v) = ((R + r\cos v)\cos u,\; (R + r\cos v)\sin u,\; r\sin v)\)에서 가우스 곡률은 \(K = \frac{\cos v}{r(R + r\cos v)}\)이다. 바깥쪽(\(\cos v > 0\))에서 \(K > 0\)이고, 안쪽(\(\cos v < 0\))에서 \(K < 0\)이며, 적분하면 정확히 0이 된다.
Example 20.4 (Gauss–Bonnet: 종수 2 곡면)
종수 \(g = 2\)인 닫힌 유향 곡면(이중 토러스)의 오일러 지표는 \(\chi = 2 - 2 \cdot 2 = -2\)이다. 이 곡면에 어떤 리만 계량을 부여하더라도 Gauss–Bonnet에 의해:
$$ \int_S K\, dA = 2\pi(-2) = -4\pi. $$
따라서 총 가우스 곡률은 항상 음이다. 이 곡면 위에 모든 곳에서 \(K \geq 0\)인 리만 계량은 존재하지 않는다. 종수 \(g \geq 2\)인 곡면에 쌍곡 기하(상수 \(K = -1\))가 나타나는 이유는 균일화 정리(uniformization theorem)가 말해 준다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
21. 대수기하
대수기하학은 다항 방정식의 해집합(다양체)을 기하학적 대상으로 연구한다. 대수와 기하의 사전(힐베르트 영점정리)을 통해, 아이디얼의 대수적 성질이 다양체의 기하학적 성질에 대응한다.
공학에서 다항식 연립방정식의 해집합은 예상보다 자주 등장한다. 로봇 운동학(robot kinematics)에서 관절 각도 조건은 다항식 제약(polynomial constraint)으로 표현되며, 로봇 팔의 역기구학(inverse kinematics) 문제는 결국 다항식 연립방정식의 해집합, 즉 아핀 다양체(affine variety)를 구하는 문제이다. 컴퓨터 비전(computer vision)에서 다시점 기하학(multi-view geometry)의 에피폴라 제약(epipolar constraint)은 기본 행렬(fundamental matrix)에 대한 다항식 조건으로 기술되며, 사영 다양체(projective variety)의 언어가 자연스럽게 적용된다.
코딩 이론(coding theory)에서는 대수기하 부호(algebraic geometry code, Goppa code)가 유한체 위의 대수 곡선의 유리점(rational point)을 이용하여 오류 정정 능력이 뛰어난 부호를 설계한다. 현대 암호학(cryptography)의 핵심인 타원곡선 암호(ECC)는 타원곡선 위의 이산 로그 문제(discrete logarithm problem)에 의존하며, 이 장의 종수(genus) 1 곡선이 가진 군 구조(group law)가 그 수학적 토대이다. 대수기하학은 다항식 방정식의 해집합을 곡선, 곡면, 그리고 그 위의 대수적 구조로 다루는 언어다.
대수기하학의 출발점은 다항식의 해집합을 기하학적 대상으로 보는 관점이다. 하나의 다항식 \(f(x, y) = 0\)의 해집합은 평면 위의 곡선이고, 여러 다항식의 공통 영점 집합은 더 복잡한 기하학적 형태를 가진다. 이 해집합을 체계적으로 연구하기 위해 아핀 다양체(affine variety)라는 개념을 도입한다.
Definition 21.1 (Affine Variety)
\(k\)를 대수적으로 닫힌 체라 하고 \(S \subseteq k[x_1, \ldots, x_n]\)을 다항식들의 집합이라 하자. \(S\)에 의해 정의되는 아핀 다양체(affine variety)는 다음과 같다:
$$ V(S) = \{ (a_1, \ldots, a_n) \in k^n : f(a_1, \ldots, a_n) = 0 \text{ for all } f \in S \}. $$
다양체에서 아이디얼로의 역방향 대응도 중요하다. 기하학적 대상(점들의 집합)이 주어졌을 때, 그 위에서 소멸하는 모든 다항식을 모으면 하나의 아이디얼을 얻는다.
Definition 21.2 (Ideal of a Variety)
부분집합 \(X \subseteq k^n\)이 주어질 때, \(X\)의 아이디얼(ideal)은 다음과 같다:
$$ I(X) = \{ f \in k[x_1, \ldots, x_n] : f(a) = 0 \text{ for all } a \in X \}. $$
이것은 항상 근기 아이디얼(radical ideal)이다: \(I(X) = \sqrt{I(X)}\). 즉, 다양체 위에서 어떤 거듭제곱이 소멸하는 다항식은 자기 자신도 소멸한다.
다양체를 기하학적으로 다루려면 위상(topology)이 필요하다. 대수기하학에서는 통상적인 유클리드 위상 대신, 다항식 방정식의 해집합을 닫힌집합으로 선언하는 자리스키 위상(Zariski topology)을 사용한다.
Definition 21.3 (Zariski Topology)
\(k^n\) (또는 아핀 다양체(affine variety) \(V\)) 위의 자리스키 위상(Zariski topology)은 닫힌집합을 아핀 다양체(affine variety)로 선언하여 정의한다. 열린집합(open set)은 다양체(variety)의 여집합이며, 이 위상(topology)은 일반적으로 하우스도르프(Hausdorff)가 아니다.
Theorem 21.1 (Hilbert's Basis Theorem)
다항식 환 \(k[x_1, \ldots, x_n]\)은 뇌터 환(Noetherian)이다: 모든 아이디얼(ideal)은 유한 생성이다. 따라서 모든 아핀 다양체(affine variety)는 유한 개의 다항식의 영점 집합이다.
힐베르트 기저 정리는 다양체를 정의하는 데 무한 개의 다항식이 필요하지 않음을 보장한다. 로봇 운동학에서 무한히 많은 제약 조건처럼 보이는 상황도 유한 개의 다항식으로 기술된다.
Theorem 21.2 (Hilbert's Nullstellensatz)
\(k\)를 대수적으로 닫힌 체라 하고 \(J \subseteq k[x_1, \ldots, x_n]\)을 아이디얼(ideal)이라 하자. 그러면
$$ I(V(J)) = \sqrt{J}, $$
여기서 \(\sqrt{J} = \{f : f^r \in J \text{ for some } r \geq 1\}\)는 \(J\)의 근기(radical)이다. 특히, \(V(J) = \emptyset\)일 필요충분조건은 \(J = k[x_1, \ldots, x_n]\) (즉, \(1 \in J\))인 것이다.
영점정리는 대수(아이디얼)와 기하(다양체) 사이의 사전(dictionary)을 세운다. 아이디얼에 대한 대수적 조작이 다양체의 기하학적 성질로 옮겨지므로, 연립방정식의 해집합 구조를 환론(ring theory)으로 분석한다.
Definition 21.4 (Coordinate Ring)
아핀 다양체(affine variety) \(V = V(J)\)의 좌표환(coordinate ring)은 다음과 같은 몫환이다:
$$ k[V] = k[x_1, \ldots, x_n] / I(V). $$
이 환은 \(V\) 위의 모든 다항식 함수를 부호화한다.
아핀 공간에서는 평행한 두 직선이 만나지 않는 등, 교점 이론이 예외적인 경우로 복잡해진다. 사영 공간(projective space)은 "무한원점(point at infinity)"을 추가하여 이러한 예외를 제거하고, 베주 정리(Bézout's theorem)처럼 깔끔한 교점 공식을 가능하게 한다. 컴퓨터 비전에서 동차 좌표(homogeneous coordinates)를 사용하는 것도 바로 이 사영 기하학의 언어이다.
Definition 21.5 (Projective Space and Projective Variety)
사영 \(n\)-공간(projective \(n\)-space) \(\mathbb{P}^n(k)\)은 \(k^{n+1} \setminus \{0\}\)에서 관계 \((x_0, \ldots, x_n) \sim (\lambda x_0, \ldots, \lambda x_n)\) (\(\lambda \neq 0\))에 의한 동치류들의 집합이다. 사영 다양체(projective variety)는 동차 다항식들의 모임의 \(\mathbb{P}^n\)에서의 영점 궤적이다.
다양체 사이의 사상을 정의하려면 구조를 보존해야 한다. 좌표 함수가 다항식인 사상이 자연스러운 선택이다.
Definition 21.6 (Morphism of Varieties)
아핀 다양체(affine variety) 사이의 사상(morphism) (또는 정칙 사상) \(\phi : V \to W\)은 좌표 함수가 다항식인 사상이다. 다항식 역사상을 가지면 동형사상(isomorphism)이라 한다. 유리 사상(rational map)은 유리 함수로 정의되며, 적절한 닫힌 부분집합 위에서는 정의되지 않을 수 있다.
Example 21.1
곡선 \(V(y^2 - x^3) \subset \mathbb{R}^2\)는 뾰족점을 가진 3차 곡선(cuspidal cubic)이다. 그 좌표환(coordinate ring)은 \(k[x,y]/(y^2 - x^3)\)이며, 이는 정수적으로 닫혀 있지 않다 (분수체에서 원 다항식 관계를 만족하는 원소 \(y/x\)를 가진다). 매끄러운 곡선 \(V(y^2 - x^3 - x)\)는 타원 곡선(elliptic curve)이다 (\(\mathbb{C}\) 위에서 종수(genus) 1).
Theorem 21.3 (Affine–Projective Dictionary)
\(k[x_0, \ldots, x_n]\)의 근기 동차 아이디얼(비관련 아이디얼 \((x_0, \ldots, x_n)\)을 제외)과 \(\mathbb{P}^n\)의 사영 다양체(projective variety) 사이에 전단사 대응이 존재한다. 아핀 다양체(affine variety)는 사상 \((a_1, \ldots, a_n) \mapsto [1 : a_1 : \cdots : a_n]\)을 통해 사영 공간에 매장된다.
다양체의 "크기"를 재는 가장 기본적인 불변량은 차원(dimension)이다. 직관적으로 곡선은 1차원, 곡면은 2차원이지만, 대수기하학에서는 기약 닫힌 부분다양체의 사슬 길이로 차원을 엄밀하게 정의한다.
Definition 21.7 (Dimension / Krull Dimension)
다양체 \(V\)의 크룰 차원(Krull dimension)은 기약 닫힌 부분다양체(irreducible closed subvariety)의 사슬
$$ V_0 \subsetneq V_1 \subsetneq \cdots \subsetneq V_d \subseteq V $$
의 길이 \(d\)의 상한(supremum)이다. 동치적으로, \(\dim V = \operatorname{Krull\,dim} k[V]\)이다. 아핀 공간의 경우 \(\dim k^n = n\)이다. 곡선(curve)의 차원은 1이고, 곡면(surface)의 차원은 2이다.
미분기하학에서처럼, 다양체의 각 점에서 접선 공간(tangent space)을 정의할 수 있다. 접선 공간의 차원이 다양체의 차원보다 클 때 그 점은 특이점(singular point)이 되며, 이는 공학적으로 메커니즘의 고정점(singularity)이나 로봇 팔의 특이 자세(singular configuration)와 직접적으로 대응된다.
Definition 21.8 (Zariski Tangent Space)
점 \(p \in V\)에서의 자리스키 접선 공간(Zariski tangent space)은 다음과 같이 정의된다:
$$ T_p V = (\mathfrak{m}_p / \mathfrak{m}_p^2)^*, $$
여기서 \(\mathfrak{m}_p\)는 점 \(p\)에서의 국소환(local ring)의 극대 아이디얼(maximal ideal)이다. 항상 \(\dim T_p V \geq \dim V\)가 성립한다.
Definition 21.9 (Smooth and Singular Points)
점 \(p \in V\)가 \(\dim T_p V = \dim V\)를 만족하면 매끄러운 점(smooth point, non-singular point)이라 하고, 그렇지 않으면 특이점(singular point)이라 한다. 모든 점이 매끄러우면 \(V\)를 매끄러운 다양체(smooth variety)라 한다. 특이 궤적(singular locus) \(\operatorname{Sing}(V)\)는 항상 진부분 닫힌 부분다양체(proper closed subvariety)이다.
Example 21.2 (Singularity Detection)
뾰족 3차 곡선(cuspidal cubic) \(V(y^2 - x^3)\): 원점에서 \(\mathfrak{m} = (x, y)\)이고 \(\mathfrak{m}/\mathfrak{m}^2\)의 기저는 \(\{\bar{x}, \bar{y}\}\)이므로 \(\dim T_0 V = 2 > 1 = \dim V\)이다. 따라서 원점은 특이점(singular point)이다.
마디 3차 곡선(nodal cubic) \(V(y^2 - x^2(x+1))\): 원점에서 마찬가지로 \(\dim T_0 V = 2 > 1\)이므로 특이점이다 (두 접선 방향이 존재한다).
두 곡선 모두 원점을 제외하면 매끄럽다(smooth).
Theorem 21.4 (Bézout's Theorem)
\(\mathbb{P}^2(k)\)에서 차수 \(d\)와 \(e\)의 사영 곡선(projective curve) \(C\)와 \(D\)가 공통 성분(common component)을 갖지 않으면, 교점 중복도(intersection multiplicity)를 세어
$$ \sum_{p} I_p(C, D) = de $$
이 성립한다. 즉, 두 곡선의 교점 수(중복도 포함)는 차수의 곱으로 정확히 결정된다.
Example 21.3 (Bézout Applications)
직선(\(d=1\))과 이차 곡선(conic, \(e=2\))은 최대 2개의 점에서 만난다. 두 이차 곡선은 최대 4개의 점에서 만난다. 두 3차 곡선(cubic)은 최대 9개의 점에서 만난다.
사영 공간(projective space)의 필요성: 아핀 평면에서 평행한 두 직선은 만나지 않지만, \(\mathbb{P}^2\)에서는 "무한원점(point at infinity)"에서 만나므로 베주 정리가 정확히 성립한다.
대수 곡선의 분류에서 가장 중요한 불변량은 종수(genus)이다. 종수는 직관적으로 곡선에 뚫린 "구멍의 수"이다. ECC에서 쓰는 종수 1 곡선은 군 구조를 가지며, 암호학적 안전성은 이 군 위의 이산 로그 문제에 기댄다.
Definition 21.10 (Genus)
\(\mathbb{P}^2\) 안의 차수 \(d\)인 매끄러운 사영 곡선(smooth projective curve) \(C\)의 (산술적) 종수(arithmetic genus)는 다음과 같다:
$$ g = \frac{(d-1)(d-2)}{2}. $$
\(k = \mathbb{C}\)일 때 이는 위상적 종수(topological genus)와 일치한다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Introduction to Schemes (Debarre, ENS) — 스킴 입문 무료 강의노트
- The Rising Sea: Foundations of Algebraic Geometry (Vakil, Stanford) — 무료 교재
- Hartshorne, Algebraic Geometry — GTM 52, 대수기하의 바이블
- Shafarevich, Basic Algebraic Geometry 1 & 2 — 다양체에서 스킴까지
- Reid, Undergraduate Algebraic Geometry — LMS Student Texts, 학부 수준 입문
- Eisenbud & Harris, The Geometry of Schemes — GTM 197, 스킴의 기하학적 직관
- Gathmann, Algebraic Geometry (강의노트)
22. 대수적 위상수학
대수적 위상수학은 위상 공간에 군, 환 등의 대수적 불변량을 대응시켜 공간을 분류한다. 기본군, 호몰로지, 코호몰로지가 주요 도구이며, 이들로 '구멍의 개수' 같은 직관을 엄밀하게 정량화한다.
위상적 성질을 대수적 불변량(숫자, 군, 환)으로 변환하면 계산할 수 있다. "이 공간에 구멍이 있는가?"라는 기하학적 질문을 "이 군이 자명한가?"라는 대수적 질문으로 바꾸면, 컴퓨터로 답을 구할 수 있다.
센서 네트워크(sensor network)에서 커버리지 구멍(coverage hole)을 탐지하는 문제는 호몰로지(homology)로 정식화된다. 각 센서의 감지 범위가 중첩되어 만드는 공간의 호몰로지군을 계산하면, 좌표 정보 없이도 커버리지에 빈틈이 있는지 알 수 있다. 위상적 데이터 분석(Topological Data Analysis, TDA)의 persistent homology는 재료과학에서 미세구조(microstructure)의 기공(pore) 분포를 분석하거나, 단백질 구조의 형태학적 특징을 추출하는 데 사용된다. 로봇 모션 플래닝(robot motion planning)에서는 configuration space의 기본군이 로봇이 장애물을 피해 갈 수 있는 경로의 위상적 분류를 결정하며, 전산유체역학(CFD)에서 메쉬(mesh)의 위상적 일관성은 오일러 지표(Euler characteristic)로 검증된다.
대수적 위상수학의 첫 번째 도구는 호모토피(homotopy)이다. 두 연속 사상이 연속적으로 변형되어 서로 일치할 수 있는지를 판별한다.
Definition 22.1 (Homotopy)
두 연속 사상 \(f, g : X \to Y\)가 호모토피(homotopic)라 함은 (\(f \simeq g\)로 쓴다), \(H(x,0) = f(x)\)이고 \(H(x,1) = g(x)\)인 연속 사상 \(H : X \times [0,1] \to Y\)가 존재하는 것을 말한다. \(A \subseteq X\)이고 \(H\)가 \(A\) 위에서 상수이면, 이를 \(A\)에 대한 상대적 호모토피라 한다.
기본군(fundamental group)은 공간에 뚫린 구멍을 "고리를 감아서" 탐지하는 불변량이다. 로봇 모션 플래닝에서 configuration space의 기본군은 장애물을 감싸는 경로들을 위상적으로 분류한다.
Definition 22.2 (Fundamental Group)
\(x_0 \in X\)로 놓자. \(x_0\)을 기점으로 하는 고리(loop)란 \(\gamma(0) = \gamma(1) = x_0\)인 연속 사상 \(\gamma : [0,1] \to X\)이다. 기본군(fundamental group) \(\pi_1(X, x_0)\)은 \(x_0\)을 기점으로 하는 고리들의 호모토피류의 집합으로, 군 연산은 이어붙이기(concatenation)로 주어진다:
$$ [\gamma] \cdot [\delta] = [\gamma * \delta], \quad (\gamma * \delta)(t) = \begin{cases} \gamma(2t) & 0 \leq t \leq 1/2, \\ \delta(2t-1) & 1/2 \leq t \leq 1. \end{cases} $$
Example 22.1
- \(\pi_1(\mathbb{R}^n, x_0) = 0\) (자명) — \(\mathbb{R}^n\)은 단순 연결(simply connected)이다.
- \(\pi_1(S^1, x_0) \cong \mathbb{Z}\) — 고리는 감김수(winding number)로 분류된다.
- \(\pi_1(T^2, x_0) \cong \mathbb{Z} \times \mathbb{Z}\).
- \(n \geq 2\)일 때 \(\pi_1(S^n, x_0) = 0\).
Example 22.1a (기본군 계산: 원)
\(\pi_1(S^1) \cong \mathbb{Z}\)의 직관적 이해: 보편 피복 공간 \(p : \mathbb{R} \to S^1\), \(p(t) = e^{2\pi i t}\)를 생각하자. \(\mathbb{R}\)은 단순 연결이므로, 올림 대응에 의해 \(\pi_1(S^1, 1)\)은 올 \(p^{-1}(1) = \mathbb{Z}\)와 일대일 대응한다. 생성원 \([\gamma]\)는 \(\gamma(t) = e^{2\pi i t}\) (\(0 \leq t \leq 1\))로 대표되며, \([\gamma]^n\)은 원을 \(n\)번 감는 고리에 대응한다.
Example 22.1b (기본군 계산: 토러스)
토러스 \(T^2 = S^1 \times S^1\)이므로, 기본군의 곱 성질에 의해:
$$ \pi_1(T^2) \cong \pi_1(S^1) \times \pi_1(S^1) \cong \mathbb{Z} \times \mathbb{Z}. $$
두 생성원은 경도(longitude)와 위도(meridian) 방향의 고리에 대응한다. 이 군은 아벨군이므로, 두 고리를 어떤 순서로 이어붙여도 호모토피 동치이다. 이는 \([0,1]^2\)의 몫공간 구성에서도 확인된다: 두 방향의 가장자리 동일시가 독립적으로 이루어지기 때문이다.
Example 22.1c (기본군 계산: Klein bottle)
클라인 병(Klein bottle) \(K\)는 \([0,1]^2\)에서 \((x,0) \sim (x,1)\)과 \((0,y) \sim (1, 1-y)\)를 동일시하여 얻는다. 기본군은 다음 표시(presentation)를 가진다:
$$ \pi_1(K) \cong \langle a, b \mid abab^{-1} = 1 \rangle. $$
여기서 \(a\)는 수평 방향의 고리, \(b\)는 수직 방향의 고리이다. 관계식 \(abab^{-1} = 1\), 즉 \(aba = b\)로부터, 이 군은 비아벨군임을 알 수 있다. 아벨화하면 \(\pi_1(K)^{\text{ab}} \cong \mathbb{Z} \times \mathbb{Z}/2\mathbb{Z}\)이다.
피복 공간(covering space)은 공간을 "풀어 헤치는" 구성이다. 보편 피복(universal cover)은 모든 고리를 풀어버린 가장 단순한 형태이며, 기본군의 부분군과 피복 공간이 일대일 대응한다.
Definition 22.3 (Covering Space)
\(X\)의 피복 공간(covering space)이란, 공간 \(\tilde{X}\)와 연속 전사 \(p : \tilde{X} \to X\)의 쌍으로, \(X\)의 모든 점이 열린 근방 \(U\)를 가지되 그 역상 \(p^{-1}(U)\)가 \(\tilde{X}\)의 열린집합(open set)들의 서로소인 합집합이고, 각각이 \(p\)에 의해 \(U\) 위로 위상동형(homeomorphic)으로 사상되는 것을 말한다.
Theorem 22.1 (Lifting Criterion)
\(p : \tilde{X} \to X\)를 피복(covering), \(\tilde{x}_0 \in p^{-1}(x_0)\)으로 놓고, \(f : (Y, y_0) \to (X, x_0)\)를 연속 사상이라 하자. 여기서 \(Y\)는 연결(connected)이고 국소 경로 연결(locally path-connected)이다. 그러면 \(f\)가 \(\tilde{f} : (Y, y_0) \to (\tilde{X}, \tilde{x}_0)\)로 올려질(lift) 필요충분조건은 \(f_*(\pi_1(Y, y_0)) \subseteq p_*(\pi_1(\tilde{X}, \tilde{x}_0))\)인 것이다.
Theorem 22.2 (Galois Correspondence for Coverings)
연결(connected)이고, 국소 경로 연결이며, 반국소 단순 연결인 공간 \(X\)에 대해, \(\pi_1(X, x_0)\)의 부분군의 켤레류와 \(X\)의 연결(connected) 피복 공간(covering space)의 동형류 사이에 전단사 대응이 존재한다. 보편 피복(universal cover)은 자명 부분군에 대응한다.
호몰로지(homology)는 기본군보다 계산하기 쉬운 불변량으로, 공간의 각 차원에서 "구멍"을 세는 도구이다. 0차 호몰로지는 연결 성분의 수, 1차 호몰로지는 고리 형태의 구멍, 2차 호몰로지는 빈 공동(cavity)을 포착한다. 센서 네트워크의 커버리지 분석에서 1차 호몰로지가 0이 아니면 커버리지 구멍이 존재한다는 의미이며, TDA에서 persistent homology는 데이터의 스케일에 걸쳐 이러한 구멍의 지속성(persistence)을 추적한다.
Definition 22.4 (Simplicial Homology)
\(k\)-단체(\(k\)-simplex)란 아핀 독립인 \(k+1\)개 점의 볼록 껍질이다. 단체 복합체 \(K\)가 주어질 때, \(k\)-번째 사슬군 \(C_k(K)\)는 \(k\)-단체들 위의 자유 아벨군이다. 경계 연산자(boundary operator) \(\partial_k : C_k \to C_{k-1}\)는 다음과 같이 정의된다:
$$ \partial_k [v_0, \ldots, v_k] = \sum_{i=0}^{k} (-1)^i [v_0, \ldots, \hat{v}_i, \ldots, v_k], $$
여기서 \(\hat{v}_i\)는 생략을 나타낸다. \(\partial_{k-1} \circ \partial_k = 0\)임을 확인할 수 있다. \(k\)-번째 호몰로지(homology)군은 다음과 같다:
$$ H_k(K) = \ker \partial_k \,/\, \operatorname{im} \partial_{k+1}. $$
오일러 지표(Euler characteristic)는 가장 오래되고 계산하기 쉬운 위상적 불변량이다. 전산유체역학에서 메쉬를 생성한 뒤 \(\chi = V - E + F\)를 검증하면, 메쉬에 위상적 결함(잘못된 연결, 빠진 면 등)이 있는지 즉시 확인할 수 있다.
Definition 22.5 (Euler Characteristic)
유한 단체 복합체 \(K\) (보다 일반적으로 유한 CW-복합체)에 대해, 오일러 지표(Euler characteristic)는 다음과 같다:
$$ \chi(K) = \sum_{k=0}^{n} (-1)^k \, c_k = \sum_{k=0}^{n} (-1)^k \, \operatorname{rank} H_k(K), $$
여기서 \(c_k\)는 \(k\)-단체(또는 \(k\)-셀)의 개수이다.
Example 22.2
꼭짓점 \(V\)개, 모서리 \(E\)개, 면 \(F\)개를 가진 볼록 다면체에 대해: \(\chi = V - E + F = 2\)이다. 토러스(종수(genus) 1)에 대해: \(\chi = 0\)이다. 종수(genus) \(g\)인 닫힌 유향 곡면에 대해: \(\chi = 2 - 2g\)이다.
Example 22.2a (호몰로지: 구 \(S^n\))
\(n\)-구 \(S^n\) (\(n \geq 1\))의 호몰로지를 Mayer–Vietoris 열로 계산하자. \(S^n = A \cup B\)로 분해한다. 여기서 \(A\)는 남극을 제외한 부분, \(B\)는 북극을 제외한 부분이다. \(A \simeq B \simeq \mathbb{R}^n\) (각각 축약 가능)이고, \(A \cap B \simeq S^{n-1}\)이다. Mayer–Vietoris 열에서 귀납적으로:
$$ H_k(S^n) \cong \begin{cases} \mathbb{Z} & k = 0 \text{ 또는 } k = n, \\ 0 & \text{그 외.} \end{cases} $$
오일러 지표는 \(\chi(S^n) = 1 + (-1)^n\)이다. 따라서 \(\chi(S^2) = 2\), \(\chi(S^3) = 0\) 등이 된다.
Example 22.2b (호몰로지: 실사영평면 \(\mathbb{R}P^2\))
실사영평면 \(\mathbb{R}P^2\)는 \(S^2\)에서 대척점을 동일시하여 얻는다. CW-복합체 구조로 0-셀 1개, 1-셀 1개, 2-셀 1개를 가지며, 2-셀의 부착 사상은 1-셀을 두 번 감는다. 사슬 복합체에서 경계 사상은 \(\partial_2 : \mathbb{Z} \to \mathbb{Z}\)가 곱하기 2 사상이다. 따라서:
$$ H_0(\mathbb{R}P^2) \cong \mathbb{Z}, \quad H_1(\mathbb{R}P^2) \cong \mathbb{Z}/2\mathbb{Z}, \quad H_k(\mathbb{R}P^2) = 0 \;\;(k \geq 2). $$
\(H_1\)의 비자명 비틀림 원소 \(\mathbb{Z}/2\mathbb{Z}\)는 \(\mathbb{R}P^2\)의 비가향성을 반영한다. 오일러 지표는 \(\chi(\mathbb{R}P^2) = 1 - 1 + 1 = 1\) (셀 개수로 계산)이며, 이는 \(\operatorname{rank} H_0 - \operatorname{rank} H_1 + \operatorname{rank} H_2 = 1 - 0 + 0 = 1\)과도 일치한다.
복잡한 공간의 호몰로지를 직접 계산하기는 어렵다. Mayer–Vietoris 열은 공간을 두 부분으로 분해하고, 각 부분과 교집합의 호몰로지로부터 전체 호몰로지를 조합한다.
Theorem 22.3 (Mayer–Vietoris Sequence)
\(A, B\)가 열린집합(open set)이고 \(X = A \cup B\)이면, 다음과 같은 긴 완전열이 존재한다:
$$ \cdots \to H_n(A \cap B) \xrightarrow{(\iota_{A*}, \iota_{B*})} H_n(A) \oplus H_n(B) \xrightarrow{\,j_{A*} - j_{B*}\,} H_n(X) \xrightarrow{\;\partial\;} H_{n-1}(A \cap B) \to \cdots $$
호몰로지 계산의 핵심 도구이다.
Example 22.3 (Mayer–Vietoris: 토러스의 호몰로지)
토러스 \(T^2\)의 호몰로지를 Mayer–Vietoris 열로 계산하자. \(T^2\)를 두 원통 \(A\)와 \(B\)로 분해한다 (경도 방향으로 약간 겹치게 자른다). 각 원통은 \(S^1\)에 호모토피 동치이므로 \(H_0(A) \cong H_0(B) \cong \mathbb{Z}\), \(H_1(A) \cong H_1(B) \cong \mathbb{Z}\)이고, 교집합 \(A \cap B\)는 두 개의 원 \(S^1 \sqcup S^1\)에 호모토피 동치이다. Mayer–Vietoris 열:
$$ 0 \to H_2(T^2) \xrightarrow{\partial} H_1(A \cap B) \to H_1(A) \oplus H_1(B) \to H_1(T^2) \xrightarrow{\partial} H_0(A \cap B) \to H_0(A) \oplus H_0(B) \to H_0(T^2) \to 0. $$
사상들을 추적하면 \(H_0(T^2) \cong \mathbb{Z}\), \(H_1(T^2) \cong \mathbb{Z}^2\), \(H_2(T^2) \cong \mathbb{Z}\)를 얻는다. 오일러 지표 \(\chi(T^2) = 1 - 2 + 1 = 0\)은 토러스가 종수 1 곡면임과 일치한다.
Example 22.4 (호몰로지: Klein bottle)
클라인 병 \(K\)의 CW-복합체 구조는 0-셀 1개, 1-셀 2개(\(a, b\)), 2-셀 1개를 가진다. 2-셀의 부착 사상은 경계 단어 \(abab^{-1}\)을 따른다. 사슬 복합체에서 경계 사상을 계산하면:
$$ \partial_2(e^2) = a + b + a - b = 2a, \quad \partial_1(a) = \partial_1(b) = 0. $$
따라서 \(\ker \partial_1 = \mathbb{Z}\langle a, b \rangle\)이고 \(\operatorname{im} \partial_2 = \mathbb{Z}\langle 2a \rangle\)이므로:
$$ H_0(K) \cong \mathbb{Z}, \quad H_1(K) \cong \mathbb{Z}\langle a, b \rangle / \mathbb{Z}\langle 2a \rangle \cong \mathbb{Z} \oplus \mathbb{Z}/2\mathbb{Z}, \quad H_2(K) = 0. $$
\(H_2 = 0\)인 것은 클라인 병이 비가향임을 반영하고, \(H_1\)의 비틀림 부분 \(\mathbb{Z}/2\mathbb{Z}\)도 비가향성의 표지이다. 이는 \(\mathbb{R}P^2\)의 경우와 유사하다.
브라우어 고정점 정리(Brouwer fixed-point theorem)는 경제학에서 내쉬 균형(Nash equilibrium)의 존재 증명, 수치해석에서 반복법(iterative method)의 수렴 보장 등에 사용된다.
Theorem 22.4 (Brouwer Fixed-Point Theorem)
모든 연속 사상 \(f : D^n \to D^n\) (\(D^n\)은 \(\mathbb{R}^n\)의 닫힌 단위 원판)은 고정점을 가진다.
Example 22.5 (Brouwer 고정점 정리의 호몰로지 증명 개요)
\(n = 2\)인 경우를 호몰로지로 증명하자. 고정점이 없다고 가정하면, 각 \(x \in D^2\)에 대해 \(f(x) \neq x\)이므로, \(f(x)\)에서 \(x\)로 향하는 반직선이 \(S^1 = \partial D^2\)과 만나는 점을 \(r(x)\)로 정의하면, \(r : D^2 \to S^1\)은 연속 수축(retraction)이다. 포함 사상 \(\iota : S^1 \hookrightarrow D^2\)에 대해 \(r \circ \iota = \mathrm{id}_{S^1}\)이므로, 호몰로지에서 \(r_* \circ \iota_* = \mathrm{id}\)이다. 그러나 \(H_1(D^2) = 0\)이고 \(H_1(S^1) \cong \mathbb{Z}\)이므로, \(\iota_* : \mathbb{Z} \to 0\)을 거쳐 항등 사상을 얻을 수 없다. 이는 모순이므로 고정점이 존재한다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
Part VIII — Probability & Statistics
확률과 통계는 불확실성을 다루는 수학이다. 도박 문제에서 출발한 확률론은 이제 물리학, 금융, 기계학습의 핵심 도구이다. 콜모고로프가 1933년 확률을 측도론 위에 올려놓으면서, 확률론은 엄밀한 수학의 한 분과가 되었다. Part VIII는 확률론의 기초, 통계적 추론, 확률과정을 순서대로 다룬다.
23. Probability Theory
확률론은 불확실한 현상을 수학적으로 모형화하는 이론이다. 표본공간, 사건, 확률측도의 삼중쌍이 토대가 되고, 그 위에서 확률변수, 기댓값, 분포가 정의된다. 대수의 법칙과 중심극한정리는 표본평균의 장기적 거동을 결정한다.
불확실성(uncertainty)은 공학의 모든 분야에 편재한다. 통신 시스템(communication system)에서 채널 용량(channel capacity)과 비트 오류율(bit error rate)은 확률적 채널 모형 위에서 정의되며, 샤논의 채널 코딩 정리(Shannon's channel coding theorem)는 확률론 없이는 진술조차 할 수 없다. 신뢰성 공학(reliability engineering)에서 부품의 수명은 지수분포(exponential distribution)나 와이블 분포(Weibull distribution)로 모형화되고, 시스템 전체의 신뢰도는 각 부품의 고장 확률로부터 계산된다.
금융공학(financial engineering)에서 리스크 모델링(risk modeling)은 수익률의 확률 분포에 기반하며, 기계학습(machine learning)의 핵심인 베이즈 추론(Bayesian inference)은 조건부 확률과 베이즈 정리의 직접적 응용이다. 센서 융합(sensor fusion)에서 칼만 필터(Kalman filter)의 예측-갱신 구조는 조건부 기댓값과 정규분포의 공액 성질(conjugacy)로 수학적으로 정당화된다. 공리적 확률이 필요한 이유는 조건부 확률에서 드러난다. "양성 반응이 나왔을 때 실제 질병이 있을 확률"은 직관과 크게 다를 수 있다(base rate fallacy).
확률론의 공리적 체계는 콜모고로프(Kolmogorov)가 1933년에 확립했다. 표본공간, 시그마-대수, 확률측도의 삼중쌍이 그 골격이다.
Definition 23.1 (Probability Space)
probability(확률) space는 삼중쌍 \((\Omega, \mathcal{F}, P)\)으로 구성되며, 각 요소는 다음과 같다:
- \(\Omega\)는 sample space(표본공간)으로, 가능한 결과들의 집합이다 (상호 배타적이며 전체를 포괄한다).
- \(\mathcal{F}\)는 \(\Omega\)의 부분집합들로 이루어진 \(\sigma\)-algebra(사건들의 모임)이다.
- \(P : \mathcal{F} \to [0,1]\)는 아래의 공리를 만족하는 probability measure(확률측도)이다.
Definition 23.2 (Kolmogorov Axioms)
- Nonnegativity: 모든 \(A \in \mathcal{F}\)에 대해 \(P(A) \geq 0\).
- Normalization: \(P(\Omega) = 1\).
- Countable additivity: \(A_1, A_2, \ldots\)가 쌍별 서로소인 사건들이면,
$$ P\!\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i). $$
Definition 23.3 (Discrete Uniform Law)
\(\Omega\)가 유한이고 모든 결과가 동일한 확률을 가지면, 임의의 사건 \(A\)에 대해
$$ P(A) = \frac{|A|}{|\Omega|} = \frac{\text{number of favorable outcomes}}{\text{total number of outcomes}}. $$
Example 23.1 (주사위 예제 -- MIT 6.041 L1)
정사면체 주사위 두 개를 굴린다. 표본공간 \(\Omega\)는 16개의 점 \(\{(i,j) : 1 \leq i,j \leq 4\}\)이다. 각 결과가 동일한 확률 \(1/16\)을 가질 때:
- \(P(\min(X,Y) = 2) = P(\{(2,2),(2,3),(2,4),(3,2),(4,2)\}) = 5/16\).
- \(P(X + Y \text{ is odd}) = 8/16 = 1/2\). (홀+짝 또는 짝+홀의 경우의 수가 8개.)
23.1 조건부 확률과 독립
Definition 23.4 (Conditional Probability)
\(P(B) > 0\)인 사건 \(A, B\)에 대해, \(B\)가 주어졌을 때 \(A\)의 conditional probability(조건부확률)는
$$ P(A \mid B) = \frac{P(A \cap B)}{P(B)}. $$
조건부 확률은 \(B\)라는 새로운 universe 위에서의 확률 법칙을 정의한다. \(P(\cdot \mid B)\)는 모든 확률 공리를 만족한다.
Theorem 23.1 (Multiplication Rule)
$$ P(A \cap B \cap C) = P(A)\, P(B \mid A)\, P(C \mid A \cap B). $$
보다 일반적으로, 사건 \(A_1, \ldots, A_n\)에 대해:
$$ P(A_1 \cap \cdots \cap A_n) = P(A_1)\, P(A_2 \mid A_1)\, P(A_3 \mid A_1 \cap A_2) \cdots P(A_n \mid A_1 \cap \cdots \cap A_{n-1}). $$
Theorem 23.2 (Total Probability Theorem)
\(A_1, A_2, \ldots, A_n\)이 \(\Omega\)의 분할(쌍별 서로소이고 합집합이 \(\Omega\))을 이루면, 임의의 사건 \(B\)에 대해:
$$ P(B) = \sum_{i=1}^{n} P(A_i)\, P(B \mid A_i). $$
Theorem 23.3 (Bayes' Rule)
\(\Omega\)의 분할 \(\{A_i\}\)에 대한 사전확률 \(P(A_i)\)와 각 \(i\)에 대해 \(P(B \mid A_i)\)가 주어졌을 때:
$$ P(A_i \mid B) = \frac{P(A_i)\, P(B \mid A_i)}{\sum_{j} P(A_j)\, P(B \mid A_j)}. $$
새로운 증거 \(B\)가 주어지면 기존 믿음이 이 공식에 따라 갱신된다. 베이즈 정리(Bayes' theorem)의 핵심이다.
Example 23.2 (레이더 탐지 -- MIT 6.041 L2)
비행기가 상공에 있는 사건을 \(A\), 레이더에 신호가 잡히는 사건을 \(B\)라 하자. \(P(A) = 0.05\), \(P(B \mid A) = 0.99\), \(P(B \mid A^c) = 0.10\)이 주어져 있다.
- \(P(A \cap B) = P(A)P(B \mid A) = 0.05 \times 0.99 = 0.0495\).
- \(P(B) = P(A)P(B \mid A) + P(A^c)P(B \mid A^c) = 0.0495 + 0.95 \times 0.10 = 0.1445\).
- \(P(A \mid B) = \frac{0.0495}{0.1445} \approx 0.3426\).
레이더 신호가 잡혔을 때 실제 비행기가 있을 확률은 약 34.3%이다. 사전확률 5%에서 크게 갱신되었지만, 위양성률이 높아 여전히 100%는 아니다.
Example 23.3 (Bayesian 추론 -- 질병 검사)
질병 유병률이 \(P(D) = 0.001\)이고, 검사의 민감도 \(P(+ \mid D) = 0.99\), 특이도 \(P(- \mid D^c) = 0.95\)라 하자. 양성 반응이 나왔을 때 실제 질병이 있을 확률은?
풀이.
$$ P(D \mid +) = \frac{P(D)P(+ \mid D)}{P(D)P(+ \mid D) + P(D^c)P(+ \mid D^c)} = \frac{0.001 \times 0.99}{0.001 \times 0.99 + 0.999 \times 0.05}. $$
$$ = \frac{0.00099}{0.00099 + 0.04995} = \frac{0.00099}{0.05094} \approx 0.0194. $$
양성 반응이 나왔어도 실제 질병일 확률은 약 2%에 불과하다. 유병률(사전확률)이 낮기 때문이다. base rate를 빠뜨리면 직관이 크게 어긋날 수 있다.
Definition 23.5 (Independence)
사건 \(A\)와 \(B\)가 \(P(A \cap B) = P(A)\, P(B)\)를 만족하면 independent(독립)이라 한다. 사건 \(A_1, \ldots, A_n\)이 mutually independent(상호독립)이려면, 모든 부분집합 \(S \subseteq \{1, \ldots, n\}\)에 대해
$$ P\!\left(\bigcap_{i \in S} A_i\right) = \prod_{i \in S} P(A_i). $$
23.2 확률변수와 기본 성질
Definition 23.6 (Random Variable)
random variable(확률변수) \(X\)는 가측함수 \(X : \Omega \to \mathbb{R}\)이다. 이산 \(X\)의 경우, probability mass function(확률질량함수) (PMF)는 \(p_X(x) = P(X = x)\)이다. 연속 \(X\)의 경우, probability density function(확률밀도함수) (PDF) \(f_X(x)\)는 \(P(a \leq X \leq b) = \int_a^b f_X(x)\, dx\)를 만족한다. cumulative distribution function(누적분포함수) (CDF)는 \(F_X(x) = P(X \leq x)\)이다.
Definition 23.7 (Expectation and Variance)
random variable(확률변수) \(X\)의 expectation(기댓값) (평균)은 다음과 같다:
$$ E[X] = \begin{cases} \sum_x x\, p_X(x) & \text{(discrete)}, \\ \int_{-\infty}^{\infty} x\, f_X(x)\, dx & \text{(continuous)}. \end{cases} $$
variance(분산)는 \(\text{Var}(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2\)이다. standard deviation(표준편차)는 \(\sigma_X = \sqrt{\text{Var}(X)}\)이다.
핵심 성질: expectation(기댓값)의 선형성: \(E[aX + bY] = aE[X] + bE[Y]\) (종속 여부에 관계없이 항상 성립). 독립인 \(X, Y\)에 대해: \(\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)\).
Definition 23.8 (Conditional Expectation)
이산 확률변수 \(X\)에 대해, 사건 \(A\)가 주어졌을 때의 conditional expectation(조건부 기댓값)은:
$$ E[X \mid A] = \sum_x x\, P(X = x \mid A). $$
확률변수 \(Y\)가 주어졌을 때의 조건부 기댓값 \(E[X \mid Y]\)는 그 자체가 \(Y\)의 함수인 확률변수이며, Total Expectation Theorem(전체 기댓값 정리)이 성립한다:
$$ E[X] = E[E[X \mid Y]] = \sum_y E[X \mid Y = y]\, P(Y = y). $$
Example 23.4 (조건부 기댓값 활용)
공정한 동전을 던져 앞면이 나오면 주사위를 한 번, 뒷면이 나오면 주사위를 두 번 던진다고 하자. 주사위 눈의 합의 기댓값은?
풀이. \(X\)를 주사위 눈의 합이라 하자.
- \(E[X \mid H] = E[\text{주사위 1회}] = 3.5\).
- \(E[X \mid T] = E[\text{주사위 2회 합}] = 7\).
$$ E[X] = E[X \mid H] P(H) + E[X \mid T] P(T) = 3.5 \times 0.5 + 7 \times 0.5 = 5.25. $$
Theorem 23.4 (LOTUS -- Law of the Unconscious Statistician)
\(g(X)\)의 기댓값을 \(X\)의 분포로 직접 계산할 수 있다:
$$ E[g(X)] = \begin{cases} \sum_x g(x)\, p_X(x) & \text{(discrete)}, \\ \int_{-\infty}^{\infty} g(x)\, f_X(x)\, dx & \text{(continuous)}. \end{cases} $$
\(g(X)\)의 분포를 별도로 구할 필요가 없다.
Example 23.5 (LOTUS 활용)
\(X \sim \text{Uniform}(0, 2)\)일 때, \(E[X^3]\)을 구하라.
풀이. \(f_X(x) = 1/2\) (\(0 \leq x \leq 2\)).
$$ E[X^3] = \int_0^2 x^3 \cdot \frac{1}{2}\,dx = \frac{1}{2} \cdot \frac{x^4}{4}\bigg|_0^2 = \frac{1}{2} \cdot 4 = 2. $$
Definition 23.9 (Joint Distribution)
확률변수 \(X, Y\)의 joint PMF/PDF는 \(p_{X,Y}(x,y) = P(X=x, Y=y)\) (이산) 또는 \(f_{X,Y}(x,y)\) (연속, \(P((X,Y) \in A) = \iint_A f_{X,Y}\,dx\,dy\))이다. Marginal(주변) 분포는 합산/적분으로 얻는다: \(p_X(x) = \sum_y p_{X,Y}(x,y)\). \(X\)와 \(Y\)가 독립이면 \(f_{X,Y}(x,y) = f_X(x) f_Y(y)\)이다.
Definition 23.10 (Covariance and Correlation)
- Covariance(공분산): \(\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]\).
- Correlation coefficient(상관계수): \(\rho_{X,Y} = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}\), 범위는 \([-1, 1]\).
- \(X, Y\)가 독립이면 \(\text{Cov}(X,Y) = 0\). 역은 일반적으로 성립하지 않는다.
- 분산의 합: \(\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X,Y)\).
23.3 주요 이산 분포 상세
이항분포(binomial distribution)는 독립 반복 시행에서 성공 횟수를 센다. 품질 관리의 불량품 수, 통신의 비트 오류 수 등에 쓴다.
Definition 23.11 (Binomial Distribution)
\(X \sim \text{Binomial}(n, p)\): 독립적인 Bernoulli 시행 \(n\)회 중 성공 횟수.
- PMF: \(P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}\), \(k = 0, 1, \ldots, n\).
- 기댓값: \(E[X] = np\).
- 분산: \(\text{Var}(X) = np(1-p)\).
- 직관: 각 시행이 독립이고 성공 확률이 \(p\)로 동일한 경우. \(X = \sum_{i=1}^n X_i\)로 쓸 수 있으며, 여기서 \(X_i \sim \text{Bernoulli}(p)\)이다.
Example 23.6 (Binomial)
결함률이 3%인 공정에서 20개의 제품을 검사한다. 결함이 정확히 2개일 확률은?
$$ P(X = 2) = \binom{20}{2}(0.03)^2(0.97)^{18} = 190 \times 0.0009 \times 0.5820 \approx 0.0988. $$
Definition 23.12 (Poisson Distribution)
\(X \sim \text{Poisson}(\lambda)\): 단위 시간(또는 단위 영역)당 발생하는 사건의 수.
- PMF: \(P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}\), \(k = 0, 1, 2, \ldots\)
- 기댓값: \(E[X] = \lambda\).
- 분산: \(\text{Var}(X) = \lambda\).
- 직관: \(n\)이 크고 \(p\)가 작으며 \(np = \lambda\)인 경우 \(\text{Binomial}(n,p)\)의 근사이다. 희소 사건의 모형에 적합하다.
Example 23.7 (Poisson)
교차로에서 시간당 평균 4건의 사고가 발생한다. 한 시간 동안 사고가 6건 이상 발생할 확률은?
$$ P(X \geq 6) = 1 - \sum_{k=0}^{5} \frac{4^k e^{-4}}{k!} = 1 - e^{-4}\left(1 + 4 + 8 + \frac{32}{3} + \frac{32}{3} + \frac{128}{15}\right). $$
$$ = 1 - e^{-4} \cdot \frac{643}{15} \approx 1 - 0.01832 \times 42.87 \approx 1 - 0.7851 = 0.2149. $$
(정확한 계산은 수치적으로 수행하는 것이 좋다.)
Definition 23.13 (Geometric Distribution)
\(X \sim \text{Geometric}(p)\): 첫 성공까지의 시행 횟수.
- PMF: \(P(X = k) = (1-p)^{k-1}p\), \(k = 1, 2, \ldots\)
- 기댓값: \(E[X] = 1/p\).
- 분산: \(\text{Var}(X) = (1-p)/p^2\).
- 무기억 성질: \(P(X > m + n \mid X > m) = P(X > n)\). 이미 \(m\)번 실패했다는 사실이 앞으로의 확률에 영향을 주지 않는다.
23.4 주요 연속 분포 상세
정규분포(normal distribution)는 중심극한정리에 의해 많은 독립적 요인의 합이 따르는 분포다. 센서 잡음(noise) 모형, 금융 수익률 모형, 칼만 필터의 상태 추정에서 기본 가정으로 쓴다.
Definition 23.14 (Normal / Gaussian Distribution)
\(X \sim N(\mu, \sigma^2)\):
- PDF: \(f_X(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\!\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)\), \(x \in \mathbb{R}\).
- 기댓값: \(E[X] = \mu\).
- 분산: \(\text{Var}(X) = \sigma^2\).
- 표준화: \(Z = \frac{X - \mu}{\sigma} \sim N(0,1)\). 표준정규분포의 CDF를 \(\Phi(z)\)로 표기한다.
- 선형 결합: 독립인 \(X_i \sim N(\mu_i, \sigma_i^2)\)에 대해, \(\sum a_i X_i \sim N\!\left(\sum a_i \mu_i, \sum a_i^2 \sigma_i^2\right)\).
- 68-95-99.7 규칙: 데이터의 약 68%, 95%, 99.7%가 각각 \(\mu \pm \sigma\), \(\mu \pm 2\sigma\), \(\mu \pm 3\sigma\) 이내에 있다.
Definition 23.15 (Exponential Distribution)
\(X \sim \text{Exponential}(\lambda)\):
- PDF: \(f_X(x) = \lambda e^{-\lambda x}\), \(x \geq 0\).
- CDF: \(F_X(x) = 1 - e^{-\lambda x}\).
- 기댓값: \(E[X] = 1/\lambda\).
- 분산: \(\text{Var}(X) = 1/\lambda^2\).
- 무기억 성질: \(P(X > s + t \mid X > s) = P(X > t)\). Exponential 분포는 이 성질을 만족하는 유일한 연속 분포이다.
- Poisson 과정과의 관계: rate \(\lambda\)인 Poisson 과정에서 도착간 시간은 \(\text{Exponential}(\lambda)\)를 따른다.
Definition 23.16 (Gamma Distribution)
\(X \sim \text{Gamma}(\alpha, \beta)\) (shape \(\alpha > 0\), rate \(\beta > 0\)):
- PDF: \(f_X(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha - 1} e^{-\beta x}\), \(x > 0\). 여기서 \(\Gamma(\alpha) = \int_0^\infty t^{\alpha-1}e^{-t}\,dt\).
- 기댓값: \(E[X] = \alpha / \beta\).
- 분산: \(\text{Var}(X) = \alpha / \beta^2\).
- 특수한 경우: \(\text{Gamma}(1, \lambda) = \text{Exponential}(\lambda)\). \(\text{Gamma}(n, \lambda)\)는 i.i.d. \(\text{Exponential}(\lambda)\) 확률변수 \(n\)개의 합의 분포이다.
- \(\text{Gamma}(n/2, 1/2) = \chi^2(n)\) (자유도 \(n\)의 카이제곱 분포).
Example 23.8 (Exponential -- 대기 시간)
고객이 평균 5분마다 도착한다 (\(\lambda = 1/5\) per minute). 다음 고객이 10분 이상 걸릴 확률은?
$$ P(X > 10) = e^{-\lambda \cdot 10} = e^{-2} \approx 0.1353. $$
이미 3분을 기다린 상태에서 추가로 7분 이상 기다릴 확률은? 무기억 성질에 의해:
$$ P(X > 10 \mid X > 3) = P(X > 7) = e^{-7/5} \approx 0.2466. $$
23.5 Bayesian 추론
Example 23.9 (Bayesian 추론 -- 동전 편향 추정)
동전의 앞면 확률 \(\theta\)가 \(\text{Uniform}(0,1)\)을 따른다고 가정하자 (사전분포). 10번 던져서 7번 앞면이 나왔을 때, \(\theta\)의 사후분포는?
풀이. 사전분포: \(f_\Theta(\theta) = 1\), \(0 \leq \theta \leq 1\). 우도: \(P(X = 7 \mid \theta) = \binom{10}{7}\theta^7(1-\theta)^3\).
$$ f_{\Theta \mid X}(\theta \mid 7) \propto \theta^7(1-\theta)^3. $$
이는 \(\text{Beta}(8, 4)\) 분포이다. 사후 평균은 \(\frac{8}{8+4} = \frac{2}{3} \approx 0.667\)이며, 이는 MLE 추정치 \(7/10 = 0.7\)보다 약간 \(0.5\) 쪽으로 shrink된다 (사전분포의 영향).
Example 23.10 (Bayesian 추론 -- 정규 사전분포와 정규 우도)
모수 \(\theta \sim N(\mu_0, \sigma_0^2)\)이고, 관측 \(X \mid \theta \sim N(\theta, \sigma^2)\)일 때 하나의 관측 \(x\)가 주어졌을 때의 사후분포는?
풀이. 정규-정규 공액 쌍에 의해:
$$ \theta \mid X = x \sim N\!\left(\frac{\sigma^2 \mu_0 + \sigma_0^2 x}{\sigma^2 + \sigma_0^2},\; \frac{\sigma^2 \sigma_0^2}{\sigma^2 + \sigma_0^2}\right). $$
사후 평균은 사전 평균 \(\mu_0\)과 관측값 \(x\)의 가중 평균이다. 관측의 정밀도(precision = \(1/\sigma^2\))가 높을수록 관측값에 더 많은 가중치가 부여된다.
23.6 부등식
분포를 몰라도 꼬리 확률의 상한을 잡을 수 있다. Markov와 Chebyshev 부등식이 그 출발이다.
Theorem 23.5 (Markov's Inequality)
\(X \geq 0\)인 확률변수와 \(a > 0\)에 대해:
$$ P(X \geq a) \leq \frac{E[X]}{a}. $$
증명 스케치: \(E[X] = \int_0^\infty x f(x)\,dx \geq \int_a^\infty x f(x)\,dx \geq a \int_a^\infty f(x)\,dx = a P(X \geq a)\).
Theorem 23.6 (Chebyshev's Inequality)
유한한 평균 \(\mu\)와 variance(분산) \(\sigma^2\)를 가지는 임의의 random variable(확률변수) \(X\)에 대해, 임의의 \(k > 0\)에 대해:
$$ P(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2}. $$
동치 형태: 임의의 \(a > 0\)에 대해 \(P(|X - \mu| \geq a) \leq \frac{\sigma^2}{a^2}\).
Example 23.11 (Chebyshev 부등식 활용)
\(X\)의 평균이 100, 분산이 25라 하자. \(P(|X - 100| \geq 15)\)의 상한은?
$$ P(|X - 100| \geq 15) = P(|X - \mu| \geq 3\sigma) \leq \frac{1}{3^2} = \frac{1}{9} \approx 0.111. $$
만약 \(X \sim N(100, 25)\)이라면, 실제 확률은 \(P(|Z| \geq 3) \approx 0.0027\)이다. Chebyshev는 분포 무관하게 적용 가능하지만, 그만큼 느슨한 상한을 제공한다.
23.7 대수의 법칙과 중심극한정리
Theorem 23.7 (Law of Large Numbers)
\(X_1, X_2, \ldots\)가 평균 \(\mu\)와 유한한 variance(분산)를 가지는 i.i.d. random variable(확률변수)이라 하자. 그러면 표본평균 \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\)는 \(\mu\)로 수렴한다:
- Weak LLN: \(\bar{X}_n \xrightarrow{P} \mu\) (확률수렴). 임의의 \(\epsilon > 0\)에 대해 \(P(|\bar{X}_n - \mu| \geq \epsilon) \to 0\).
- Strong LLN: \(\bar{X}_n \xrightarrow{\text{a.s.}} \mu\) (거의 확실한 수렴).
Theorem 23.8 (Central Limit Theorem)
\(X_1, X_2, \ldots\)가 평균 \(\mu\)와 variance(분산) \(\sigma^2 < \infty\)를 가지는 i.i.d.라 하자. 그러면
$$ \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1) \quad \text{as } n \to \infty. $$
즉, 정규화된 합은 분포 수렴의 의미에서 표준정규분포로 수렴한다.
Example 23.12 (CLT 활용)
공장에서 한 제품의 무게가 평균 500g, 표준편차 10g이다. 64개 제품을 무작위로 뽑았을 때, 총 무게가 32,080g을 초과할 확률을 근사하라.
풀이. \(S_{64} = \sum_{i=1}^{64} X_i\). \(E[S_{64}] = 64 \times 500 = 32000\), \(\text{Var}(S_{64}) = 64 \times 100 = 6400\), \(\sigma_{S} = 80\).
$$ P(S_{64} > 32080) = P\!\left(\frac{S_{64} - 32000}{80} > \frac{80}{80}\right) = P(Z > 1) \approx 1 - \Phi(1) \approx 0.1587. $$
Example 23.13 (CLT -- 선거 여론조사)
지지율이 \(p = 0.52\)인 후보에 대해, \(n = 1000\)명을 무작위 조사하여 지지율이 50% 이상으로 나올 확률은?
풀이. \(\hat{p} = \bar{X}_n\)이고 \(E[\hat{p}] = 0.52\), \(\text{Var}(\hat{p}) = \frac{p(1-p)}{n} = \frac{0.52 \times 0.48}{1000} = 0.0002496\), \(\sigma_{\hat{p}} \approx 0.0158\).
$$ P(\hat{p} > 0.5) = P\!\left(Z > \frac{0.5 - 0.52}{0.0158}\right) = P(Z > -1.27) = \Phi(1.27) \approx 0.898. $$
약 90%의 확률로 조사 결과가 50% 이상 지지를 보여준다.
Example 23.14 (Markov 부등식 활용)
비음인 확률변수 \(X\)의 기댓값이 \(E[X] = 4\)일 때, \(P(X \geq 20)\)의 상한은?
풀이. Markov 부등식에 의해:
$$ P(X \geq 20) \leq \frac{E[X]}{20} = \frac{4}{20} = 0.2. $$
분포에 대한 추가 정보 없이도, \(X\)가 20 이상일 확률은 최대 20%라는 것을 알 수 있다.
Example 23.15 (조건부 확률 -- 편향된 동전 식별)
동전 A: \(P(H) = 0.9\), 동전 B: \(P(H) = 0.1\). 동전을 무작위로 선택하여 (\(P(\text{A}) = P(\text{B}) = 0.5\)) 3번 던져 모두 앞면이 나왔다. 동전 A일 확률은?
풀이. \(D = \text{HHH}\)라 하자.
$$ P(D \mid \text{A}) = 0.9^3 = 0.729, \quad P(D \mid \text{B}) = 0.1^3 = 0.001. $$
$$ P(\text{A} \mid D) = \frac{0.5 \times 0.729}{0.5 \times 0.729 + 0.5 \times 0.001} = \frac{0.3645}{0.365} \approx 0.9986. $$
3번 연속 앞면이 나오면 동전 A일 확률이 99.9% 이상이다. 이는 조건부 독립의 효과를 보여준다: 각 던지기는 동전 종류를 조건으로 했을 때 독립이지만, 동전이 미지인 상태에서는 독립이 아니다 (앞선 결과가 동전 종류에 대한 정보를 제공한다).
Example 23.16 (Moment Generating Function 활용)
\(X \sim \text{Poisson}(\lambda_1)\), \(Y \sim \text{Poisson}(\lambda_2)\)가 독립일 때, \(Z = X + Y\)의 분포를 구하라.
풀이. MGF 방법: \(M_X(t) = e^{\lambda_1(e^t - 1)}\), \(M_Y(t) = e^{\lambda_2(e^t - 1)}\). 독립이므로:
$$ M_Z(t) = M_X(t) M_Y(t) = e^{(\lambda_1 + \lambda_2)(e^t - 1)}. $$
이는 \(\text{Poisson}(\lambda_1 + \lambda_2)\)의 MGF이다. MGF의 유일성에 의해 \(Z \sim \text{Poisson}(\lambda_1 + \lambda_2)\).
주요 분포 요약표
| 분포 | PMF/PDF | \(E[X]\) | \(\text{Var}(X)\) |
| Bernoulli\((p)\) | \(P(X=1)=p\) | \(p\) | \(p(1-p)\) |
| Binomial\((n,p)\) | \(\binom{n}{k}p^k(1-p)^{n-k}\) | \(np\) | \(np(1-p)\) |
| Geometric\((p)\) | \((1-p)^{k-1}p\) | \(1/p\) | \((1-p)/p^2\) |
| Poisson\((\lambda)\) | \(\frac{\lambda^k e^{-\lambda}}{k!}\) | \(\lambda\) | \(\lambda\) |
| Uniform\((a,b)\) | \(\frac{1}{b-a}\) | \(\frac{a+b}{2}\) | \(\frac{(b-a)^2}{12}\) |
| Exponential\((\lambda)\) | \(\lambda e^{-\lambda x}\) | \(1/\lambda\) | \(1/\lambda^2\) |
| Normal\((\mu,\sigma^2)\) | \(\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}\) | \(\mu\) | \(\sigma^2\) |
| Gamma\((\alpha,\beta)\) | \(\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}\) | \(\alpha/\beta\) | \(\alpha/\beta^2\) |
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
24. Statistics
통계학은 데이터로부터 모집단에 대한 결론을 도출하는 학문이다. 추정, 검정, 신뢰구간이 주요 도구이며, 빈도주의와 베이즈주의 두 패러다임이 상호 보완한다.
통계학의 핵심 질문은 "표본(sample)에서 모집단(population)으로의 추론이 믿을 만한가?"이다. 모수(parameter) 추정, 불확실성 정량화, 가설검정이 기본 과제이며, 공학 곳곳에서 사용된다.
품질 관리(quality control)에서 관리도(control chart)와 공정 능력 지수(process capability index)는 통계적 추정과 검정의 직접적 응용이며, 실험 계획법(Design of Experiments)과 A/B 테스트는 가설검정(hypothesis testing) 프레임워크를 따른다. 센서 교정(sensor calibration)에서 회귀분석(regression analysis)은 센서 출력과 참값 사이의 관계를 추정하고, 신호 탐지 이론(signal detection theory)에서 레이더가 목표물의 존재를 판단하는 문제는 네이만-피어슨(Neyman-Pearson) 가설검정과 같은 구조다. 기계학습(machine learning)에서 최대우도추정(MLE)과 MAP 추정은 모형의 모수를 데이터에 적합시키는 기본 방법이다.
통계적 추론의 출발점은 데이터를 요약하는 통계량(statistic)과, 미지의 모수를 근사하는 추정량(estimator)이다. 추정량의 불편성(unbiasedness), 일치성(consistency), 효율성(efficiency)이 추정론(estimation theory)의 기본 판단 기준이다.
Definition 24.1 (Statistic and Estimator)
statistic(통계량)은 관측 데이터의 임의의 함수 \(T = T(X_1, \ldots, X_n)\)이다. 모수 \(\theta\)의 estimator(추정량) \(\hat{\theta}\)는 \(\theta\)를 근사하기 위한 통계량이다.
Definition 24.2 (Bias, Variance, MSE)
\(\theta\)의 estimator(추정량) \(\hat{\theta}\)에 대해:
- Bias: \(\operatorname{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta\). 편향이 0이면 unbiased(불편) estimator(추정량)라 한다.
- Mean squared error: \(\operatorname{MSE}(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = \operatorname{Var}(\hat{\theta}) + (\operatorname{Bias})^2\).
- \(n \to \infty\)일 때 \(\hat{\theta}_n \xrightarrow{P} \theta\)이면 estimator(추정량)는 consistent(일치)라 한다.
최대우도추정(Maximum Likelihood Estimation, MLE)은 가장 널리 사용되는 점추정 방법이다. 관측된 데이터를 가장 잘 설명하는 모수값을 선택한다는 원리이며, 기계학습에서 모형 훈련의 목적함수(로그우도 최대화)가 이에 해당한다.
Definition 24.3 (Maximum Likelihood Estimation)
데이터 \(x_1, \ldots, x_n\)과 모수적 모형 \(f(x \mid \theta)\)가 주어졌을 때, likelihood function(우도함수)은
$$ L(\theta) = \prod_{i=1}^n f(x_i \mid \theta). $$
maximum likelihood estimator(최대우도추정량) (MLE)는 \(\hat{\theta}_{\text{MLE}} = \arg\max_\theta L(\theta)\)이다. 실제로는 log-likelihood(로그우도) \(\ell(\theta) = \sum_{i=1}^n \log f(x_i \mid \theta)\)를 최대화한다.
Theorem 24.1 (Properties of MLE)
정칙 조건 하에서:
- Consistency: \(\hat{\theta}_{\text{MLE}} \xrightarrow{P} \theta_0\) (참 모수로 수렴).
- Asymptotic normality: \(\sqrt{n}(\hat{\theta}_{\text{MLE}} - \theta_0) \xrightarrow{d} N(0, I(\theta_0)^{-1})\), 여기서 \(I(\theta)\)는 Fisher information이다.
- Asymptotic efficiency: MLE는 점근적으로 Cramér–Rao 하한을 달성한다.
피셔 정보(Fisher information)는 데이터가 모수에 대해 담고 있는 정보량을 측정한다. 피셔 정보가 클수록 모수를 더 정밀하게 추정할 수 있고, Cramér–Rao 하한이 이를 정량화한다.
Definition 24.4 (Fisher Information)
단일 관측에 대한 Fisher information:
$$ I(\theta) = E\!\left[\left(\frac{\partial}{\partial \theta} \log f(X \mid \theta)\right)^{\!2}\right] = -E\!\left[\frac{\partial^2}{\partial \theta^2} \log f(X \mid \theta)\right]. $$
Theorem 24.2 (Cramér–Rao Lower Bound)
\(\theta\)의 임의의 unbiased(불편) estimator(추정량) \(\hat{\theta}\)에 대해,
$$ \operatorname{Var}(\hat{\theta}) \geq \frac{1}{n I(\theta)}. $$
어떤 불편 추정량도 이 하한 아래로 분산을 줄일 수 없다. 이 하한을 달성하는 추정량을 효율적(efficient) 추정량이라 한다.
점추정만으로는 추정의 정밀도를 알 수 없다. 신뢰구간(confidence interval)은 추정값 주위에 불확실성의 범위를 부여한다.
Definition 24.5 (Confidence Interval)
\(\theta\)에 대한 \((1-\alpha)\) confidence interval(신뢰구간)은 \(P(\theta \in [L, U]) \geq 1 - \alpha\)를 만족하는 확률구간 \([L(X), U(X)]\)이다. variance(분산) \(\sigma^2\)가 알려진 정규모집단의 경우:
$$ \bar{X} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, $$
여기서 \(z_{\alpha/2}\)는 \(N(0,1)\)의 상위 \(\alpha/2\) 분위수이다.
가설검정(hypothesis testing)은 데이터에 기반하여 주장의 타당성을 판단하는 체계이다. 레이더의 목표물 탐지, 임상시험의 신약 효과 판정, A/B 테스트 등이 모두 가설검정으로 정식화된다. 1종 오류(위양성)와 2종 오류(위음성) 사이의 트레이드오프를 관리하는 것이 실무적으로 중요하다.
Definition 24.6 (Hypothesis Testing)
hypothesis testing(가설검정)은 귀무가설 \(H_0\)을 대립가설 \(H_1\)에 대해 평가한다.
- Type I error (위양성): \(H_0\)이 참일 때 \(H_0\)을 기각하는 오류. 그 확률은 significance level(유의수준) \(\alpha\)로 상한이 정해진다.
- Type II error (위음성): \(H_1\)이 참일 때 \(H_0\)을 기각하지 못하는 오류. 그 확률은 \(\beta\)이다.
- Power(검정력) \(= 1 - \beta\): \(H_0\)을 올바르게 기각할 확률.
- p-value(유의확률): 관측된 데이터가 주어졌을 때 \(H_0\)을 기각할 수 있는 가장 작은 유의수준.
Theorem 24.3 (Neyman–Pearson Lemma)
단순가설 \(H_0: \theta = \theta_0\) 대 \(H_1: \theta = \theta_1\)의 검정에서, 크기 \(\alpha\)의 가장 검정력이 높은 검정은 likelihood ratio test(우도비검정)이다: 다음 조건일 때 \(H_0\)을 기각한다.
$$ \frac{L(\theta_1)}{L(\theta_0)} > c, $$
여기서 \(c\)는 \(H_0\) 하에서 기각 확률이 \(\alpha\)가 되도록 선택한다.
Example 24.1 (MLE — Poisson)
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Poisson}(\lambda)\)일 때, \(\lambda\)의 MLE를 구하라.
풀이. Log-likelihood:
$$ \ell(\lambda) = \sum_{i=1}^n \left(X_i \log\lambda - \lambda - \log(X_i!)\right) = \left(\sum X_i\right)\log\lambda - n\lambda - \sum\log(X_i!). $$
$$ \frac{d\ell}{d\lambda} = \frac{\sum X_i}{\lambda} - n = 0 \implies \hat{\lambda}_{\text{MLE}} = \bar{X}. $$
Poisson 분포의 평균이 \(\lambda\)이므로, 표본 평균이 자연스러운 추정량이다. \(E[\bar{X}] = \lambda\)이므로 불편 추정량이기도 하다.
Example 24.2 (신뢰구간 계산)
모집단의 분산 \(\sigma^2 = 16\)이 알려진 정규모집단에서 \(n = 25\)개의 표본을 뽑아 \(\bar{x} = 50.3\)을 얻었다. 모평균 \(\mu\)의 95% 신뢰구간을 구하라.
풀이. \(z_{0.025} = 1.96\), \(\sigma/\sqrt{n} = 4/5 = 0.8\).
$$ 50.3 \pm 1.96 \times 0.8 = 50.3 \pm 1.568 = (48.732, 51.868). $$
95% 신뢰구간은 \((48.73, 51.87)\)이다. 이는 "이 방법으로 반복적으로 구간을 만들면 95%의 경우에 참 모수가 구간 안에 포함된다"는 뜻이다.
선형회귀(linear regression)는 변수 간의 관계를 모형화하는 기본 방법이다. 센서 교정에서 출력과 참값의 선형 관계를 추정하거나, 재료 시험에서 응력-변형률 기울기(영률)를 결정하는 것이 전형적인 응용이다.
Definition 24.7 (Linear Regression)
linear regression(선형회귀) model은 \(Y = X\beta + \varepsilon\)이며, 여기서 \(Y \in \mathbb{R}^n\)은 반응변수, \(X \in \mathbb{R}^{n \times p}\)은 설계행렬, \(\beta \in \mathbb{R}^p\)은 계수, \(\varepsilon \sim N(0, \sigma^2 I)\)이다. ordinary least squares(최소제곱) (OLS) estimator(추정량)는
$$ \hat{\beta} = (X^T X)^{-1} X^T Y. $$
Theorem 24.4 (Gauss–Markov)
\(E[\varepsilon] = 0\)이고 \(\operatorname{Cov}(\varepsilon) = \sigma^2 I\)라는 가정 하에서, OLS estimator(추정량) \(\hat{\beta}\)는 Best Linear Unbiased Estimator (BLUE)이다: 모든 선형 불편 추정량 중에서 가장 작은 variance(분산)를 가진다.
Example 24.3 (MLE — 정규분포 모수 추정)
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\)일 때, \(\mu\)와 \(\sigma^2\)의 MLE를 구하라.
풀이. Log-likelihood:
$$ \ell(\mu, \sigma^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^n (X_i - \mu)^2. $$
\(\partial \ell / \partial \mu = 0\)에서 \(\hat{\mu} = \bar{X}\). \(\partial \ell / \partial \sigma^2 = 0\)에서:
$$ \hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2. $$
MLE \(\hat{\sigma}^2\)은 \(n\)으로 나누므로 편향된 추정량이다 (\(E[\hat{\sigma}^2] = \frac{n-1}{n}\sigma^2\)). 불편 추정량은 \(n-1\)로 나눈 표본분산 \(S^2\)이다.
Example 24.4 (가설검정 — Z-검정)
공장에서 생산되는 볼트의 길이가 \(N(\mu, 4)\)를 따른다. 규격은 \(\mu = 10\)cm이다. 36개를 표본 추출하여 \(\bar{x} = 10.5\)를 얻었다. \(H_0: \mu = 10\) 대 \(H_1: \mu \neq 10\), 유의수준 \(\alpha = 0.05\)로 검정하라.
풀이. 검정통계량:
$$ Z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}} = \frac{10.5 - 10}{2/6} = \frac{0.5}{1/3} = 1.5. $$
\(|Z| = 1.5 < z_{0.025} = 1.96\)이므로, \(H_0\)을 기각하지 못한다. p-value = \(2P(Z > 1.5) = 2 \times 0.0668 = 0.1336 > 0.05\).
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
25. Stochastic Processes
확률과정은 시간에 따라 진화하는 확률 현상을 모형화한다. 마르코프 체인, 포아송 과정, 브라운 운동이 대표적이며, 이들은 대기행렬 이론, 금융수학, 물리학의 확산 모형 등에 직접 적용된다.
공학에서 마주하는 많은 시스템은 시간에 따라 무작위로 변한다. 통신 채널의 백색 가우스 잡음(AWGN)은 Gaussian process(가우스 과정)로 모델링되고, 주가의 변동은 geometric Brownian motion(기하 브라운 운동)으로 기술되어 Black-Scholes 옵션 가격 모형의 기초가 된다. 네트워크 서버에 도착하는 패킷은 Poisson process(포아송 과정)로 모형화하여 큐잉 이론(queueing theory)으로 분석하며, 로봇이나 항공기의 상태 추정에 쓰이는 칼만 필터(Kalman filter)는 확률과정 위에서 정의된 최적 추정 문제이다. 신뢰성 공학에서는 시스템의 정상/고장/수리 상태 전이를 Markov chain(마르코프 체인)으로 모델링하여 가용성(availability)을 계산한다.
확률과정론은 "입력 자체가 무작위이거나 시스템 내부에 불확실성이 존재하는" 상황을 다루는 수학적 틀이다. 결정론적 미분방정식(ODE/PDE)이 입력에서 출력이 하나로 결정되는 시스템을 다루는 데 비해, 여기서는 표본 경로 자체가 확률적이다.
먼저 "각 시점에 확률변수가 하나씩 대응된다"는 개념을 엄밀하게 정의한다.
Definition 25.1 (Stochastic Process)
stochastic process(확률과정)는 공통의 probability(확률) space 위에 정의된 random variable(확률변수)들의 모임 \(\{X_t\}_{t \in T}\)으로, 집합 \(T\)(주로 시간)에 의해 색인된다. \(T\)가 가산이면 discrete-time(이산시간) 과정이고, \(T = [0,\infty)\)이면 continuous-time(연속시간) 과정이다.
확률과정 중에서 가장 다루기 쉬우면서도 응용 범위가 넓은 것이 Markov chain(마르코프 체인)이다. "미래는 현재 상태에만 의존하고 과거 이력에는 의존하지 않는다"는 무기억 성질(memorylessness) 덕분에, 전이행렬 하나로 시스템의 장기 거동을 완전히 분석할 수 있다.
Definition 25.2 (Discrete-Time Markov Chain)
가산 상태공간 \(S\)에서 값을 취하는 random variable(확률변수) 열 \(\{X_n\}_{n \geq 0}\)이 Markov property(마르코프 성질)을 만족하면 Markov chain(마르코프 연쇄)이라 한다:
$$ P(X_{n+1} = j \mid X_n = i, X_{n-1} = i_{n-1}, \ldots, X_0 = i_0) = P(X_{n+1} = j \mid X_n = i) = p_{ij}. $$
행렬 \(P = (p_{ij})\)는 transition matrix(전이행렬)이다 (각 행의 합은 1).
마르코프 체인의 장기 거동을 이해하려면 각 상태의 성격을 분류해야 한다. 어떤 상태에는 반복적으로 돌아오고(recurrent), 어떤 상태는 한 번 떠나면 다시 방문하지 않는다(transient). 이러한 분류가 정상분포의 존재 여부를 결정한다.
Definition 25.3 (Classification of States)
상태 \(i\)는 다음과 같이 분류된다:
- 연쇄가 확률 1로 \(i\)에 되돌아오면 recurrent(재귀적), 그렇지 않으면 transient(일시적)이다.
- 기대 복귀 시간이 유한하면 positive recurrent(양재귀적)이다.
- \(p_{ii} = 1\)이면 absorbing(흡수) 상태이다.
- \(i\)의 period(주기)는 \(d(i) = \gcd\{n \geq 1 : p_{ii}^{(n)} > 0\}\)이다. \(d(i) = 1\)이면 aperiodic(비주기적)이라 한다.
연쇄가
irreducible(기약)이란 모든 상태가 다른 모든 상태로부터 도달 가능함을 뜻한다. 기약이고 비주기적이며 양재귀적인 연쇄를
ergodic(에르고딕)이라 한다.
에르고딕 마르코프 체인은 초기 상태에 무관하게 장기적으로 동일한 분포에 수렴한다. 이 극한 분포가 정상분포(stationary distribution)이다. 신뢰성 공학의 시스템 가용률 계산이나 Google의 PageRank 알고리즘이 대표적 응용이다.
Theorem 25.1 (Stationary Distribution)
에르고딕 Markov chain(마르코프 연쇄)은 \(\pi P = \pi\)와 \(\sum_i \pi_i = 1\)을 만족하는 유일한 stationary distribution(정상분포) \(\pi\)를 가진다. 나아가, 초기 분포에 관계없이 \(n \to \infty\)일 때 \(p_{ij}^{(n)} \to \pi_j\)이다.
Example 25.1 (2-상태 Markov Chain)
상태 \(\{0, 1\}\)에서 전이행렬이 다음과 같은 Markov chain을 고려하자:
$$ P = \begin{pmatrix} 0.7 & 0.3 \\ 0.4 & 0.6 \end{pmatrix}. $$
정상분포를 구하라.
풀이. \(\pi P = \pi\)에서 \(\pi_0 \cdot 0.7 + \pi_1 \cdot 0.4 = \pi_0\)이고, \(\pi_0 + \pi_1 = 1\). 첫 식을 정리하면 \(0.4\pi_1 = 0.3\pi_0\), 즉 \(\pi_1 = \frac{3}{4}\pi_0\). \(\pi_0 + \frac{3}{4}\pi_0 = 1\)에서 \(\pi_0 = 4/7, \pi_1 = 3/7\). 장기적으로 상태 0에 있을 비율은 \(4/7 \approx 0.571\)이다.
Example 25.2 (Gambler's Ruin as Markov Chain)
도박사가 \(i\)원 (\(0 < i < N\))을 가지고 시작한다. 매 판마다 확률 \(p\)로 1원을 얻고 \(q = 1-p\)로 1원을 잃는다. 0원이나 \(N\)원에 도달하면 게임이 끝난다. 상태 0과 \(N\)은 흡수 상태이다. \(p \neq q\)일 때 상태 \(i\)에서 시작하여 파산할 (상태 0에 도달할) 확률은:
$$ P_i(\text{ruin}) = \frac{(q/p)^i - (q/p)^N}{1 - (q/p)^N}. $$
공정한 게임 (\(p = q = 1/2\))일 때는 \(P_i(\text{ruin}) = 1 - i/N\)이다.
연속시간에서 가장 기본적인 모형은 "사건이 무작위로 도착하는" 계수과정이다. 콜센터에 걸려오는 전화, 웹 서버에 도착하는 HTTP 요청, 방사성 물질의 붕괴 이벤트 등이 Poisson process(포아송 과정)로 모형화된다.
Definition 25.4 (Poisson Process)
rate \(\lambda > 0\)인
Poisson process(포아송 과정)는 다음을 만족하는 연속시간 계수과정 \(\{N(t)\}_{t \geq 0}\)이다:
- \(N(0) = 0\).
- 독립 증분.
- 모든 \(t, s \geq 0\)에 대해 \(N(t+s) - N(t) \sim \text{Poisson}(\lambda s)\).
도착간 시간은 i.i.d. \(\text{Exponential}(\lambda)\)를 따른다.
Poisson process가 이산적 사건의 도착을 모형화한다면, Brownian motion(브라운 운동)은 연속적으로 변하는 무작위 경로를 모형화한다. 1827년 식물학자 Robert Brown이 관찰한 꽃가루 입자의 불규칙 운동에서 이름이 유래했으며, 오늘날 금융공학의 주가 모형, 통계역학의 확산 방정식, 확률미분방정식의 구동력(driving noise)으로 쓰인다.
Definition 25.5 (Brownian Motion / Wiener Process)
standard Brownian motion(표준 브라운 운동) \(\{W(t)\}_{t \geq 0}\)은 다음을 만족하는 연속시간 stochastic process(확률과정)이다:
- \(W(0) = 0\).
- 독립 증분: \(0 \leq t_1 < t_2 < \cdots < t_n\)에 대해 증분 \(W(t_2) - W(t_1), \ldots, W(t_n) - W(t_{n-1})\)은 독립이다.
- 정규 증분: \(t > s\)에 대해 \(W(t) - W(s) \sim N(0, t - s)\).
- 거의 확실하게 연속인 표본 경로를 가진다.
브라운 운동의 표본 경로는 직관적으로 "매우 거칠다". 연속이지만 어디서도 미분 불가능하다. 바로 이 때문에 고전 미적분과는 다른 확률 미적분(stochastic calculus)이 필요하다.
Theorem 25.2 (Properties of Brownian Motion)
표준 Brownian motion \(W(t)\)는 다음 성질을 만족한다:
- \(E[W(t)] = 0\), \(\operatorname{Cov}(W(s), W(t)) = \min(s,t)\).
- 표본 경로는 거의 확실하게 연속이지만 어디서도 미분 불가능하다.
- \([0,t]\) 위에서의 이차변동은 거의 확실하게 \(t\)이다.
- 자기유사성: 임의의 \(c > 0\)에 대해 \(\{W(ct)\}_{t \geq 0} \overset{d}{=} \{\sqrt{c}\, W(t)\}_{t \geq 0}\).
Example 25.3 (Markov Chain — 날씨 모형)
날씨를 맑음(S)과 비(R) 두 상태로 모형화한다. 전이 확률이 \(P(S \to S) = 0.8\), \(P(S \to R) = 0.2\), \(P(R \to S) = 0.6\), \(P(R \to R) = 0.4\)라 하자.
- 2일 후 전이 확률: \(P^2 = \begin{pmatrix} 0.76 & 0.24 \\ 0.72 & 0.28 \end{pmatrix}\). 오늘 비가 오면 이틀 후 맑을 확률은 0.72.
- 정상분포: \(\pi_S \cdot 0.2 = \pi_R \cdot 0.6\)이고 \(\pi_S + \pi_R = 1\). 따라서 \(\pi_S = 3/4, \pi_R = 1/4\). 장기적으로 75%의 날이 맑다.
- 기대 복귀 시간: 맑은 날의 기대 복귀 시간은 \(1/\pi_S = 4/3\)일, 비 오는 날의 기대 복귀 시간은 \(1/\pi_R = 4\)일.
Example 25.4 (Poisson Process — 합류와 분할)
rate \(\lambda_1 = 3\)과 \(\lambda_2 = 5\)인 두 독립 Poisson 과정의 합류(superposition)는 rate \(\lambda_1 + \lambda_2 = 8\)인 Poisson 과정이다. 반대로, rate \(\lambda\)인 Poisson 과정에서 각 도착이 독립적으로 확률 \(p\)로 type I, \(1-p\)로 type II로 분류되면, type I 도착은 rate \(\lambda p\), type II 도착은 rate \(\lambda(1-p)\)인 독립 Poisson 과정을 형성한다.
마팅게일 (Martingales)
마팅게일은 "공정한 게임"을 수학적으로 포착하는 개념이다. 현재까지의 정보가 주어졌을 때, 미래의 기대값이 현재값과 같으면 그 과정은 마팅게일이다. 도박 이론에서 출발했지만, 현대에는 금융 파생상품 가격 결정(risk-neutral pricing), 통계적 순차 검정(sequential testing), 확률적 수렴 이론에서 폭넓게 쓰인다. Optional Stopping Theorem을 쓰면 복잡한 정지 문제가 기대값 계산으로 줄어든다.
"시간 \(n\)까지 축적된 정보"를 수학적으로 표현하는 도구가 filtration(여과)이다.
Definition 25.6 (Filtration과 적합 과정)
확률 공간 \((\Omega, \mathcal{F}, P)\) 위의 \(\sigma\)-algebra(시그마 대수)들의 증가열
$$ \mathcal{F}_0 \subseteq \mathcal{F}_1 \subseteq \mathcal{F}_2 \subseteq \cdots \subseteq \mathcal{F} $$
를 filtration(여과)이라 한다. \(\mathcal{F}_n\)은 시간 \(n\)까지 축적된 정보를 나타낸다. 확률과정 \(\{X_n\}\)이 filtration \(\{\mathcal{F}_n\}\)에 adapted(적합)하다 함은 각 \(n\)에 대해 \(X_n\)이 \(\mathcal{F}_n\)-measurable(\(\mathcal{F}_n\)-가측)임을 뜻한다.
Definition 25.7 (Martingale)
filtration \(\{\mathcal{F}_n\}\)에 적합한 확률과정 \(\{X_n\}\)이
martingale(마팅게일)이라 함은 다음 두 조건을 만족함을 뜻한다:
- \(E[|X_n|] < \infty\) (모든 \(n\)에 대해 integrable).
- \(E[X_{n+1} \mid \mathcal{F}_n] = X_n\) a.s.
조건 2에서 등호를 부등호로 바꾸면:
- \(E[X_{n+1} \mid \mathcal{F}_n] \geq X_n\) a.s. \(\Rightarrow\) submartingale(서브마팅게일) (평균적으로 증가).
- \(E[X_{n+1} \mid \mathcal{F}_n] \leq X_n\) a.s. \(\Rightarrow\) supermartingale(슈퍼마팅게일) (평균적으로 감소).
Example 25.5 (공정한 게임)
i.i.d. 확률변수 \(Y_1, Y_2, \ldots\)가 \(E[Y_i] = 0\)을 만족한다고 하자. 누적 상금을 \(S_n = \sum_{i=1}^{n} Y_i\)로 정의하면, \(\mathcal{F}_n = \sigma(Y_1, \ldots, Y_n)\)에 대해:
$$ E[S_{n+1} \mid \mathcal{F}_n] = E[S_n + Y_{n+1} \mid \mathcal{F}_n] = S_n + E[Y_{n+1}] = S_n. $$
따라서 \(\{S_n\}\)은 martingale이다. 공정한 게임의 누적 상금은 평균적으로 변하지 않는다.
Example 25.6 (조건부 기댓값 마팅게일)
integrable한 확률변수 \(Y\) (\(E[|Y|] < \infty\))와 filtration \(\{\mathcal{F}_n\}\)에 대해
$$ X_n = E[Y \mid \mathcal{F}_n] $$
으로 정의하면, tower property(반복 기댓값의 법칙)에 의해:
$$ E[X_{n+1} \mid \mathcal{F}_n] = E\bigl[E[Y \mid \mathcal{F}_{n+1}] \mid \mathcal{F}_n\bigr] = E[Y \mid \mathcal{F}_n] = X_n. $$
따라서 \(\{X_n\}\)은 martingale이다. 조건부 기댓값으로 마팅게일을 만드는 이 방법이 가장 일반적인 구성이다.
Theorem 25.3 (Optional Stopping Theorem)
\(\{X_n\}\)이 filtration \(\{\mathcal{F}_n\}\)에 대한 martingale이고, \(\tau\)가 bounded stopping time(유계 정지시간)이면 (즉, 어떤 \(N\)이 존재하여 \(\tau \leq N\) a.s.), 다음이 성립한다:
$$ E[X_\tau] = E[X_0]. $$
Example 25.7 (마팅게일을 이용한 Gambler's Ruin)
도박사가 초기 자금 \(i\)로 시작하고, 흡수 장벽이 0과 \(N\)인 공정한 게임을 고려하자. \(S_n\)을 시간 \(n\)에서의 재산이라 하면, \(S_n\)은 martingale이다. 정지시간 \(\tau = \min\{n : S_n = 0 \text{ or } S_n = N\}\)은 유한 상태의 recurrent random walk이므로 a.s. 유한하다 (bounded stopping time 조건을 적절히 확장 가능). Optional Stopping Theorem에 의해:
$$ E[S_\tau] = E[S_0] = i. $$
\(S_\tau\)는 0 또는 \(N\)만 취하므로:
$$ 0 \cdot P(\text{ruin}) + N \cdot P(\text{win}) = i \quad \Longrightarrow \quad P(\text{win}) = \frac{i}{N}. $$
따라서 공정한 게임에서 초기 자금 \(i\)로 \(N\)원을 달성할 확률은 \(i/N\)이다.
이토 미적분 기초 (Itô Calculus Basics)
결정론적 ODE \(dx = f(x)\,dt\)에 무작위 구동력을 더하면 \(dX = f(X)\,dt + \sigma(X)\,dW\)가 되고, 이것이 확률미분방정식(SDE)이다. 브라운 운동의 표본 경로는 어디서도 미분 불가능하므로 고전적인 Riemann-Stieltjes 적분으로는 \(\int f\,dW\)를 정의할 수 없다. 이토 미적분(Itô calculus)은 이 문제를 해결하기 위해 개발된 확률 적분 이론으로, 금융공학의 파생상품 가격 결정, 확률 제어(stochastic control), 필터링 이론(Kalman filter의 연속시간 확장) 등에 쓰인다.
Definition 25.8 (Itô Integral)
adapted process(적합 과정) \(f\)가 \(E\!\left[\int_0^t f(s)^2 \, ds\right] < \infty\)를 만족할 때,
Itô integral(이토 적분)은 왼쪽 끝점을 사용하는 Riemann sum의 \(L^2\) 극한으로 정의된다:
$$ \int_0^t f(s) \, dW(s) = \lim_{n \to \infty} \sum_{k=0}^{n-1} f(t_k)\bigl(W(t_{k+1}) - W(t_k)\bigr). $$
핵심 성질:
- Martingale 성질: \(E\!\left[\int_0^t f(s) \, dW(s)\right] = 0\).
- Itô isometry: \(E\!\left[\left(\int_0^t f(s) \, dW(s)\right)^{\!2}\right] = E\!\left[\int_0^t f(s)^2 \, ds\right]\).
Theorem 25.4 (Itô's Lemma)
\(f \in C^2(\mathbb{R})\)이고 \(W_t\)가 standard Brownian motion일 때:
$$ df(W_t) = f'(W_t) \, dW_t + \tfrac{1}{2} f''(W_t) \, dt. $$
더 일반적으로, Itô process \(X_t = X_0 + \int_0^t \mu(s) \, ds + \int_0^t \sigma(s) \, dW_s\)에 대해:
$$ df(X_t) = f'(X_t)\bigl(\mu \, dt + \sigma \, dW_t\bigr) + \tfrac{1}{2} f''(X_t) \, \sigma^2 \, dt. $$
\(\tfrac{1}{2} f''\) 항은 고전 미적분에는 없는 항이다. Brownian motion의 quadratic variation(이차변동) \(\langle W \rangle_t = t\)가 이 항을 만든다.
Example 25.8 (\(W_t^2\)의 Itô 미분)
\(f(x) = x^2\)으로 놓으면 \(f'(x) = 2x\), \(f''(x) = 2\)이다. Itô's Lemma에 의해:
$$ d(W_t^2) = 2W_t \, dW_t + \tfrac{1}{2} \cdot 2 \, dt = 2W_t \, dW_t + dt. $$
양변을 \([0, t]\)에서 적분하면:
$$ W_t^2 = 2\int_0^t W_s \, dW_s + t. $$
따라서 Itô 적분을 명시적으로 계산할 수 있다:
$$ \int_0^t W_s \, dW_s = \frac{W_t^2 - t}{2}. $$
고전 미적분에서는 \(\int x \, dx = x^2/2\)이지만, 확률 미적분에서는 \(-t/2\) 보정항이 추가된다.
SDE는 결정론적 ODE의 확률 버전이다. drift(추세) 항이 시스템의 평균적 경향을, diffusion(확산) 항이 무작위 변동의 크기를 나타낸다.
Definition 25.9 (Stochastic Differential Equation)
stochastic differential equation(확률미분방정식, SDE)은 다음과 같은 형태의 미분방정식이다:
$$ dX_t = \mu(X_t, t) \, dt + \sigma(X_t, t) \, dW_t. $$
여기서 \(\mu(X_t, t)\)는 drift(추세) 계수, \(\sigma(X_t, t)\)는 diffusion(확산) 계수이다. 적분형으로 표현하면:
$$ X_t = X_0 + \int_0^t \mu(X_s, s) \, ds + \int_0^t \sigma(X_s, s) \, dW_s. $$
Example 25.9 (Geometric Brownian Motion)
주가 모형에 널리 사용되는 geometric Brownian motion(기하 브라운 운동)은 다음 SDE를 따른다:
$$ dS_t = \mu S_t \, dt + \sigma S_t \, dW_t. $$
해를 구하기 위해 \(f(S) = \ln S\)에 Itô's Lemma를 적용한다. \(f'(S) = 1/S\), \(f''(S) = -1/S^2\)이므로:
$$ d(\ln S_t) = \frac{1}{S_t}(\mu S_t \, dt + \sigma S_t \, dW_t) + \frac{1}{2}\left(-\frac{1}{S_t^2}\right)\sigma^2 S_t^2 \, dt = \left(\mu - \frac{\sigma^2}{2}\right) dt + \sigma \, dW_t. $$
양변을 적분하면 \(\ln S_t - \ln S_0 = \left(\mu - \frac{\sigma^2}{2}\right)t + \sigma W_t\)이므로:
$$ S_t = S_0 \exp\!\left[\left(\mu - \frac{\sigma^2}{2}\right)t + \sigma W_t\right]. $$
이것이 Black-Scholes model(블랙-숄즈 모형)의 기초가 되는 주가 모형이다. drift 보정항 \(-\sigma^2/2\)는 Itô's Lemma에서 자연스럽게 나온다.
에르고딕 정리 (Ergodic Theorem)
실무에서 확률과정의 기대값을 알고 싶을 때, 동일한 시스템을 수천 개 복제하여 앙상블 평균(ensemble average)을 구하기는 어렵다. 대신 하나의 시스템을 오래 관측하여 시간 평균(time average)을 구한다. 에르고딕 정리는 "충분히 잘 섞이는" 확률과정에서 시간 평균이 앙상블 평균에 수렴함을 보장하며, Monte Carlo simulation과 MCMC의 이론적 근거가 된다.
Theorem 25.5 (Birkhoff's Ergodic Theorem)
stationary ergodic process(정상 에르고딕 과정) \(\{X_n\}\)에 대해, 시간 평균(time average)은 거의 확실하게 앙상블 평균(ensemble average)으로 수렴한다:
$$ \frac{1}{n}\sum_{k=0}^{n-1} X_k \xrightarrow{\text{a.s.}} E[X_0] \quad (n \to \infty). $$
이는 강대수의 법칙(Strong LLN)의 일반화이다. 강대수의 법칙은 i.i.d. 가정을 요구하지만, Birkhoff의 에르고딕 정리는 이를 정상성(stationarity)과 에르고딕성(ergodicity)으로 대체한다.
Example 25.10 (에르고딕 마르코프 연쇄의 시간 평균)
에르고딕 Markov chain(마르코프 연쇄) \(\{X_n\}\)이 stationary distribution(정상분포) \(\pi\)를 가지고, 상태 공간 위의 함수 \(g\)에 대해 Birkhoff의 에르고딕 정리를 적용하면:
$$ \frac{1}{n}\sum_{k=0}^{n-1} g(X_k) \xrightarrow{\text{a.s.}} \sum_{i} \pi_i \, g(i) \quad (n \to \infty). $$
특히, \(g = \mathbf{1}_{\{j\}}\) (상태 \(j\)의 indicator function)로 놓으면:
$$ \frac{1}{n}\sum_{k=0}^{n-1} \mathbf{1}_{\{X_k = j\}} \xrightarrow{\text{a.s.}} \pi_j. $$
즉, 상태 \(j\)에 머무는 시간의 비율은 정상분포 \(\pi_j\)로 수렴한다. Monte Carlo simulation(몬테카를로 시뮬레이션)이 작동하는 이론적 근거가 여기에 있다.
Sources: MIT 6.041SC (Lectures 1-25), MIT 18.650, Stanford CS229, Harvard Stat 110, Rice Mathematical Statistics
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Probability and Stochastic Processes (Aldous & Fill, Berkeley) — 무료 초안 PDF
- Karlin & Taylor, A First Course in Stochastic Processes — 고전적 입문서
- Ross, Introduction to Probability Models — 응용 확률과정 표준 교재
- Durrett, Probability: Theory and Examples — Ch 6-8: 마르팅게일, 마르코프 체인
- Øksendal, Stochastic Differential Equations — 확률미분방정식 표준 입문서
- Norris, Markov Chains — Cambridge, 마르코프 체인 전문서
- Lawler, Introduction to Stochastic Processes — 간결한 학부 수준 교재
Part IX — Optimization
최적화는 '최선의 선택'을 수학적으로 찾는 문제이다. 공학의 설계, 경제학의 자원배분, 기계학습의 모델 훈련이 모두 최적화 문제이다. 볼록 최적화는 전역 최적해를 보장하는 특별한 경우이다.
26. Convex Optimization
볼록 최적화의 기반은 볼록 집합과 볼록 함수이다.
볼록 문제에서는 모든 지역 최솟값(local minimum)이 곧 전역 최솟값(global minimum)이므로, 경사하강법 같은 단순한 알고리즘으로도 전역 최적해에 도달할 수 있다. 기계학습에서 SVM(support vector machine)의 쌍대 문제와 로지스틱 회귀의 손실함수 최소화, 제어 시스템에서 LQR(linear quadratic regulator)과 모델 예측 제어(MPC), 신호처리에서 압축 센싱(compressed sensing)과 빔포밍(beamforming), 통신에서 OFDM 부반송파 전력 할당, 구조 설계에서 최소 중량 최적화 등이 모두 볼록 최적화 문제로 정식화된다.
일반적인 비볼록 최적화 문제는 NP-hard일 수 있으나, 볼록 문제는 내부점 방법(interior-point method)으로 다항 시간에 풀 수 있다. 볼록 최적화는 "실용적으로 풀 수 있는 최적화 문제의 경계"를 규정하며, 비볼록 문제에서도 볼록 완화(convex relaxation)나 볼록-오목 절차(convex-concave procedure)의 형태로 하위 문제(subproblem)에 등장한다.
볼록 최적화는 "볼록 집합" 위에서 "볼록 함수"를 최소화하는 구조이다.
Definition 26.1 (Convex Set)
집합 \(C \subseteq \mathbb{R}^n\)이 convex(볼록)하다 함은, 모든 \(x, y \in C\)와 \(\theta \in [0,1]\)에 대해 다음이 성립하는 것을 말한다:
$$ \theta x + (1 - \theta) y \in C. $$
즉, \(C\) 내의 임의의 두 점을 잇는 선분이 전부 \(C\) 안에 포함된다.
Definition 26.2 (Important Convex Sets)
- Hyperplane: \(\{x : a^T x = b\}\). Halfspace: \(\{x : a^T x \leq b\}\).
- Polyhedron: \(\{x : Ax \leq b\}\) (유한개 halfspace의 교집합).
- Ellipsoid: \(\{x : (x - x_c)^T P^{-1} (x - x_c) \leq 1\}\), 여기서 \(P \succ 0\).
- Norm ball: 임의의 노름에 대해 \(\{x : \|x - x_c\| \leq r\}\).
- Positive semidefinite cone: \(\mathbb{S}^n_+ = \{X \in \mathbb{S}^n : X \succeq 0\}\).
볼록성은 교집합, 아핀 사상, 원근 함수를 거쳐도 유지된다.
볼록 함수는 그래프 위의 임의의 두 점을 잇는 선분이 항상 그래프 위에 놓이는 함수이다. 이 성질이 전역 최적해의 존재를 보장한다.
Definition 26.3 (Convex Function)
함수 \(f : \mathbb{R}^n \to \mathbb{R} \cup \{+\infty\}\)가 convex(볼록)하다 함은, \(\operatorname{dom} f\)가 convex(볼록)이고 모든 \(x, y \in \operatorname{dom} f\), \(\theta \in [0,1]\)에 대해 다음이 성립하는 것을 말한다:
$$ f(\theta x + (1-\theta) y) \leq \theta f(x) + (1-\theta) f(y). $$
동치 조건(두 번 미분 가능한 \(f\)의 경우): \(f\)가 convex(볼록)할 필요충분조건은 모든 \(x \in \operatorname{dom} f\)에서 \(\nabla^2 f(x) \succeq 0\)인 것이다.
Definition 26.4 (First- and Second-Order Conditions)
convex(볼록) 정의역 위에서 미분 가능한 \(f\)에 대해:
- First-order condition: \(f\)가 convex(볼록)할 필요충분조건은
$$ f(y) \geq f(x) + \nabla f(x)^T (y - x) \quad \forall\, x, y \in \operatorname{dom} f $$
인 것이다. (접선 초평면이 전역적 하한이 된다.)
- Second-order condition: \(f\)가 convex(볼록)할 필요충분조건은 모든 \(x\)에서 \(\nabla^2 f(x) \succeq 0\)인 것이다.
Convex Function: Criteria and Inequalities
Theorem 26.1 (Hessian Criterion for Convexity)
두 번 미분 가능한 함수 \(f: \mathbb{R}^n \to \mathbb{R}\)에 대해:
- \(f\)가 convex(볼록) \(\iff\) 모든 \(x \in \operatorname{dom} f\)에서 Hessian \(\nabla^2 f(x) \succeq 0\) (양반정치, positive semidefinite).
- \(f\)가 strictly convex(순볼록) \(\Leftarrow\) 모든 \(x\)에서 \(\nabla^2 f(x) \succ 0\) (양정치). 역은 일반적으로 성립하지 않는다 (\(f(x) = x^4\)는 순볼록이지만 \(f''(0) = 0\)).
- \(f\)가 strongly convex(강볼록) with parameter \(m > 0\) \(\iff\) \(\nabla^2 f(x) \succeq mI\) for all \(x\). 이 조건은 수렴 분석에서 중요하다.
Example 26.1 (Hessian을 이용한 볼록성 판정)
\(f(x_1, x_2) = x_1^2 + x_1 x_2 + x_2^2\)의 볼록성을 판정하자. Hessian은
$$ \nabla^2 f = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix}. $$
고유값은 \(\lambda_1 = 3\), \(\lambda_2 = 1\)이며 모두 양수이므로 \(\nabla^2 f \succ 0\)이다. 따라서 \(f\)는 순볼록이다. 실제로 strongly convex with \(m = 1\)이다.
반면, \(g(x_1, x_2) = x_1^2 - x_1 x_2 + x_2^2\)의 Hessian은
$$ \nabla^2 g = \begin{pmatrix} 2 & -1 \\ -1 & 2 \end{pmatrix} $$
이며, 고유값 \(3, 1 > 0\)이므로 이것도 순볼록이다.
Theorem 26.2 (Jensen's Inequality)
\(f\)가 convex(볼록) 함수이고 \(X\)가 확률변수이면,
$$ f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)], $$
단, \(\mathbb{E}[X] \in \operatorname{dom} f\)이다. \(f\)가 strictly convex(순볼록)이면 등호 조건은 \(X\)가 상수(a.s.)인 것이다. \(f\)가 concave(오목)이면 부등호가 뒤집힌다.
Example 26.2 (Jensen 부등식의 응용)
- AM-GM 부등식: \(f(x) = -\log x\)는 \(\mathbb{R}_{++}\)에서 convex(볼록)이다. 양수 \(a_1, \ldots, a_n\)에 대해 Jensen 부등식을 적용하면
$$ -\log\!\left(\frac{a_1 + \cdots + a_n}{n}\right) \leq \frac{-\log a_1 + \cdots + (-\log a_n)}{n}, $$
즉 \(\frac{a_1 + \cdots + a_n}{n} \geq (a_1 \cdots a_n)^{1/n}\) (산술-기하 평균 부등식).
- 분산의 비음수성: \(f(x) = x^2\)는 convex(볼록)이므로, \(\mathbb{E}[X^2] \geq (\mathbb{E}[X])^2\). 따라서 \(\operatorname{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 \geq 0\).
Example 26.3 (주요 Convex/Concave 함수 목록)
중요한 convex(볼록) 함수: \(e^{ax}\), \(\mathbb{R}_{++}\) 위에서 \(p \geq 1\) 또는 \(p \leq 0\)일 때 \(x^p\), 임의의 노름 \(\|x\|\), \(A \succeq 0\)일 때 \(x^T A x\), \(\mathbb{S}^n_{++}\) 위에서 \(\log\det(X^{-1})\). 중요한 concave(오목) 함수: \(\log x\), \(\sqrt{x}\), \(\mathbb{R}_{++}\) 위에서 \(0 \leq p \leq 1\)일 때 \(x^p\).
볼록 최적화 문제에서는 목적함수와 부등식 제약이 모두 볼록이고, 등식 제약이 아핀이다.
Definition 26.5 (Convex Optimization Problem)
Convex optimization(볼록 최적화) 문제(표준형)는 다음과 같다:
$$ \begin{aligned}
\operatorname{minimize} \quad & f_0(x) \\
\text{subject to} \quad & f_i(x) \leq 0, \quad i = 1, \ldots, m, \\
& a_j^T x = b_j, \quad j = 1, \ldots, p,
\end{aligned} $$
여기서 \(f_0, f_1, \ldots, f_m\)은 convex(볼록) 함수이고 등식 제약은 아핀이다. Convex(볼록) 문제의 모든 지역 최적해는 전역 최적해이다.
Definition 26.6 (Lagrangian and Dual Function)
Lagrangian은 다음과 같다:
$$ L(x, \lambda, \nu) = f_0(x) + \sum_{i=1}^m \lambda_i f_i(x) + \sum_{j=1}^p \nu_j (a_j^T x - b_j), $$
여기서 \(\lambda_i \geq 0\)이다. Lagrange dual function은
$$ g(\lambda, \nu) = \inf_x L(x, \lambda, \nu) $$
이다. 임의의 \(\lambda \geq 0\)과 임의의 \(\nu\)에 대해 \(g(\lambda, \nu) \leq p^*\) (최적 원시 값)이다. Dual function은 항상 concave(오목)이다.
쌍대 문제는 원래 문제에 대한 하한을 제공하며, 특정 조건 하에서 원래 문제와 동일한 최적값을 갖는다. 이 관계가 최적성 조건(KKT)과 알고리즘 설계의 기반이 된다.
Duality: Intuition and Strong Duality
Definition 26.7 (Lagrange Dual Problem)
Dual(쌍대) 문제는 다음과 같다:
$$ \begin{aligned}
\operatorname{maximize} \quad & g(\lambda, \nu) \\
\text{subject to} \quad & \lambda \geq 0.
\end{aligned} $$
최적 dual 값 \(d^*\)는 weak duality(약한 쌍대성)을 만족한다: \(d^* \leq p^*\). \(d^* = p^*\)이면 strong duality(강한 쌍대성)가 성립한다. Slater's condition 하에서 strong duality(강한 쌍대성)가 성립한다: 모든 \(i = 1, \ldots, m\)에 대해 \(f_i(x) < 0\)인 strictly feasible point \(x\)가 존재하면 된다.
쌍대성의 직관적 이해. Lagrangian \(L(x, \lambda, \nu)\)는 제약 조건 위반에 "벌금"을 매기는 구조로 이해할 수 있다. \(\lambda_i\)는 제약 \(f_i(x) \leq 0\)의 위반에 대한 단위 벌금(가격)이다. Dual function \(g(\lambda, \nu) = \inf_x L(x, \lambda, \nu)\)는 벌금 가격이 \((\lambda, \nu)\)로 고정되었을 때, 최적의 \(x\)가 달성하는 비용의 하한이다. Dual 문제는 이 하한을 가능한 한 높이는 벌금 가격을 찾는 것이다. 따라서 dual 문제의 최적값 \(d^*\)는 원시 최적값 \(p^*\)에 대한 최선의 하한이며, weak duality \(d^* \leq p^*\)는 항상 성립한다.
Strong duality와 Slater 조건. Weak duality만으로는 \(d^* < p^*\)(쌍대 갭)일 수 있다. Convex(볼록) 문제에서 Slater 조건이 성립하면, 즉 모든 부등식 제약을 순수하게(strictly) 만족하는 점이 존재하면, 강한 쌍대성 \(d^* = p^*\)가 보장된다. 아핀 부등식 제약 \(f_i(x) = a_i^T x - b_i\)에 대해서는 순수 실행 가능성 대신 단순 실행 가능성으로 충분하다. LP, QP, SDP 등 대부분의 실용적 convex(볼록) 문제에서 Slater 조건은 성립한다.
Theorem 26.3 (KKT Conditions)
Strong duality(강한 쌍대성) 하에서, primal-dual 최적점 \((x^*, \lambda^*, \nu^*)\)는
Karush–Kuhn–Tucker (KKT 조건)을 만족한다:
- Primal feasibility: \(f_i(x^*) \leq 0\), \(a_j^T x^* = b_j\).
- Dual feasibility: \(\lambda_i^* \geq 0\).
- Complementary slackness: 모든 \(i\)에 대해 \(\lambda_i^* f_i(x^*) = 0\).
- Stationarity: \(\nabla f_0(x^*) + \sum_{i} \lambda_i^* \nabla f_i(x^*) + \sum_{j} \nu_j^* a_j = 0\).
Strong duality(강한 쌍대성)를 갖는 convex(볼록) 문제에서 KKT conditions(KKT 조건)은 최적성의 필요충분조건이다.
KKT Conditions: Worked Examples
다음 예제들에서 등식 제약만 있는 경우, 부등식 제약이 있는 경우, 통신공학의 water-filling 문제 순서로 KKT 조건을 적용한다.
Example 26.4 (KKT: 등식 제약이 있는 이차 최소화)
다음 문제를 KKT 조건으로 풀자:
$$ \operatorname{minimize} \quad x_1^2 + x_2^2 \qquad \text{subject to} \quad x_1 + x_2 = 1. $$
Lagrangian: \(L(x, \nu) = x_1^2 + x_2^2 + \nu(x_1 + x_2 - 1)\). Stationarity 조건:
$$ \frac{\partial L}{\partial x_1} = 2x_1 + \nu = 0, \qquad \frac{\partial L}{\partial x_2} = 2x_2 + \nu = 0. $$
따라서 \(x_1 = x_2 = -\nu/2\). 등식 제약 \(x_1 + x_2 = 1\)에 대입하면 \(-\nu = 1\), \(\nu = -1\). 최적해: \(x^* = (1/2,\; 1/2)\), 최적값 \(f^* = 1/2\).
Example 26.5 (KKT: 부등식 제약이 있는 문제)
다음 문제를 풀자:
$$ \operatorname{minimize} \quad x^2 \qquad \text{subject to} \quad x \geq 2. $$
표준형으로 바꾸면 \(f_1(x) = 2 - x \leq 0\). KKT 조건:
- Primal feasibility: \(x \geq 2\).
- Dual feasibility: \(\lambda \geq 0\).
- Complementary slackness: \(\lambda(2 - x) = 0\).
- Stationarity: \(2x - \lambda = 0\), 즉 \(\lambda = 2x\).
\(\lambda = 2x \geq 0\)이므로 \(x \geq 0\). Complementary slackness에서 \(\lambda = 0\) 또는 \(x = 2\)이다.
- \(\lambda = 0\)이면 stationarity에서 \(x = 0\)인데, \(x \geq 2\)에 모순.
- \(x = 2\)이면 \(\lambda = 4 > 0\)으로 모든 조건 만족.
따라서 \(x^* = 2\), \(\lambda^* = 4\), \(f^* = 4\).
Example 26.6 (KKT: Water-filling 문제)
통신 이론의 전력 할당 문제(water-filling)를 생각하자:
$$ \operatorname{minimize} \quad -\sum_{i=1}^n \log(\alpha_i + x_i) \qquad \text{subject to} \quad x_i \geq 0,\; \sum_{i=1}^n x_i = P, $$
여기서 \(\alpha_i > 0\)은 채널 이득, \(P > 0\)은 총 전력 예산이다. KKT 조건을 세우자. Lagrangian:
$$ L = -\sum_i \log(\alpha_i + x_i) - \sum_i \lambda_i x_i + \nu\!\left(\sum_i x_i - P\right). $$
Stationarity: \(-\frac{1}{\alpha_i + x_i} - \lambda_i + \nu = 0\), 즉 \(\frac{1}{\alpha_i + x_i} = \nu - \lambda_i\). Complementary slackness: \(\lambda_i x_i = 0\).
- \(x_i > 0\)이면 \(\lambda_i = 0\)이므로 \(\alpha_i + x_i = 1/\nu\), 즉 \(x_i = 1/\nu - \alpha_i\).
- \(x_i = 0\)이면 \(1/(\alpha_i) \leq \nu\), 즉 \(\alpha_i \geq 1/\nu\).
따라서 최적해는 \(x_i^* = \max(1/\nu - \alpha_i,\; 0)\)이며, \(\nu\)는 \(\sum_i x_i^* = P\)로 결정된다. 이것이 "물 채우기(water-filling)" 해법이다: 수위 \(1/\nu\)까지 물을 채우되, 바닥 높이 \(\alpha_i\)가 수위보다 높은 채널에는 전력을 할당하지 않는다.
Example 26.7 (Convex 문제로서의 최소제곱법)
\(\|Ax - b\|_2^2\)를 최소화하는 것은 제약 조건 없는 convex(볼록) 문제이다 (\(\nabla^2 f = 2A^TA \succeq 0\)). 최적성 조건 \(\nabla f = 2A^T(Ax - b) = 0\)으로부터 정규방정식 \(A^TAx = A^Tb\)를 얻는다. \(\ell_1\) 벌칙항 \(\|x\|_1\)을 추가하면 Lasso가 되며, 여전히 convex(볼록)이지만 모든 곳에서 미분 가능하지는 않다.
경사하강법, Newton 방법, 내부점 방법은 각각 정확도와 계산 비용의 절충이 다르다.
Optimization Algorithms
경사하강법(gradient descent)은 1차 도함수만 사용하여 대규모 문제에 확장 가능하다. Newton 방법은 2차 도함수(Hessian)를 활용하여 적은 반복 횟수로 고정밀 해를 얻는다. 내부점 방법(interior-point method)은 부등식 제약을 log-barrier로 처리하여 LP, QP, SDP 등에 다항 시간 복잡도를 보장한다.
Definition 26.8 (Descent Method)
하강법(descent method)은 다음 반복으로 \(f\)를 최소화한다:
$$ x^{(k+1)} = x^{(k)} + t_k \Delta x^{(k)}, $$
여기서 \(\Delta x^{(k)}\)는 탐색 방향(search direction)이고 \(t_k > 0\)은 스텝 크기(step size)이다. 하강법은 \(f(x^{(k+1)}) < f(x^{(k)})\)를 보장해야 한다. 하강 조건은 \(\nabla f(x^{(k)})^T \Delta x^{(k)} < 0\)이다.
Definition 26.9 (Gradient Descent)
경사하강법(gradient descent)은 탐색 방향을 음의 기울기로 택한다:
$$ x^{(k+1)} = x^{(k)} - t_k \nabla f(x^{(k)}). $$
스텝 크기 선택 방법:
- 고정 스텝 크기: \(t_k = t\) (상수). \(f\)가 Lipschitz 연속 기울기를 가지면 (\(\|\nabla f(x) - \nabla f(y)\| \leq L\|x - y\|\)), \(t \leq 1/L\)로 택하면 수렴이 보장된다.
- Backtracking line search: 파라미터 \(\alpha \in (0, 0.5)\), \(\beta \in (0, 1)\). \(t = 1\)에서 시작하여, Armijo 조건 \(f(x - t\nabla f) \leq f(x) - \alpha t \|\nabla f\|^2\)가 만족될 때까지 \(t \leftarrow \beta t\)로 축소한다.
- Exact line search: \(t_k = \arg\min_{t \geq 0} f(x^{(k)} - t \nabla f(x^{(k)}))\). 실제로는 거의 사용하지 않는다.
Theorem 26.4 (Gradient Descent Convergence)
\(f\)가 convex(볼록)이고, \(\nabla f\)가 Lipschitz 상수 \(L\)을 가지며, 고정 스텝 크기 \(t = 1/L\)을 사용하면:
$$ f(x^{(k)}) - f^* \leq \frac{L \|x^{(0)} - x^*\|^2}{2k}. $$
즉, \(\epsilon\)-최적해를 얻으려면 \(O(1/\epsilon)\)회 반복이 필요하다 (sublinear convergence).
추가로 \(f\)가 strongly convex with parameter \(m > 0\)이면:
$$ f(x^{(k)}) - f^* \leq \frac{L}{2} \left(1 - \frac{m}{L}\right)^k \|x^{(0)} - x^*\|^2. $$
이 경우 수렴은
선형(linear)(기하급수적)이며, 수렴률은 조건수(condition number) \(\kappa = L/m\)이 결정한다. \(\kappa\)가 크면 수렴이 느리다.
Example 26.8 (이차 함수에 대한 경사하강법)
\(f(x) = \frac{1}{2} x^T Q x - b^T x\)에서 \(Q \succ 0\)이라 하자. \(\nabla f(x) = Qx - b\)이므로 경사하강법은
$$ x^{(k+1)} = x^{(k)} - t(Qx^{(k)} - b). $$
최적해는 \(x^* = Q^{-1}b\)이다. \(Q\)의 고유값이 \(0 < m = \lambda_{\min} \leq \lambda_{\max} = L\)이면, 최적 스텝 크기 \(t = 2/(m+L)\)에서 수렴률은
$$ \|x^{(k)} - x^*\| \leq \left(\frac{\kappa - 1}{\kappa + 1}\right)^k \|x^{(0)} - x^*\|, \quad \kappa = L/m. $$
\(\kappa = 100\)이면 한 반복당 오차가 약 \(0.98\)배로 줄어, 정밀도 \(10^{-6}\)에 도달하려면 약 690회 반복이 필요하다.
Definition 26.10 (Newton's Method)
Newton 방법은 탐색 방향으로
Newton step을 사용한다:
$$ \Delta x_{\text{nt}} = -[\nabla^2 f(x)]^{-1} \nabla f(x). $$
반복:
$$ x^{(k+1)} = x^{(k)} + t_k \Delta x_{\text{nt}}^{(k)}, $$
여기서 \(t_k\)는 backtracking line search로 결정한다. Newton step은 \(f\)를 \(x^{(k)}\)에서 이차 근사한 뒤 그 근사의 최솟값으로 이동하는 것에 해당한다:
$$ \hat{f}(x) = f(x^{(k)}) + \nabla f(x^{(k)})^T (x - x^{(k)}) + \frac{1}{2}(x - x^{(k)})^T \nabla^2 f(x^{(k)})(x - x^{(k)}). $$
Newton 방법의 주요 성질:
- 아핀 불변성: 변수 변환 \(x = Ty\)에 대해 Newton step은 불변이다. 경사하강법은 이 성질이 없어 좌표계 선택에 민감하다.
- 수렴 단계: (1) 감쇠(damped) 단계: \(f^*\)에서 멀 때, backtracking을 통해 \(f\)가 일정량씩 감소한다. (2) 이차 수렴(quadratically convergent) 단계: \(f^*\) 근처에서 \(t_k = 1\)이 채택되며 오차가 매 반복마다 제곱으로 줄어든다.
- 비용: 각 반복에서 Hessian 계산 \(O(n^2)\)과 선형계 풀기 \(O(n^3)\)이 필요하다.
Theorem 26.5 (Newton's Method: Quadratic Convergence)
\(f\)가 self-concordant이거나, \(\nabla^2 f\)가 Lipschitz 연속인 strongly convex 함수이면, Newton 방법은 \(x^*\) 충분히 근처에서 이차 수렴(quadratic convergence)을 달성한다:
$$ \|x^{(k+1)} - x^*\| \leq C \|x^{(k)} - x^*\|^2 $$
for some \(C > 0\). 실용적으로, 이차 수렴 단계에 진입하면 5--6회 반복 내에 기계 정밀도에 도달한다.
Example 26.9 (Newton 방법 vs. 경사하강법 비교)
\(f(x_1, x_2) = 10x_1^2 + x_2^2\)를 최소화하자. 조건수 \(\kappa = 20/2 = 10\).
- 경사하강법: 등고선이 납작한 타원이므로, 최적해 \((0,0)\)을 향해 지그재그로 진행한다. 수렴률 \(\approx (\kappa-1)/(\kappa+1) = 9/11 \approx 0.82\). 정밀도 \(10^{-6}\)까지 약 70회 반복.
- Newton 방법: Hessian \(\nabla^2 f = \operatorname{diag}(20, 2)\)가 상수이므로, Newton step은 \(-[\nabla^2 f]^{-1}\nabla f = -(x_1, x_2)\). 따라서 첫 번째 반복에서 정확히 \(x^* = (0, 0)\)에 도달한다 (이차 함수이므로 1회 반복으로 종료).
이 예는 Newton 방법의 아핀 불변성과 이차 함수에 대한 유한 종료 성질을 보여준다.
Example 26.10 (로지스틱 회귀의 Newton 방법)
로지스틱 회귀의 negative log-likelihood를 최소화하자:
$$ f(\beta) = -\sum_{i=1}^N \bigl[ y_i \log \sigma(x_i^T \beta) + (1-y_i) \log(1-\sigma(x_i^T \beta)) \bigr], $$
여기서 \(\sigma(z) = 1/(1+e^{-z})\)이다. Gradient와 Hessian은:
$$ \nabla f = X^T (\sigma(X\beta) - y), \qquad \nabla^2 f = X^T W X, $$
여기서 \(W = \operatorname{diag}(\sigma_i(1-\sigma_i))\), \(\sigma_i = \sigma(x_i^T \beta)\)이다. \(W \succ 0\)이므로 \(\nabla^2 f \succeq 0\)이고, \(X\)가 full column rank이면 \(\nabla^2 f \succ 0\)이다. \(f\)는 (strictly) convex(볼록)이며, Newton 방법은 이차 수렴한다. 통계학에서는 이 알고리즘을 IRLS(iteratively reweighted least squares)라 부른다.
Example 26.11 (Log-barrier를 이용한 부등식 제약 처리)
부등식 제약이 있는 문제
$$ \operatorname{minimize} \quad c^T x \qquad \text{subject to} \quad a_i^T x \leq b_i,\; i = 1, \ldots, m $$
를 barrier method로 풀 수 있다. Logarithmic barrier를 도입하면:
$$ \operatorname{minimize} \quad t \cdot c^T x - \sum_{i=1}^m \log(b_i - a_i^T x). $$
이 비제약 문제를 Newton 방법으로 풀고, 파라미터 \(t\)를 점진적으로 증가시키면(\(t \to \infty\)), 해가 원래 문제의 최적해에 수렴한다. 쌍대 갭은 \(m/t\)로 상한이 잡히므로, 정밀도 \(\epsilon\)을 원하면 \(t \geq m/\epsilon\)으로 설정한다.
Example 26.12 (Convex 판정 + KKT 종합)
포트폴리오 최적화 문제를 생각하자. \(n\)개 자산의 수익률 평균 \(\mu \in \mathbb{R}^n\), 공분산 행렬 \(\Sigma \succ 0\), 투자 비중 \(w \in \mathbb{R}^n\)에 대해:
$$ \operatorname{minimize} \quad w^T \Sigma w \qquad \text{subject to} \quad \mu^T w \geq r_{\min},\; \mathbf{1}^T w = 1,\; w \geq 0, $$
여기서 \(r_{\min}\)은 최소 기대 수익률이다.
- 볼록성 확인: 목적함수의 Hessian은 \(2\Sigma \succ 0\)이므로 strongly convex이다. 제약 조건은 모두 아핀이므로 볼록 집합이다.
- Slater 조건: \(w = \mathbf{1}/n\)이 순수 실행 가능점이면(모든 성분이 양수이고, \(\mu^T(\mathbf{1}/n) > r_{\min}\)이면) strong duality가 성립한다.
- KKT 조건 적용: Lagrangian을 세우고 stationarity를 풀면 \(w^* = \Sigma^{-1}(\lambda^* \mu + \nu^* \mathbf{1}) / (2)\)의 형태를 얻으며, 이것이 Markowitz의 mean-variance 최적 포트폴리오이다.
Example 26.13 (경사하강법 수렴 비교: Strongly Convex vs. Non-Strongly Convex)
두 함수를 비교하자:
- \(f_1(x) = x^2\): strongly convex with \(m = 2\), \(L = 2\), \(\kappa = 1\). 고정 스텝 \(t = 1/2\)로 경사하강법을 적용하면 \(x^{(k+1)} = x^{(k)} - x^{(k)} = 0\), 즉 1회 반복으로 수렴.
- \(f_2(x) = |x|\): convex이지만 \(x = 0\)에서 미분 불가능. 경사하강법을 직접 적용할 수 없으며, 대신 subgradient method를 사용한다. 수렴률은 \(O(1/\sqrt{k})\)로, 경사하강법보다 느리다.
이 예는 목적함수의 매끄러움(smoothness)과 강볼록성이 수렴 속도에 미치는 영향을 보여준다.
Algorithm Summary
볼록 최적화에서 사용하는 주요 알고리즘의 특성을 비교하면 다음과 같다:
- 경사하강법: 구현이 간단하고 메모리 효율적이다. 수렴은 \(O(1/k)\)(일반 볼록) 또는 \(O((1-m/L)^k)\)(강볼록). 대규모 문제에 적합하다.
- Newton 방법: 이차 수렴으로 반복 수가 적다. 각 반복에서 Hessian 역행렬(또는 선형계 풀기) \(O(n^3)\) 비용. 중소 규모 문제에 적합하다.
- Interior-point method: 부등식 제약을 log-barrier로 처리. Newton 방법을 내부적으로 사용. LP, QP, SDP에서 다항 시간 복잡도를 보장한다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
27. Linear Programming
선형계획법은 볼록 최적화의 가장 기본적인 특수 경우이다. 목적함수와 제약 조건이 모두 선형이라는 단순한 구조이지만, 자원 배분, 생산 계획, 네트워크 흐름 등 응용 범위가 넓다. 심플렉스 방법과 쌍대성 이론은 일반 최적화 이론의 발전에도 큰 영향을 주었다.
선형계획법(LP)은 2차 세계대전 중 군사 물류 최적화를 위해 George Dantzig가 심플렉스 방법을 개발하면서 실용적인 도구가 되었다. 오늘날 LP는 항공사 승무원 스케줄링, 석유 정제 공정의 혼합 비율 결정, 택배 물류의 차량 경로 최적화, 전력 시스템의 경제급전(economic dispatch), 통신 네트워크의 최대 유량(maximum flow) 계산 등 산업 전반에 걸쳐 쓰인다. 미국 항공사들은 LP 기반 스케줄링으로 연간 수십억 달러의 비용을 절감한다.
LP의 실행 가능 영역은 다면체(polyhedron)이다. 선형 목적함수는 반드시 다면체의 꼭짓점(vertex)에서 최적값을 달성하므로, 연속적인 무한 차원 탐색 문제가 유한 개의 꼭짓점을 조사하는 조합적 문제로 환원된다. 심플렉스 방법은 꼭짓점에서 인접 꼭짓점으로 이동하며 목적함수를 개선하는 전략이다. 최악의 경우 지수적 복잡도를 가지지만, 실전에서는 제약 조건 수에 비례하는 반복 횟수로 종료한다.
LP의 표준형은 등식 제약과 비음수 조건으로 구성된다. 부등식 형태의 제약은 슬랙 변수(slack variable)를 도입하면 표준형으로 변환할 수 있다.
Definition 27.1 (Linear Program)
표준형의 linear program(LP, 선형계획법)은 다음과 같다:
$$ \begin{aligned}
\operatorname{minimize} \quad & c^T x \\
\text{subject to} \quad & Ax = b, \\
& x \geq 0,
\end{aligned} $$
여기서 \(c \in \mathbb{R}^n\), \(A \in \mathbb{R}^{m \times n}\), \(b \in \mathbb{R}^m\)이다. 실행 가능 영역은 다면체이다. 최적해가 존재하면, 실행 가능 다면체의 꼭짓점(극점)에서 달성된다.
LP의 실행 가능 영역이 다면체이므로, 최적해는 반드시 다면체의 꼭짓점에서 얻어진다. 이 꼭짓점에 대응하는 대수적 객체가 기본 실행 가능해(BFS)이다.
Definition 27.2 (Basic Feasible Solution)
Basic feasible solution(BFS, 기본 실행 가능해)은 \(A\)의 \(m\)개 선형 독립인 열을 선택하여(기저 \(B\)), \(x_B = A_B^{-1}b\) (기본 변수)로, \(x_N = 0\) (비기본 변수)으로 설정하며, \(x_B \geq 0\)을 만족하는 해이다. BFS는 실행 가능 다면체의 꼭짓점에 대응한다.
Definition 27.3 (Simplex Method)
Simplex method(심플렉스 방법)(Dantzig)는 실행 가능 다면체의 변을 따라 꼭짓점에서 꼭짓점으로 이동하며, 각 단계에서 목적함수를 감소시킨다:
- BFS에서 시작한다.
- 축소 비용 \(\bar{c}_j = c_j - c_B^T A_B^{-1} A_j\)를 계산한다. 모든 \(\bar{c}_j \geq 0\)이면 현재 BFS가 최적이다.
- 그렇지 않으면, 진입 변수(\(\bar{c}_j < 0\)인 어떤 \(j\))를 선택하고, 최소 비율 검정으로 이탈 변수를 찾은 후 피벗한다.
심플렉스 방법은 최악의 경우 지수적 복잡도를 갖지만 실제로는 효율적이다.
모든 LP에는 쌍대(dual) 문제가 존재한다. 쌍대 문제는 원시 문제의 최적값에 대한 하한(최대화 문제에서는 상한)을 제공하며, 쌍대 변수는 각 제약 조건의 경제적 가치를 나타내는 그림자 가격(shadow price)으로 해석된다.
Definition 27.4 (LP Dual)
표준형 LP의 dual(쌍대) 문제는 다음과 같다:
$$ \begin{aligned}
\operatorname{maximize} \quad & b^T y \\
\text{subject to} \quad & A^T y \leq c.
\end{aligned} $$
Theorem 27.1 (LP Duality)
- Weak duality(약한 쌍대성): 모든 실행 가능한 \(x, y\)에 대해 \(b^T y \leq c^T x\).
- Strong duality(강한 쌍대성): 원시 또는 쌍대 중 하나가 유한 최적값을 가지면, 둘 다 유한 최적값을 가지며 그 최적값은 같다: \(c^T x^* = b^T y^*\).
상보 이완(complementary slackness) 조건은 원시 최적해와 쌍대 최적해 사이의 관계를 드러낸다. 한쪽 해를 알면 다른 쪽 해를 효율적으로 구할 수 있다.
Theorem 27.2 (Complementary Slackness)
Primal-feasible \(x^*\)와 dual-feasible \(y^*\)가 동시에 최적일 필요충분조건은 각 \(j\)에 대해 다음이 성립하는 것이다:
$$ x_j^* (c_j - (A^T y^*)_j) = 0. $$
원시 변수가 0이거나 대응하는 쌍대 제약이 등호로 성립하거나(또는 둘 다) 해야 한다.
Theorem 27.3 (Fundamental Theorem of LP)
LP가 최적해를 가지면, basic feasible solution인 최적해가 존재한다.
Example 27.1 (Simplex Method — 2변수 LP)
다음 LP를 심플렉스 방법으로 풀자:
$$ \begin{aligned}
\operatorname{maximize} \quad & 5x_1 + 4x_2 \\
\text{subject to} \quad & 6x_1 + 4x_2 \leq 24, \\
& x_1 + 2x_2 \leq 6, \\
& x_1, x_2 \geq 0.
\end{aligned} $$
Step 1. 표준형 변환.
Slack variable(슬랙 변수) \(s_1, s_2 \geq 0\)을 도입하고, 최대화를 최소화로 바꾸면:
$$ \begin{aligned}
\operatorname{minimize} \quad & -5x_1 - 4x_2 \\
\text{subject to} \quad & 6x_1 + 4x_2 + s_1 = 24, \\
& x_1 + 2x_2 + s_2 = 6, \\
& x_1, x_2, s_1, s_2 \geq 0.
\end{aligned} $$
Step 2. 초기 BFS.
기저(basis) \(B = \{s_1, s_2\}\), 비기본 변수 \(x_1 = x_2 = 0\). 기본 변수: \(s_1 = 24\), \(s_2 = 6\). 목적함수값 \(z = 0\).
초기 심플렉스 타블로:
$$ \begin{array}{c|cccc|c}
& x_1 & x_2 & s_1 & s_2 & \text{RHS} \\ \hline
s_1 & 6 & 4 & 1 & 0 & 24 \\
s_2 & 1 & 2 & 0 & 1 & 6 \\ \hline
-z & -5 & -4 & 0 & 0 & 0
\end{array} $$
Step 3. 반복 1 — 진입 변수 선택.
축소 비용(reduced cost): \(\bar{c}_{x_1} = -5\), \(\bar{c}_{x_2} = -4\). 가장 음수인 \(\bar{c}_{x_1} = -5\)이므로 \(x_1\)이 진입 변수(entering variable).
Step 4. 최소 비율 검정(minimum ratio test) 및 피벗.
$$ \frac{24}{6} = 4, \quad \frac{6}{1} = 6. $$
최솟값 4는 \(s_1\) 행에서 달성 → \(s_1\)이 이탈 변수(leaving variable). 피벗 원소: 6.
\(s_1\) 행을 6으로 나누고, \(s_2\) 행과 목적 행에서 소거하면:
$$ \begin{array}{c|cccc|c}
& x_1 & x_2 & s_1 & s_2 & \text{RHS} \\ \hline
x_1 & 1 & \frac{2}{3} & \frac{1}{6} & 0 & 4 \\
s_2 & 0 & \frac{4}{3} & -\frac{1}{6} & 1 & 2 \\ \hline
-z & 0 & -\frac{2}{3} & \frac{5}{6} & 0 & 20
\end{array} $$
현재 BFS: \(x_1 = 4\), \(x_2 = 0\), \(s_1 = 0\), \(s_2 = 2\), \(z = 20\).
Step 5. 반복 2 — 진입 및 이탈 변수.
축소 비용: \(\bar{c}_{x_2} = -\frac{2}{3} < 0\) → \(x_2\)가 진입 변수.
최소 비율 검정:
$$ \frac{4}{2/3} = 6, \quad \frac{2}{4/3} = \frac{3}{2}. $$
최솟값 \(\frac{3}{2}\)은 \(s_2\) 행 → \(s_2\)가 이탈 변수. 피벗 원소: \(\frac{4}{3}\).
\(s_2\) 행을 \(\frac{4}{3}\)으로 나누고 소거:
$$ \begin{array}{c|cccc|c}
& x_1 & x_2 & s_1 & s_2 & \text{RHS} \\ \hline
x_1 & 1 & 0 & \frac{1}{4} & -\frac{1}{2} & 3 \\
x_2 & 0 & 1 & -\frac{1}{8} & \frac{3}{4} & \frac{3}{2} \\ \hline
-z & 0 & 0 & \frac{3}{4} & \frac{1}{2} & 21
\end{array} $$
Step 6. 최적성 판정.
모든 축소 비용이 \(\geq 0\): \(\bar{c}_{s_1} = \frac{3}{4}\), \(\bar{c}_{s_2} = \frac{1}{2}\). 따라서 현재 BFS가 최적이다:
$$ \boxed{x_1^* = 3, \quad x_2^* = \frac{3}{2}, \quad z^* = 5 \cdot 3 + 4 \cdot \frac{3}{2} = 21.} $$
Example 27.2 (Dual LP and Shadow Prices)
Example 27.1의 원시(primal) 문제로부터 쌍대(dual) 문제를 구성하자. 원시 문제를 부등식 형태로 쓰면:
$$ \begin{aligned}
\operatorname{maximize} \quad & 5x_1 + 4x_2 \\
\text{subject to} \quad & 6x_1 + 4x_2 \leq 24, \\
& x_1 + 2x_2 \leq 6, \\
& x_1, x_2 \geq 0.
\end{aligned} $$
이 문제의 쌍대는:
$$ \begin{aligned}
\operatorname{minimize} \quad & 24y_1 + 6y_2 \\
\text{subject to} \quad & 6y_1 + y_2 \geq 5, \\
& 4y_1 + 2y_2 \geq 4, \\
& y_1, y_2 \geq 0.
\end{aligned} $$
상보 이완(complementary slackness)으로 쌍대해 결정.
원시 최적해에서 \(x_1^* = 3 > 0\), \(x_2^* = \frac{3}{2} > 0\)이므로, 상보 이완 조건에 따라 대응하는 쌍대 제약이 모두 등호(active)로 성립해야 한다:
$$ \begin{aligned}
6y_1 + y_2 &= 5, \\
4y_1 + 2y_2 &= 4.
\end{aligned} $$
첫 번째 식에서 \(y_2 = 5 - 6y_1\)을 두 번째에 대입하면:
$$ 4y_1 + 2(5 - 6y_1) = 4 \implies 4y_1 + 10 - 12y_1 = 4 \implies -8y_1 = -6 \implies y_1 = \frac{3}{4}. $$
따라서 \(y_2 = 5 - 6 \cdot \frac{3}{4} = 5 - \frac{9}{2} = \frac{1}{2}\).
강한 쌍대성(strong duality) 검증.
$$ \text{Dual objective} = 24 \cdot \frac{3}{4} + 6 \cdot \frac{1}{2} = 18 + 3 = 21 = z^*. $$
원시와 쌍대의 최적값이 일치하므로 강한 쌍대성이 성립한다.
그림자 가격(shadow price) 해석.
쌍대 변수 \(y_i^*\)는 \(i\)번째 제약의 우변(RHS)을 한 단위 증가시킬 때 최적값의 변화율이다:
- \(y_1^* = \frac{3}{4}\): 첫 번째 제약 \(6x_1 + 4x_2 \leq 24\)에서 RHS를 24 → 25로 늘리면, 최적값이 약 \(\frac{3}{4}\)만큼 증가한다. 이 자원의 한 단위 가치가 \(\frac{3}{4}\)이다.
- \(y_2^* = \frac{1}{2}\): 두 번째 제약 \(x_1 + 2x_2 \leq 6\)에서 RHS를 6 → 7로 늘리면, 최적값이 약 \(\frac{1}{2}\)만큼 증가한다.
또한 심플렉스 최종 타블로의 목적 행에서 슬랙 변수 \(s_1, s_2\)의 축소 비용이 정확히 \(\frac{3}{4}, \frac{1}{2}\)로 쌍대 변수의 값과 일치함을 확인할 수 있다.
Example 27.3 (Sensitivity Analysis)
Example 27.1의 최적 기저 \(B = \{x_1, x_2\}\)를 유지하면서 RHS 및 목적 계수의 변동 허용 범위를 구한다.
(a) RHS 민감도: \(b_1 = 24\)의 허용 범위.
현재 기저 \(B\)에 대응하는 열은 \(A_B = \begin{pmatrix} 6 & 4 \\ 1 & 2 \end{pmatrix}\)이다. 역행렬:
$$ A_B^{-1} = \frac{1}{8}\begin{pmatrix} 2 & -4 \\ -1 & 6 \end{pmatrix} = \begin{pmatrix} \frac{1}{4} & -\frac{1}{2} \\ -\frac{1}{8} & \frac{3}{4} \end{pmatrix}. $$
\(b_1\)을 \(24 + \Delta\)로 변경하면 기본 변수값이:
$$ x_B = A_B^{-1} \begin{pmatrix} 24 + \Delta \\ 6 \end{pmatrix} = \begin{pmatrix} \frac{1}{4}(24+\Delta) - \frac{1}{2} \cdot 6 \\ -\frac{1}{8}(24+\Delta) + \frac{3}{4} \cdot 6 \end{pmatrix} = \begin{pmatrix} 3 + \frac{\Delta}{4} \\ \frac{3}{2} - \frac{\Delta}{8} \end{pmatrix}. $$
BFS 조건 \(x_B \geq 0\)을 만족하려면:
$$ 3 + \frac{\Delta}{4} \geq 0 \implies \Delta \geq -12, \qquad \frac{3}{2} - \frac{\Delta}{8} \geq 0 \implies \Delta \leq 12. $$
따라서 \(b_1 \in [12, 36]\) 범위에서 현재 기저가 유지되며, 이 범위 내에서 그림자 가격 \(y_1^* = \frac{3}{4}\)가 유효하다.
(b) 목적 계수 민감도: \(c_1 = 5\)의 허용 범위.
\(c_1\)을 \(5 + \delta\)로 변경하면, 비기본 변수의 축소 비용이 변한다. 현재 \(c_B = (5+\delta, 4)^T\)이고, 비기본 변수 \(s_1, s_2\)에 대해:
$$ \bar{c}_{s_1} = 0 - c_B^T A_B^{-1} a_{s_1} = -(5+\delta, 4) \begin{pmatrix} \frac{1}{4} \\ -\frac{1}{8} \end{pmatrix} \cdot (-1) $$
부호 규약에 따라 최대화 문제의 축소 비용을 정리하면:
$$ \bar{c}_{s_1} = c_B^T A_B^{-1} e_1 = (5+\delta) \cdot \frac{1}{4} + 4 \cdot \bigl(-\frac{1}{8}\bigr) = \frac{5+\delta}{4} - \frac{1}{2} = \frac{3+\delta}{4}. $$
$$ \bar{c}_{s_2} = (5+\delta) \cdot \bigl(-\frac{1}{2}\bigr) + 4 \cdot \frac{3}{4} = -\frac{5+\delta}{2} + 3 = \frac{1-\delta}{2}. $$
현재 기저의 최적성 조건 \(\bar{c}_{s_1} \geq 0\), \(\bar{c}_{s_2} \geq 0\)에서:
$$ \frac{3+\delta}{4} \geq 0 \implies \delta \geq -3, \qquad \frac{1-\delta}{2} \geq 0 \implies \delta \leq 1. $$
즉 \(c_1 \in [2, 6]\) 범위에서 현재 기저(따라서 최적해 \(x^* = (3, \frac{3}{2})\))가 유지된다. 이 범위를 벗어나면 다른 꼭짓점이 최적이 된다.
Sources: Boyd & Vandenberghe, Convex Optimization (Stanford EE364A/B), MIT 6.251, Carnegie Mellon 10-725
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
Part X — Numerical & Computational Methods
수치해석은 '정확한 해를 구할 수 없을 때 어떻게 할 것인가'에 답하는 분야이다. 대부분의 실제 문제는 닫힌 형태의 해가 없다. 수치해석은 근사해를 효율적으로, 그리고 오차를 통제하면서 구하는 방법을 연구한다.
28. Numerical Analysis
수치해석의 출발점은 컴퓨터가 실수를 유한 자릿수로 표현한다는 사실이다. 부동소수점 표현, 방정식의 근 찾기, 보간법, 수치 적분, 상미분방정식의 수치 풀이가 그 위에서 전개되며, 각 방법의 정확도와 수렴 속도가 다르다.
공학에서 마주하는 대부분의 문제는 해석적(closed-form) 해가 존재하지 않는다. 유한요소법(FEM)으로 항공기 날개의 응력 분포를 계산하고, Runge-Kutta 방법으로 로봇 팔의 동역학 시뮬레이션을 수행하며, FFT(fast Fourier transform)로 음성 신호를 주파수 영역으로 변환하고, 스플라인 보간으로 자동차 차체의 곡면을 설계하는 것 등이 모두 수치해석에 의존한다. 컴퓨터 그래픽스에서 영화의 유체 시뮬레이션이나 게임의 물리 엔진도 수치해석 알고리즘 위에 구축된다.
더 정밀한 근사를 원하면 더 많은 계산이 필요하고, 계산 자원이 한정되면 허용 가능한 오차 수준을 결정해야 한다. 여기에 부동소수점 산술의 반올림 오차(rounding error)가 더해져, 알고리즘의 수학적 수렴성이 곧바로 수치적 안정성을 보장하지는 않는다.
IEEE 754 표준은 부동소수점 표현의 형식과 연산 규칙을 정의한다. Machine epsilon은 이 표현의 상대 정밀도를 나타내는 기본 상수이다.
Definition 28.1 (Floating-Point Representation)
부동소수점 수는 \(x = \pm m \times \beta^e\)로 표현되며, 여기서 \(\beta\)는 밑(base), \(m\)은 가수(significand), \(e\)는 지수이다. Machine epsilon \(\epsilon_{\text{mach}}\)은 부동소수점 연산에서 \(\text{fl}(1 + \epsilon_{\text{mach}}) > 1\)을 만족하는 가장 작은 수이다. IEEE 754 배정밀도의 경우 \(\epsilon_{\text{mach}} \approx 2.2 \times 10^{-16}\)이다.
28.1 Root Finding
방정식 \(f(x) = 0\)의 근을 구하는 문제는 공학의 가장 기본적인 계산 과제 중 하나이다. 예를 들어 비선형 회로의 동작점 계산(Kirchhoff 법칙에서 유도되는 비선형 방정식의 근), 제어 시스템의 특성 방정식의 근(시스템 안정성 결정), 열전달 문제에서 초월 방정식의 해 등이 여기에 해당한다. 이분법은 느리지만 반드시 수렴하고, Newton 방법은 빠르지만 초기값 선택에 민감하다.
Definition 28.2 (Bisection Method)
\(f(a)f(b) < 0\)인 연속 함수 \(f\)가 주어지면, bisection method(이분법)는 부호 변화가 일어나는 부분 구간을 선택하면서 구간 \([a,b]\)를 반복적으로 이등분한다. \(n\)회 반복 후 구간 길이는 \((b-a)/2^n\)이 된다. 수렴은 비율 \(1/2\)의 선형 수렴이다.
Definition 28.3 (Newton's Method for Root Finding)
초기 추정값 \(x_0\)이 주어지면, 반복식
$$ x_{n+1} = x_n - \frac{f(x_n)}{f'(x_n)} $$
은 단순근 \(r\)에 이차 수렴한다 (즉, \(|x_{n+1} - r| \leq C|x_n - r|^2\)). 이를 위해 \(x_0\)이 \(r\)에 충분히 가깝고 \(f'(r) \neq 0\)이어야 한다.
Example 28.1 (Newton 방법 수렴)
\(f(x) = x^3 - 2\)의 근 \(r = \sqrt[3]{2} \approx 1.25992\)를 Newton 방법으로 구한다. \(f'(x) = 3x^2\)이므로 반복식은
$$ x_{n+1} = x_n - \frac{x_n^3 - 2}{3x_n^2}. $$
초기값 \(x_0 = 1\)로 시작하면:
$$ \begin{aligned}
x_0 &= 1, \\
x_1 &= 1 - \frac{1 - 2}{3} = 1.33333, \\
x_2 &= 1.33333 - \frac{(1.33333)^3 - 2}{3(1.33333)^2} = 1.26352, \\
x_3 &= 1.25993, \\
x_4 &= 1.25992.
\end{aligned} $$
4회 반복만에 5자리 정밀도에 도달한다. 이차 수렴답게, 정확한 자릿수가 매 반복마다 대략 두 배씩 늘어난다.
Example 28.2 (Newton 방법의 실패)
\(f(x) = x^{1/3}\)에 Newton 방법을 적용하면 \(f'(x) = \frac{1}{3}x^{-2/3}\)이므로
$$ x_{n+1} = x_n - \frac{x_n^{1/3}}{\frac{1}{3}x_n^{-2/3}} = x_n - 3x_n = -2x_n. $$
초기값 \(x_0 \neq 0\)에 대해 \(|x_n| = 2^n |x_0| \to \infty\)로 발산한다. 이는 근 \(r = 0\)에서 \(f'(0) = \infty\) (즉, 단순근이 아님)이기 때문이다.
Newton 방법은 이차 수렴이라는 장점이 있지만, 매 반복마다 도함수 \(f'(x_n)\)을 계산해야 한다. 도함수를 해석적으로 구하기 어렵거나 계산 비용이 큰 경우, 할선법(secant method)이 대안이 된다.
Definition 28.4 (Secant Method)
\(f'\)의 계산을 피하기 위해 다음 근사를 사용한다:
$$ x_{n+1} = x_n - f(x_n) \frac{x_n - x_{n-1}}{f(x_n) - f(x_{n-1})}. $$
수렴 차수는 \(\phi = (1 + \sqrt{5})/2 \approx 1.618\) (초선형)이다.
주어진 데이터 점들을 통과하는 함수를 구성하는 문제가 보간(interpolation)이다. 보간은 수치 적분과 미분의 기초이며, 데이터 근사의 기본 도구이다.
28.2 Interpolation
보간(interpolation)은 주어진 이산 데이터 점들을 정확히 통과하는 연속 함수를 구성하는 문제이다. 실험 데이터로부터 중간값을 추정하거나, 수치 적분과 수치 미분의 기초를 제공하며, 컴퓨터 그래픽스에서 곡면을 부드럽게 연결하는 데 사용된다. CAD/CAM 시스템의 자유곡면 설계, 기상 관측소 데이터로부터의 공간 보간, 디지털 신호처리의 리샘플링(resampling) 등이 대표적인 응용이다.
Definition 28.5 (Polynomial Interpolation)
\(n+1\)개의 서로 다른 점 \((x_0, y_0), \ldots, (x_n, y_n)\)이 주어지면, \(p_n(x_i) = y_i\)를 만족하는 차수 \(n\) 이하의 유일한 다항식 \(p_n(x)\)이 존재한다. Lagrange form은 다음과 같다:
$$ p_n(x) = \sum_{i=0}^{n} y_i \prod_{j \neq i} \frac{x - x_j}{x_i - x_j}. $$
Example 28.3 (Lagrange 보간)
세 점 \((0, 1)\), \((1, 3)\), \((2, 2)\)를 지나는 2차 다항식을 Lagrange form으로 구한다.
$$ p_2(x) = 1 \cdot \frac{(x-1)(x-2)}{(0-1)(0-2)} + 3 \cdot \frac{(x-0)(x-2)}{(1-0)(1-2)} + 2 \cdot \frac{(x-0)(x-1)}{(2-0)(2-1)} $$
$$ = \frac{(x-1)(x-2)}{2} - 3 \cdot x(x-2) + x(x-1) $$
$$ = \frac{1}{2}(x^2 - 3x + 2) - 3(x^2 - 2x) + (x^2 - x) $$
$$ = -\frac{3}{2}x^2 + \frac{7}{2}x + 1. $$
검증: \(p_2(0)=1\), \(p_2(1)=3\), \(p_2(2)=2\). 보간 오차 정리에 따르면, 원래 함수 \(f\)가 \(C^3\)이면 오차는 \(f'''(\xi) \cdot x(x-1)(x-2)/6\)에 비례한다.
Theorem 28.1 (Interpolation Error)
\(f \in C^{n+1}[a,b]\)이고 \(p_n\)이 \(x_0, \ldots, x_n \in [a,b]\)에서 \(f\)를 interpolation(보간)하면, 각 \(x \in [a,b]\)에 대해:
$$ f(x) - p_n(x) = \frac{f^{(n+1)}(\xi)}{(n+1)!} \prod_{i=0}^{n} (x - x_i) $$
을 만족하는 \(\xi\)가 \(\min(x, x_0, \ldots, x_n)\)과 \(\max(x, x_0, \ldots, x_n)\) 사이에 존재한다.
등간격 노드에서의 고차 interpolation(보간법)의 경우, Runge 현상(끝점 근처의 진동)이 문제가 된다. Chebyshev 노드 \(x_k = \cos\!\left(\frac{2k+1}{2(n+1)}\pi\right)\)는 최대 보간 오차를 최소화한다.
보간 다항식을 피적분함수의 대리(surrogate)로 사용하여 적분을 근사하는 것이 수치 적분(quadrature)의 기본 아이디어이다.
28.3 Numerical Integration (Quadrature)
해석적으로 적분할 수 없는 함수(예: \(e^{-x^2}\), 또는 실험 데이터로만 주어진 함수)의 정적분을 계산하는 것이 수치 적분(quadrature)의 목적이다. 구조역학에서 강성행렬의 원소 계산, 확률론에서 정규분포의 꼬리 확률 계산, 전자기학에서 복잡한 경계 위의 적분 등에 수치 적분이 필요하다.
Definition 28.6 (Newton–Cotes Formulas)
등간격 노드에서의 polynomial interpolation(다항식 보간법)을 이용하여 \(\int_a^b f(x)\, dx\)를 근사한다:
- Trapezoidal rule: \(\int_a^b f\, dx \approx \frac{h}{2}(f(a) + f(b))\), 오차 \(O(h^3 f'')\).
- Simpson's rule: \(\int_a^b f\, dx \approx \frac{h}{3}(f(a) + 4f(\tfrac{a+b}{2}) + f(b))\), 오차 \(O(h^5 f^{(4)})\).
합성 공식은 \([a,b]\)를 \(n\)개의 패널로 세분하여, 전체 오차가 각각 \(O(h^2)\) 및 \(O(h^4)\)가 된다.
Example 28.4 (합성 Simpson 적분)
\(\displaystyle\int_0^1 e^x\, dx\)를 합성 Simpson 공식으로 근사한다. 정확한 값은 \(e - 1 \approx 1.718282\)이다. \(n = 4\) 패널 (5개 노드 \(x_0=0, x_1=0.25, x_2=0.5, x_3=0.75, x_4=1\))을 사용하면 \(h = 0.25\)이고:
$$ S_4 = \frac{h}{3}\bigl[f(x_0) + 4f(x_1) + 2f(x_2) + 4f(x_3) + f(x_4)\bigr] $$
$$ = \frac{0.25}{3}\bigl[1 + 4(1.28403) + 2(1.64872) + 4(2.11700) + 2.71828\bigr] $$
$$ = \frac{0.25}{3} \times 20.61984 \approx 1.71832. $$
\(n = 4\)에서의 오차는 약 \(4 \times 10^{-5}\)이다. \(n = 8\)로 두 배로 하면 오차가 약 \(1/16\)로 줄어 \(O(h^4)\) 수렴을 확인할 수 있다.
Example 28.5 (Trapezoidal vs. Simpson 비교)
\(\displaystyle\int_0^{\pi} \sin x\, dx = 2\)를 합성 trapezoidal rule과 Simpson rule로 비교한다. \(n = 4\) 등분 (\(h = \pi/4\)):
- Trapezoidal: \(T_4 = \frac{h}{2}[f(0) + 2f(\pi/4) + 2f(\pi/2) + 2f(3\pi/4) + f(\pi)]\)
\(= \frac{\pi/4}{2}[0 + 2(0.7071) + 2(1) + 2(0.7071) + 0] = 1.89612\). 오차: \(0.104\).
- Simpson: \(S_4 = \frac{h}{3}[f(0) + 4f(\pi/4) + 2f(\pi/2) + 4f(3\pi/4) + f(\pi)]\)
\(= \frac{\pi/4}{3}[0 + 4(0.7071) + 2(1) + 4(0.7071) + 0] = 2.00456\). 오차: \(0.005\).
같은 노드 수에서 Simpson이 약 20배 정확하다. 이는 Simpson이 \(O(h^4)\), trapezoidal이 \(O(h^2)\) 수렴하기 때문이다.
Newton-Cotes 공식은 등간격 노드를 사용하지만, 노드의 위치를 자유롭게 선택하면 같은 수의 노드로 더 높은 정밀도를 달성할 수 있다. 이것이 Gauss 구적법(Gaussian quadrature)이다.
Definition 28.7 (Gaussian Quadrature)
\(n\)개 노드를 사용하는 Gaussian quadrature는 차수 \(2n - 1\) 이하의 다항식에 대해 정확한 값을 준다:
$$ \int_a^b w(x) f(x)\, dx \approx \sum_{i=1}^{n} w_i f(x_i), $$
여기서 노드 \(x_i\)는 가중 함수 \(w(x)\)에 대한 직교 다항식의 근이다 (예: \([-1,1]\) 위에서 \(w(x) = 1\)인 경우 Legendre 다항식).
상미분방정식(ODE)의 수치 풀이는 물리 시뮬레이션, 제어 시스템, 생물학적 모델링 등 시간 발전 문제에서 필수적이다.
28.4 Numerical ODE Methods
대부분의 ODE는 해석적 해가 없으므로 수치적으로 풀어야 한다. Euler 방법은 가장 단순한 1차 방법이고, Runge-Kutta 방법은 더 높은 정확도를 제공한다. stiff 문제에서는 양적(explicit) 방법 대신 음적(implicit) 방법이 필수적이다. 반도체 소자 시뮬레이션이나 화학 반응 동역학처럼 시간 상수가 크게 다른 변수들이 공존하는 stiff 시스템에서는 Forward Euler가 발산하지만, Backward Euler는 안정적으로 수렴한다.
Definition 28.8 (Euler Methods)
ODE \(y' = f(t, y)\), \(y(t_0) = y_0\)에 대해 스텝 크기 \(h\)를 사용하면:
- Forward Euler (양적): \(y_{n+1} = y_n + h f(t_n, y_n)\). 매 스텝 오차 \(O(h^2)\), 전체 오차 \(O(h)\).
- Backward Euler (음적): \(y_{n+1} = y_n + h f(t_{n+1}, y_{n+1})\). 각 스텝마다 방정식을 풀어야 하지만 stiff 문제에 대해 안정성이 더 우수하다.
Definition 28.9 (Runge–Kutta Methods)
고전적인 4차 Runge–Kutta (RK4) 방법:
$$ y_{n+1} = y_n + \frac{h}{6}(k_1 + 2k_2 + 2k_3 + k_4), $$
여기서
$$ \begin{aligned}
k_1 &= f(t_n, y_n), \\
k_2 &= f(t_n + h/2, \; y_n + hk_1/2), \\
k_3 &= f(t_n + h/2, \; y_n + hk_2/2), \\
k_4 &= f(t_n + h, \; y_n + hk_3).
\end{aligned} $$
전체 오차는 \(O(h^4)\)이다.
Example 28.6 (Forward Euler vs. RK4 비교)
초기값 문제 \(y' = -y\), \(y(0) = 1\) (정확해: \(y(t) = e^{-t}\))를 \(t = 1\)까지 적분한다. 정확한 값: \(y(1) = e^{-1} \approx 0.367879\).
- Forward Euler, \(h = 0.5\) (2 스텝):
\(y_1 = 1 + 0.5(-1) = 0.5\), \(y_2 = 0.5 + 0.5(-0.5) = 0.25\). 오차: \(0.118\).
- Forward Euler, \(h = 0.25\) (4 스텝):
\(y_4 = (1 - 0.25)^4 = (0.75)^4 = 0.31641\). 오차: \(0.051\). 스텝을 반으로 줄이니 오차도 대략 반으로 줄었다 (\(O(h)\)).
- RK4, \(h = 0.5\) (2 스텝): \(y_2 \approx 0.36789\). 오차: \(\approx 10^{-5}\).
같은 \(h = 0.5\)에서 Euler의 오차가 \(10^{-1}\) 수준인 데 비해 RK4는 \(10^{-5}\) 수준으로, 4차 방법의 정확도 이점이 극명하게 드러난다.
Example 28.7 (Stiff 문제에서의 Euler 안정성)
\(y' = -100y\), \(y(0) = 1\) (정확해: \(y(t) = e^{-100t}\), 빠르게 0으로 감소)를 고려하자. Forward Euler의 안정성 조건은 \(|1 + h\lambda| < 1\)이며, \(\lambda = -100\)이므로 \(h < 2/100 = 0.02\)가 필요하다.
- \(h = 0.01\): \(y_n = (1 - 1)^n = 0\) (한 스텝 만에 0, 안정적).
- \(h = 0.021\): \(y_n = (1 - 2.1)^n = (-1.1)^n\). 진동하면서 발산한다.
Backward Euler는 \(y_{n+1} = y_n/(1 + 100h)\)이므로 모든 \(h > 0\)에 대해 안정적이다. 이것이 stiff 문제에서 음적 방법이 필수적인 이유이다.
안정성 영역(stability region)은 수치 방법이 해를 발산시키지 않는 스텝 크기와 방정식 특성의 조합을 보여준다.
Definition 28.10 (Stability Region)
테스트 방정식 \(y' = \lambda y\) (\(\lambda \in \mathbb{C}\))에 방법을 적용하면 \(y_{n+1} = R(h\lambda)\, y_n\)을 얻는다. Stability region은 \(\{z \in \mathbb{C} : |R(z)| \leq 1\}\)이다. 방법이 A-stable이라 함은 stability region이 좌반평면 전체 \(\operatorname{Re}(z) \leq 0\)를 포함하는 것이다. Backward Euler는 A-stable이지만, Forward Euler는 그렇지 않다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
29. Computational Methods
28장의 수치해석 기본 도구를 이어받아, 이 장은 대규모 선형계 풀이와 유한요소법(FEM)으로 나아간다. 조건수(condition number)는 수치 계산의 신뢰성을 판단하는 핵심 지표이고, 반복법은 직접법으로 감당하기 어려운 대규모 문제의 실질적 해법이다.
수치해석이 알고리즘의 수렴성과 정확도를 다루는 반면, 계산수학(computational mathematics)은 그 알고리즘을 실제 컴퓨터에서 구현할 때 생기는 문제를 다룬다. 이론적으로 수렴하는 알고리즘이라도 유한 정밀도 산술(finite-precision arithmetic)에서는 반올림 오차가 축적되고, 메모리와 연산 시간에 제약이 있으며, 행렬의 희소 구조(sparsity)를 활용하지 못하면 실용성을 잃는다.
MATLAB이나 Python(NumPy/SciPy)을 이용한 수치 시뮬레이션은 구조 해석, 유체 역학, 전자기장 계산에서 표준 도구이다. 수백만 자유도를 가진 유한요소 모델의 강성 행렬(stiffness matrix)은 대부분의 원소가 0인 희소행렬(sparse matrix)이므로, 희소행렬 저장 기법과 반복 솔버가 필수적이다. 기계학습에서 역전파(backpropagation)에 쓰이는 자동미분(automatic differentiation)도 계산수학의 산물이고, 병렬 컴퓨팅(parallel computing)은 대규모 선형계를 수천 개의 프로세서에 분산시켜 계산 시간을 크게 줄인다.
29.1 Condition Numbers and Error Analysis
수치 계산의 결과를 신뢰하려면, 문제 자체의 민감도를 먼저 파악해야 한다. 입력 데이터의 측정 오차나 반올림 오차에 대해 출력이 얼마나 변하는지를 나타내는 지표가 조건수(condition number)이다. 조건수가 크면, 알고리즘이 아무리 정교해도 결과의 정밀도에 한계가 있다.
Definition 29.1 (Condition Number)
비특이 행렬 \(A\)의 (노름 \(\|\cdot\|\)에 대한) condition number는
$$ \kappa(A) = \|A\| \cdot \|A^{-1}\| $$
이다. 2-노름의 경우 \(\kappa_2(A) = \sigma_{\max}(A) / \sigma_{\min}(A)\)이다. 이는 \(Ax = b\)의 해가 섭동에 대해 얼마나 민감한지를 측정한다:
$$ \frac{\|\delta x\|}{\|x\|} \leq \kappa(A) \frac{\|\delta b\|}{\|b\|}. $$
Condition number가 크면 ill-conditioned(악조건) 문제다.
Example 29.1 (조건수 계산과 해석)
행렬 \(A = \begin{pmatrix} 1 & 1 \\ 1 & 1.0001 \end{pmatrix}\)을 고려하자. \(A^{-1} = \frac{1}{0.0001}\begin{pmatrix} 1.0001 & -1 \\ -1 & 1 \end{pmatrix}\)이다. 1-노름 기준으로:
$$ \|A\|_1 = \max(2, 2.0001) = 2.0001, \quad \|A^{-1}\|_1 = 10000 \cdot \max(2.0001, 2) = 20001. $$
따라서 \(\kappa_1(A) \approx 40002\). 이는 \(b\)에 \(10^{-4}\)의 상대 오차가 있으면 \(x\)에 최대 약 4의 상대 오차가 생길 수 있음을 의미한다. 실제로:
- \(b = (2, 2.0001)^T\)이면 \(x = (1, 1)^T\).
- \(b\)를 \((2, 2.0002)^T\)로 살짝 변경하면 \(x = (0, 1)^T\).
\(b\)의 \(0.005\%\) 변화가 \(x\)에 \(100\%\) 변화를 일으킨다.
Example 29.2 (Hilbert 행렬의 조건수)
\(n \times n\) Hilbert 행렬 \(H_n\) (\(H_{ij} = 1/(i+j-1)\))은 대표적인 악조건 행렬이다. 2-노름 조건수:
$$ \kappa_2(H_3) \approx 524, \quad \kappa_2(H_5) \approx 4.8 \times 10^5, \quad \kappa_2(H_{10}) \approx 1.6 \times 10^{13}. $$
\(n\)이 증가함에 따라 조건수가 지수적으로 증가한다. \(H_{10}x = b\)를 배정밀도(\(\epsilon_{\text{mach}} \approx 10^{-16}\))로 풀면, 해에서 기대할 수 있는 정확한 자릿수는 약 \(16 - \log_{10}(\kappa_2) \approx 16 - 13 = 3\)자리에 불과하다.
조건수로 문제의 민감도를 파악했으면, 다음은 실제로 선형계를 푸는 방법이다. 직접법과 반복법, 두 갈래다. 직접법부터 본다.
29.2 Direct Methods: Matrix Factorizations (직접법: 행렬 분해)
공학 시뮬레이션에서 핵심 연산은 대부분 선형계 \(Ax = b\)를 푸는 것이다. FEM의 강성 행렬, 회로 해석의 노드 방정식, 최소제곱 회귀 모두 이 형태이다. 직접법(direct methods)은 행렬 \(A\)를 삼각 행렬이나 직교 행렬의 곱으로 분해하여, 정확한 해를 유한 단계 안에 구한다. 삼각 행렬로 분해하면 전방/후방 대입으로 빠르게 풀 수 있고, 직교 행렬로 분해하면 수치적 안정성이 좋다.
Definition 29.2 (LU Decomposition)
\(n \times n\) 행렬 \(A\)의
LU 분해(LU decomposition)는
$$ A = LU $$
로, \(L\)은 대각 성분이 모두 1인 하삼각 행렬(unit lower triangular), \(U\)는 상삼각 행렬(upper triangular)이다.
Partial pivoting을 도입하면:
$$ PA = LU $$
여기서 \(P\)는 치환 행렬(permutation matrix)이다. 분해의 비용은 \(O(n^3/3)\) 부동소수점 연산(flops)이다. 일단 분해가 완료되면, \(Ax = b\)의 풀이는 두 단계로 축소된다:
- 전방 대입(forward substitution): \(Ly = Pb\)를 풀어 \(y\)를 구한다. 비용: \(O(n^2)\).
- 후방 대입(back substitution): \(Ux = y\)를 풀어 \(x\)를 구한다. 비용: \(O(n^2)\).
따라서 같은 계수 행렬 \(A\)에 대해 여러 우변 \(b\)를 풀 때, 분해는 한 번만 수행하면 된다.
Theorem 29.1 (LU 분해의 존재성과 유일성)
\(A\)의 모든 선행 주소행렬식(leading principal minor)이 영이 아니면, \(A\)는 유일한 LU 분해 \(A = LU\)를 갖는다. 일반적인 비특이 행렬 \(A\)에 대해서는, 적절한 치환 행렬 \(P\)가 존재하여 \(PA = LU\) 분해가 항상 가능하다 (partial pivoting).
Example 29.3 (LU 분해 3×3)
행렬
$$ A = \begin{pmatrix} 2 & 1 & 1 \\ 4 & 3 & 3 \\ 8 & 7 & 9 \end{pmatrix} $$
을 LU 분해한다. 가우스 소거법의 각 단계를 추적하면:
1단계. 첫 번째 열의 피벗 아래 성분을 소거한다. 소거 행렬 \(L_1 = I - l_1 e_1^T\)에서 승수(multiplier)는 \(l_{21} = 4/2 = 2\), \(l_{31} = 8/2 = 4\)이다:
$$ L_1 A = \begin{pmatrix} 1 & 0 & 0 \\ -2 & 1 & 0 \\ -4 & 0 & 1 \end{pmatrix} \begin{pmatrix} 2 & 1 & 1 \\ 4 & 3 & 3 \\ 8 & 7 & 9 \end{pmatrix} = \begin{pmatrix} 2 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 3 & 5 \end{pmatrix}. $$
2단계. 두 번째 열의 피벗 아래 성분을 소거한다. 승수는 \(l_{32} = 3/1 = 3\)이다:
$$ L_2 (L_1 A) = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & -3 & 1 \end{pmatrix} \begin{pmatrix} 2 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 3 & 5 \end{pmatrix} = \begin{pmatrix} 2 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 2 \end{pmatrix} = U. $$
따라서 \(L = L_1^{-1} L_2^{-1}\)이며, 소거 행렬의 역은 승수의 부호만 바꾸면 되므로:
$$ L = \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0 \\ 4 & 3 & 1 \end{pmatrix}, \quad U = \begin{pmatrix} 2 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 2 \end{pmatrix}. $$
검증: \(LU = \begin{pmatrix} 2 & 1 & 1 \\ 4 & 3 & 3 \\ 8 & 7 & 9 \end{pmatrix} = A\). \(\checkmark\)
응용: \(Ax = \begin{pmatrix} 4 \\ 10 \\ 24 \end{pmatrix}\)를 풀자. 먼저 \(Ly = b\):
$$ \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0 \\ 4 & 3 & 1 \end{pmatrix} \begin{pmatrix} y_1 \\ y_2 \\ y_3 \end{pmatrix} = \begin{pmatrix} 4 \\ 10 \\ 24 \end{pmatrix} \implies y = \begin{pmatrix} 4 \\ 2 \\ 2 \end{pmatrix}. $$
다음으로 \(Ux = y\):
$$ \begin{pmatrix} 2 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 2 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = \begin{pmatrix} 4 \\ 2 \\ 2 \end{pmatrix} \implies x = \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix}. $$
Definition 29.3 (QR Decomposition)
\(m \times n\) 행렬 \(A\) (\(m \geq n\))의
QR 분해(QR decomposition)는
$$ A = QR $$
로, \(Q \in \mathbb{R}^{m \times m}\)는 직교 행렬(\(Q^T Q = I\)), \(R \in \mathbb{R}^{m \times n}\)는 상삼각 행렬이다.
Thin QR 형태에서는 \(A = \hat{Q}\hat{R}\), \(\hat{Q} \in \mathbb{R}^{m \times n}\), \(\hat{R} \in \mathbb{R}^{n \times n}\)이다.
QR 분해를 계산하는 주요 방법:
- Gram–Schmidt 직교화 (classical/modified): 직관적이지만 수치적으로 불안정할 수 있다. Modified Gram–Schmidt가 더 안정적이다.
- Householder 반사(reflections): 수치적 안정성이 우수하여 실무에서 선호된다.
- Givens 회전(rotations): 희소 행렬이나 특정 구조에서 유용하다.
Householder 방법의 비용은 \(O(2mn^2 - 2n^3/3)\) 부동소수점 연산이다.
Theorem 29.2 (QR 분해의 존재성과 유일성)
모든 \(m \times n\) 실수 행렬 (\(m \geq n\))은 QR 분해를 갖는다. \(A\)가 열 풀랭크(full column rank)이면, thin QR 분해 \(A = \hat{Q}\hat{R}\)에서 \(\hat{R}\)의 대각 성분이 모두 양이 되도록 택한 분해는 유일하다.
Example 29.4 (QR을 이용한 최소제곱)
최소제곱 문제 \(\min_x \|Ax - b\|_2\)를 QR 분해로 푼다. 데이터:
$$ A = \begin{pmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{pmatrix}, \quad b = \begin{pmatrix} 1 \\ 2 \\ 4 \end{pmatrix}. $$
\(A = \hat{Q}\hat{R}\)로 분해하면, 최소제곱 해는 \(\hat{R}x = \hat{Q}^T b\)를 풀면 된다.
Gram–Schmidt로 \(\hat{Q}\), \(\hat{R}\) 계산:
첫 번째 열: \(a_1 = (1, 1, 1)^T\), \(\|a_1\| = \sqrt{3}\)이므로 \(q_1 = \frac{1}{\sqrt{3}}(1, 1, 1)^T\).
두 번째 열: \(a_2 = (1, 2, 3)^T\), \(a_2 - (q_1^T a_2)q_1 = (1,2,3)^T - 2\sqrt{3} \cdot \frac{1}{\sqrt{3}}(1,1,1)^T = (-1, 0, 1)^T\). 정규화하면 \(q_2 = \frac{1}{\sqrt{2}}(-1, 0, 1)^T\).
따라서:
$$ \hat{Q} = \begin{pmatrix} 1/\sqrt{3} & -1/\sqrt{2} \\ 1/\sqrt{3} & 0 \\ 1/\sqrt{3} & 1/\sqrt{2} \end{pmatrix}, \quad \hat{R} = \begin{pmatrix} \sqrt{3} & 2\sqrt{3} \\ 0 & \sqrt{2} \end{pmatrix}. $$
\(\hat{Q}^T b = \begin{pmatrix} 7/\sqrt{3} \\ 3/\sqrt{2} \end{pmatrix}\)이므로, \(\hat{R}x = \hat{Q}^T b\)를 후방 대입으로 풀면:
$$ x_2 = \frac{3/\sqrt{2}}{\sqrt{2}} = \frac{3}{2}, \quad x_1 = \frac{7/\sqrt{3} - 2\sqrt{3} \cdot 3/2}{\sqrt{3}} = \frac{7/\sqrt{3} - 3\sqrt{3}}{\sqrt{3}} = \frac{7 - 9}{3} = -\frac{2}{3}. $$
정규방정식과의 비교: \(A^T A x = A^T b\)에서 \(A^T A = \begin{pmatrix} 3 & 6 \\ 6 & 14 \end{pmatrix}\), \(A^T b = \begin{pmatrix} 7 \\ 17 \end{pmatrix}\). 풀면 동일하게 \(x = (-2/3, 3/2)^T\)을 얻는다. QR 방법은 \(A^T A\)를 형성하지 않으므로 \(\kappa_2(A^T A) = \kappa_2(A)^2\)에 의한 정밀도 손실을 피할 수 있다.
Definition 29.4 (Singular Value Decomposition)
임의의 \(m \times n\) 행렬 \(A\)의
특이값 분해(SVD, singular value decomposition)는
$$ A = U \Sigma V^T $$
로, \(U \in \mathbb{R}^{m \times m}\)와 \(V \in \mathbb{R}^{n \times n}\)는 직교 행렬이고, \(\Sigma \in \mathbb{R}^{m \times n}\)는 대각 성분 \(\sigma_1 \geq \sigma_2 \geq \cdots \geq 0\)을 갖는 대각 행렬이다. \(\sigma_i\)를 \(A\)의
특이값(singular values)이라 한다.
주요 성질:
- \(\text{rank}(A) = \)영이 아닌 특이값의 개수.
- \(\kappa_2(A) = \sigma_1 / \sigma_{\min}\) (최소 양의 특이값).
- \(\|A\|_2 = \sigma_1\), \(\|A\|_F = \sqrt{\sigma_1^2 + \cdots + \sigma_p^2}\) (\(p = \min(m, n)\)).
Theorem 29.3 (Eckart–Young Theorem)
\(A = U\Sigma V^T\)를 SVD라 하고, 랭크-\(k\) 근사를 \(A_k = \sum_{i=1}^{k} \sigma_i u_i v_i^T\)로 정의하자. 그러면 \(A_k\)는 2-노름과 Frobenius 노름 모두에서 \(A\)의 최적 랭크-\(k\) 근사이다:
$$ \min_{\text{rank}(B) \leq k} \|A - B\|_2 = \|A - A_k\|_2 = \sigma_{k+1}, $$
$$ \min_{\text{rank}(B) \leq k} \|A - B\|_F = \|A - A_k\|_F = \sqrt{\sigma_{k+1}^2 + \cdots + \sigma_p^2}. $$
Example 29.5 (SVD 계산)
행렬
$$ A = \begin{pmatrix} 3 & 2 & 2 \\ 2 & 3 & -2 \end{pmatrix} $$
의 SVD를 구한다.
1단계. \(A^T A\)의 고유값과 고유벡터를 구한다:
$$ A^T A = \begin{pmatrix} 13 & 12 & 2 \\ 12 & 13 & -2 \\ 2 & -2 & 8 \end{pmatrix}. $$
고유값: \(\lambda_1 = 25\), \(\lambda_2 = 9\), \(\lambda_3 = 0\). 따라서 특이값은 \(\sigma_1 = 5\), \(\sigma_2 = 3\)이다.
2단계. \(V\)를 구한다 (\(A^T A\)의 정규 직교 고유벡터):
$$ v_1 = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \\ 0 \end{pmatrix}, \quad v_2 = \frac{1}{\sqrt{18}}\begin{pmatrix} 1 \\ -1 \\ 4 \end{pmatrix}, \quad v_3 = \frac{1}{3}\begin{pmatrix} 2 \\ -2 \\ -1 \end{pmatrix}. $$
3단계. \(U\)를 구한다: \(u_i = \frac{1}{\sigma_i} A v_i\).
$$ u_1 = \frac{1}{5} A v_1 = \frac{1}{5} \cdot \frac{1}{\sqrt{2}} \begin{pmatrix} 5 \\ 5 \end{pmatrix} = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix}, $$
$$ u_2 = \frac{1}{3} A v_2 = \frac{1}{3} \cdot \frac{1}{\sqrt{18}} \begin{pmatrix} 9 \\ -9 \end{pmatrix} = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ -1 \end{pmatrix}. $$
결과:
$$ A = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 1 \\ 1 & -1 \end{pmatrix} \begin{pmatrix} 5 & 0 & 0 \\ 0 & 3 & 0 \end{pmatrix} V^T. $$
유사역행렬(pseudoinverse): \(A^+ = V \Sigma^+ U^T\)이며, \(\Sigma^+ \in \mathbb{R}^{3 \times 2}\)는 \(\Sigma\)의 비영 대각 성분을 역수로 바꾼 것이다:
$$ \Sigma^+ = \begin{pmatrix} 1/5 & 0 \\ 0 & 1/3 \\ 0 & 0 \end{pmatrix}. $$
이를 이용하면 \(A^+ = V \Sigma^+ U^T\)로, 최소 노름 최소제곱 해 \(x = A^+ b\)를 구할 수 있다.
직접법은 정확한 해를 주지만, 대규모 희소 시스템에서는 \(O(n^3)\) 비용이 감당하기 어렵다. 반복법은 근사해를 점진적으로 개선하며 희소 구조를 활용한다.
29.3 Iterative Methods for Linear Systems
3차원 FEM 모델이나 전력망 조류 계산처럼 수백만 자유도의 희소 선형계에서는 직접법이 너무 느리다. 반복법(iterative methods)은 초기 추정에서 출발하여 해를 점진적으로 개선하며, 매 반복에서 행렬-벡터 곱 \(Ax\)만 계산하므로 희소 구조를 그대로 활용한다.
Definition 29.5 (Jacobi and Gauss–Seidel)
\(Ax = b\)를 풀기 위해 (\(A = D + L + U\), 대각, 순수 하삼각, 순수 상삼각):
- Jacobi: \(x^{(k+1)} = D^{-1}(b - (L + U)x^{(k)})\). 모든 성분을 동시에 갱신한다.
- Gauss–Seidel: \(x^{(k+1)} = (D + L)^{-1}(b - U x^{(k)})\). 갱신된 성분을 즉시 사용한다.
\(A\)가 엄격히 대각 우세이면 둘 다 수렴한다. Gauss–Seidel은 대칭 양정치 \(A\)에 대해서도 수렴한다.
Example 29.6 (Jacobi 반복법)
선형 시스템
$$ \begin{pmatrix} 4 & -1 & 0 \\ -1 & 4 & -1 \\ 0 & -1 & 4 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = \begin{pmatrix} 1 \\ 5 \\ 3 \end{pmatrix} $$
에 Jacobi 반복을 적용한다. 초기값 \(x^{(0)} = (0, 0, 0)^T\):
$$ x^{(1)} = \bigl(\tfrac{1}{4}, \tfrac{5}{4}, \tfrac{3}{4}\bigr)^T, \quad
x^{(2)} = \bigl(\tfrac{1 + 5/4}{4}, \tfrac{5 + 1/4 + 3/4}{4}, \tfrac{3 + 5/4}{4}\bigr)^T = \bigl(0.5625, 1.5, 1.0625\bigr)^T. $$
정확해는 \(x = (0.6429, 1.5714, 1.1429)^T\)이다. 행렬이 엄격히 대각 우세이므로 (\(|4| > |-1| + |0|\) 등) 수렴이 보장된다. Jacobi 반복 행렬의 스펙트럼 반경은 \(\rho = 0.5\)이므로 매 반복마다 오차가 약 반으로 줄어든다.
Definition 29.6 (Conjugate Gradient Method)
Conjugate gradient(CG, 켤레 기울기) 방법은 \(A \succ 0\)에 대해 \(Ax = b\)를 풀며, \(i \neq j\)일 때 \(p_i^T A p_j = 0\)을 만족하는 켤레 방향 \(p_0, p_1, \ldots\)를 생성한다. CG는 (정확한 산술에서) 최대 \(n\)회 반복으로 수렴하며, 다음의 오차 한계를 갖는다:
$$ \|x^{(k)} - x^*\|_A \leq 2 \left(\frac{\sqrt{\kappa} - 1}{\sqrt{\kappa} + 1}\right)^k \|x^{(0)} - x^*\|_A, $$
여기서 \(\kappa = \kappa_2(A)\)이다. Preconditioning(\(A\)를 \(M^{-1}A\)로 대체)은 \(\kappa\)를 크게 줄여 수렴을 가속할 수 있다.
선형계 풀이는 여기까지다. 공학에서 실제로 만나는 문제는 편미분방정식(PDE)이 많다. 유한요소법(FEM)은 PDE를 선형계로 바꾸어 앞의 방법들로 풀 수 있게 한다.
29.4 Finite Element Method (FEM) Basics
유한요소법(FEM)은 복잡한 영역을 단순한 요소(삼각형, 사면체 등)로 분할하고, 각 요소 위에서 다항식으로 해를 근사한 뒤, 이를 조립하여 전체 선형계를 만든다. 구조 응력, 열전달, 유체 해석 등 공학 시뮬레이션 대부분이 이 방법에 기반한다.
Definition 29.7 (Weak Formulation)
경계값 문제 \(-\nabla \cdot (a \nabla u) = f\) (\(\Omega\) 위), \(u = 0\) (\(\partial\Omega\) 위)를 고려하자. Weak formulation(약형식)은 다음과 같다: \(u \in H^1_0(\Omega)\)를 찾되
$$ \int_\Omega a\, \nabla u \cdot \nabla v \, dx = \int_\Omega f v \, dx \quad \forall\, v \in H^1_0(\Omega) $$
을 만족하도록 한다. \(a\)가 유계이고 균일 양이면 Lax–Milgram 정리가 well-posedness를 보장한다.
Definition 29.8 (Galerkin Approximation)
Galerkin method는 무한 차원 공간 \(H^1_0(\Omega)\)를 유한 차원 부분공간 \(V_h\) (예: 메시 위의 구간별 다항식)로 대체한다. \(u_h \in V_h\)를 찾되
$$ \int_\Omega a\, \nabla u_h \cdot \nabla v_h \, dx = \int_\Omega f v_h \, dx \quad \forall\, v_h \in V_h $$
을 만족하도록 한다. \(V_h\)의 기저 \(\{\phi_1, \ldots, \phi_N\}\)를 택하면 선형 시스템 \(K\mathbf{u} = \mathbf{f}\)로 떨어진다. \(K_{ij} = \int a\, \nabla\phi_i \cdot \nabla\phi_j\, dx\)가 강성 행렬(stiffness matrix)이다.
Theorem 29.4 (Céa's Lemma)
쌍선형 형식이 강제적(coercive)이고 연속적이면, FEM 해 \(u_h\)는 준최적 근사이다:
$$ \|u - u_h\| \leq \frac{M}{\alpha} \inf_{v_h \in V_h} \|u - v_h\|, $$
여기서 \(M\)은 연속성 상수이고 \(\alpha\)는 강제성 상수이다. 요소 크기 \(h\)인 준균일 메시 위의 구간별 선형 요소의 경우, \(\|u - u_h\|_{H^1} = O(h)\)이고 \(\|u - u_h\|_{L^2} = O(h^2)\)이다.
Cea의 보조정리에 따르면, FEM 해의 오차는 부분공간 \(V_h\) 내 최선의 근사 오차에 비례한다. 메시를 세분화하여 \(h\)를 줄이면 오차가 체계적으로 감소한다.
Example 29.7 (Richardson 외삽법)
수치적 근사 \(I(h)\)가 \(I(h) = I + c h^p + O(h^{p+1})\)의 형태를 가질 때, 두 스텝 크기 \(h\)와 \(h/2\)의 결과를 조합하여 더 정확한 근사를 얻을 수 있다:
$$ I_{\text{ext}} = \frac{2^p I(h/2) - I(h)}{2^p - 1}. $$
합성 trapezoidal rule (\(p = 2\))에 이를 적용하면 Simpson rule이 된다. 예를 들어 \(\int_0^1 e^x\, dx\)에서 \(T(h=1) = (1 + e)/2 \approx 1.8591\), \(T(h=0.5) = 1.7539\)이면:
$$ I_{\text{ext}} = \frac{4(1.7539) - 1.8591}{3} = 1.7189. $$
이는 정확한 값 \(e - 1 \approx 1.7183\)에 근접한다.
Example 29.8 (수치 미분과 반올림 오차)
\(f'(x)\)를 중심 차분 \(\frac{f(x+h) - f(x-h)}{2h}\)로 근사할 때, 절단 오차는 \(O(h^2)\)이지만 반올림 오차는 \(O(\epsilon_{\text{mach}}/h)\)이다. 전체 오차:
$$ E(h) \approx \frac{h^2}{6}|f'''(x)| + \frac{\epsilon_{\text{mach}}}{h}|f(x)|. $$
최적 \(h\)는 \(\frac{dE}{dh} = 0\)에서 \(h_{\text{opt}} \sim \epsilon_{\text{mach}}^{1/3}\)이다. 배정밀도에서 \(h_{\text{opt}} \approx 6 \times 10^{-6}\)이며, 이보다 더 작은 \(h\)를 사용하면 오히려 정밀도가 나빠진다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Numerical Algorithms (Solomon, MIT) — 무료 교재 PDF
- Scipy Lecture Notes — Python 과학계산 무료 교재
- Trefethen, Approximation Theory and Approximation Practice — SIAM, 현대적 근사이론
- Press et al., Numerical Recipes — 실용 수치 알고리즘 레퍼런스
- Iserles, A First Course in the Numerical Analysis of Differential Equations — Cambridge, ODE/PDE 수치해법
- LeVeque, Finite Difference Methods for Ordinary and Partial Differential Equations — SIAM
Part XI — Applied Mathematics & Discrete
마지막 Part에서는 여러 응용 분야를 간략히 본다. 동역학 시스템은 시간에 따른 상태의 변화를, 이산수학은 연속이 아닌 구조를 이야기한다. 수학사를 통해 이 모든 것이 어떻게 발전해 왔는지도 짚는다.
30. Dynamical Systems
동역학 시스템은 미분방정식으로 기술되는 상태의 시간 발전을 연구한다. 핵심 질문은 '시스템이 시간이 지남에 따라 어디로 향하는가'이다. 평형점의 안정성, 위상 초상의 분류, Lyapunov 이론은 이 질문에 답하기 위한 도구이며, 로보틱스의 제어 설계에서 생태계 모델링까지 폭넓게 적용된다.
앞선 장들에서 미분방정식의 해를 하나하나 구했다면, 동역학계 이론은 관점이 다르다. 개별 해를 구하는 대신, 가능한 모든 해의 '풍경(landscape)'을 한꺼번에 분석한다. 비선형 미분방정식의 닫힌 형태 해(closed-form solution)는 일반적으로 구할 수 없으므로, '평형점 근처에서 안정한가', '궤적이 주기적인가, 발산하는가' 같은 정성적(qualitative) 질문에 답하는 것이 현실적이다. 공학적으로는 이 정도로 충분한 경우가 많다.
응용 범위를 몇 가지만 들면: 비선형 제어에서 Lyapunov 안정성 분석은 로봇 팔의 제어기가 원하는 궤적에 수렴하는지 보장하는 표준 도구이다. 생태학에서 Lotka-Volterra 모형은 포식자-피식자 개체수의 진동을 예측하고, SIR 모형은 전염병 확산을 기술한다. 전력망에서 발전기 동기화 문제는 결합 진동자(coupled oscillator)로 모델링되며, 로봇 보행의 안정적 걸음 패턴은 리미트 사이클(limit cycle)로 분석된다.
분석의 출발점은 자율 시스템(autonomous system)과 평형점(equilibrium point)의 정의이다. 평형에 있다는 것은 외부 입력 없이 상태가 변하지 않는다는 뜻이고, 공학에서는 '정상 상태(steady state)'라 부른다.
Definition 30.1 (Autonomous System)
Autonomous system(자율 시스템)은 ODE \(\dot{\mathbf{x}} = \mathbf{f}(\mathbf{x})\)이며, 여기서 \(\mathbf{x} \in \mathbb{R}^n\)이고 \(\mathbf{f} : \mathbb{R}^n \to \mathbb{R}^n\)이다. Equilibrium point(평형점, 고정점)은 \(\mathbf{f}(\mathbf{x}^*) = 0\)을 만족하는 \(\mathbf{x}^*\)이다.
Definition 30.2 (Phase Portrait, 2D Linear Systems)
선형 시스템 \(\dot{\mathbf{x}} = A\mathbf{x}\) (\(A \in \mathbb{R}^{2 \times 2}\))의 원점 근방 거동은 \(A\)의 고유값 \(\lambda_1, \lambda_2\)에 따라 분류된다:
- Stable node: \(\lambda_1, \lambda_2 < 0\) (실수). 궤적이 원점으로 수렴한다.
- Unstable node: \(\lambda_1, \lambda_2 > 0\) (실수).
- Saddle point: \(\lambda_1 < 0 < \lambda_2\) (하나는 안정, 하나는 불안정 방향).
- Stable spiral: \(\lambda = \alpha \pm i\beta\), \(\alpha < 0\).
- Unstable spiral: \(\alpha > 0\).
- Center: 순허수 고유값 \(\lambda = \pm i\beta\).
Example 30.1 (위상 초상 분류)
선형 시스템 \(\dot{\mathbf{x}} = A\mathbf{x}\)에서 \(A = \begin{pmatrix} -1 & 2 \\ 0 & -3 \end{pmatrix}\)를 고려하자. 특성 방정식:
$$ \det(A - \lambda I) = (-1-\lambda)(-3-\lambda) = 0 \implies \lambda_1 = -1, \;\lambda_2 = -3. $$
두 고유값 모두 음의 실수이므로 원점은
stable node이다. 고유벡터를 구하면:
- \(\lambda_1 = -1\): \((A + I)\mathbf{v} = 0 \implies \mathbf{v}_1 = (1, 0)^T\).
- \(\lambda_2 = -3\): \((A + 3I)\mathbf{v} = 0 \implies \mathbf{v}_2 = (1, -1)^T\).
일반해: \(\mathbf{x}(t) = c_1 e^{-t}(1,0)^T + c_2 e^{-3t}(1,-1)^T\). \(t \to \infty\)에서 \(e^{-3t}\) 항이 먼저 소멸하므로, 궤적은 먼저 \(\mathbf{v}_2\) 방향으로 빠르게 수축한 뒤 느린 고유 방향 \(\mathbf{v}_1\)을 따라 원점으로 접근한다.
위상 초상이 평형점의 유형을 분류하는 것이었다면, 이제 안정성을 엄밀하게 정의할 차례이다. 실제 공학 시스템은 항상 외란(disturbance)에 노출되므로, 섭동(perturbation)에 대한 반응을 정량화하는 것이 중요하다.
Definition 30.3 (Stability Definitions)
평형점 \(\mathbf{x}^*\)가:
- Stable (Lyapunov 안정)이라 함은, 모든 \(\epsilon > 0\)에 대해 \(\delta > 0\)이 존재하여 \(\|\mathbf{x}(0) - \mathbf{x}^*\| < \delta\)이면 모든 \(t \geq 0\)에서 \(\|\mathbf{x}(t) - \mathbf{x}^*\| < \epsilon\)이 성립하는 것이다.
- Asymptotically stable(점근 안정)이라 함은, 안정이면서 추가로 \(t \to \infty\)일 때 \(\mathbf{x}(t) \to \mathbf{x}^*\)인 것이다.
- Unstable(불안정)이라 함은, 안정이 아닌 것이다.
Theorem 30.1 (Linearization / Hartman–Grobman)
비선형 시스템 \(\dot{\mathbf{x}} = \mathbf{f}(\mathbf{x})\)의 평형점 \(\mathbf{x}^*\)에서, 야코비안 \(Df(\mathbf{x}^*)\)의 모든 고유값의 실수부가 0이 아니면(쌍곡 평형점), \(\mathbf{x}^*\) 근방에서의 국소적 거동은 선형화된 시스템 \(\dot{\mathbf{y}} = Df(\mathbf{x}^*)\,\mathbf{y}\)와 위상적으로 동치이다.
선형화는 쌍곡 평형점에서만 유효하다. 비선형 시스템의 안정성을 직접 판정하려면 Lyapunov 함수가 필요하다. 물리적으로 보면 Lyapunov 함수는 시스템의 '일반화된 에너지'이다. 이 에너지가 시간에 따라 감소하면 시스템이 평형으로 수렴한다는 직관을 수학적으로 정리한 것이다.
Definition 30.4 (Lyapunov Function)
평형점 \(\mathbf{x}^* = 0\)에 대한
Lyapunov function은, \(0\)의 근방 \(D\)에서 정의된 연속 미분 가능 함수 \(V : D \to \mathbb{R}\)로서 다음을 만족한다:
- \(V(0) = 0\)이고 \(D\) 내의 \(\mathbf{x} \neq 0\)에 대해 \(V(\mathbf{x}) > 0\).
- \(D\) 내에서 \(\dot{V}(\mathbf{x}) = \nabla V(\mathbf{x}) \cdot \mathbf{f}(\mathbf{x}) \leq 0\).
\(\dot{V} \leq 0\)이면 원점은 안정이다. \(\mathbf{x} \neq 0\)에서 \(\dot{V} < 0\)이면 점근 안정이다.
Theorem 30.2 (Lyapunov's Direct Method)
\(\dot{V} \leq 0\)인 Lyapunov function \(V\)가 존재하면, \(\mathbf{x}^*\)는 안정이다. \(D\) 내에서 \(\mathbf{x} \neq \mathbf{x}^*\)인 모든 점에 대해 \(\dot{V} < 0\)이면, \(\mathbf{x}^*\)는 점근 안정이다. \(V\)가 방사적으로 비유계이고 전역적으로 \(\dot{V} < 0\)이면, \(\mathbf{x}^*\)는 전역 점근 안정이다.
Example 30.2 (Lotka–Volterra 포식자-피식자 모형)
Lotka–Volterra 시스템:
$$ \dot{x} = \alpha x - \beta x y, \qquad \dot{y} = \delta x y - \gamma y, $$
여기서 \(x\)는 피식자 개체수, \(y\)는 포식자 개체수이고, \(\alpha, \beta, \gamma, \delta > 0\)이다. 평형점:
- \((0, 0)\): 사소한 평형점.
- \((x^*, y^*) = (\gamma/\delta, \alpha/\beta)\): 공존 평형점.
\((\gamma/\delta, \alpha/\beta)\)에서의 야코비안:
$$ Df = \begin{pmatrix} \alpha - \beta y^* & -\beta x^* \\ \delta y^* & \delta x^* - \gamma \end{pmatrix} = \begin{pmatrix} 0 & -\beta\gamma/\delta \\ \alpha\delta/\beta & 0 \end{pmatrix}. $$
고유값: \(\lambda = \pm i\sqrt{\alpha\gamma}\). 순허수이므로 선형화만으로는 안정성을 결정할 수 없다 (center 유형). 실제로 보존량
$$ H(x,y) = \delta x - \gamma \ln x + \beta y - \alpha \ln y $$
가 존재하며, \(\dot{H} = 0\)이다. 따라서 위상 초상에서 궤적은 \((x^*, y^*)\) 주위의 닫힌 곡선을 이루고, 개체수는 주기적으로 진동한다.
Example 30.3 (비선형 시스템의 위상 초상)
시스템 \(\dot{x} = y\), \(\dot{y} = -\sin x\) (비감쇠 단진자)를 분석한다. 평형점: \((n\pi, 0)\), \(n \in \mathbb{Z}\).
- \(x^* = 2k\pi\) (아래쪽 평형, \(\sin x^* = 0\), \(\cos x^* = 1\)): 야코비안 \(\begin{pmatrix} 0 & 1 \\ -1 & 0 \end{pmatrix}\), 고유값 \(\pm i\). 선형화에서 center, 비선형에서도 보존량 \(E = \frac{1}{2}y^2 - \cos x\)에 의해 닫힌 궤적 (center 확인).
- \(x^* = (2k+1)\pi\) (위쪽 평형, \(\cos x^* = -1\)): 야코비안 \(\begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}\), 고유값 \(\pm 1\). Saddle point. Separatrix(분리선)가 위상 초상의 구조를 결정한다.
위상 초상에서: center 주위의 닫힌 궤도 (왕복 진동)와 saddle을 잇는 homoclinic orbit (회전 운동의 경계)이 나타난다.
지금까지는 매개변수가 고정된 시스템을 분석했다. 하지만 매개변수가 바뀌면 거동이 질적으로 달라질 수 있다. 분기(bifurcation) 이론은 이런 변화가 언제, 어떻게 발생하는지를 분류한다.
분기(bifurcation)란 매개변수가 연속적으로 변하는데 시스템의 거동이 갑자기 달라지는 현상이다. 구조물의 하중이 임계값을 넘으면 좌굴(buckling)이 일어나고, 레이저 펌프 전류가 문턱값을 넘으면 결맞음(coherent) 빛이 방출되기 시작하는 것이 그 예이다.
Definition 30.5 (Bifurcation)
매개변수 가족 \(\dot{\mathbf{x}} = \mathbf{f}(\mathbf{x}, \mu)\)에서, 시스템의 정성적 거동(평형점의 수나 안정성, 주기 궤도의 존재 등)이 변하는 매개변수 값 \(\mu = \mu_0\)에서
bifurcation(분기)이 발생한다. 주요 유형:
- Saddle-node: 두 평형점이 충돌하여 소멸한다. 정규 형식: \(\dot{x} = \mu + x^2\).
- Transcritical: 두 평형점이 안정성을 교환한다. 정규 형식: \(\dot{x} = \mu x - x^2\).
- Pitchfork: 대칭적 분기. 정규 형식: \(\dot{x} = \mu x - x^3\) (초임계).
- Hopf: 안정 평형점이 안정성을 잃고 리미트 사이클이 생겨난다. 한 쌍의 켤레 복소 고유값이 허수축을 통과할 때 발생한다.
Theorem 30.3 (Poincaré–Bendixson)
\(\mathbb{R}^2\)에서의 연속 dynamical system(동역학 시스템)에서, 궤적이 유계이고 그 \(\omega\)-극한 집합이 평형점을 포함하지 않으면, \(\omega\)-극한 집합은 주기 궤도(리미트 사이클)이다.
Poincare-Bendixson 정리는 2차원에서 가능한 장기 거동이 평형점 수렴 아니면 주기 진동뿐임을 보여준다. 2차원에서는 카오스가 불가능하다는 뜻이다. 카오스적 거동에는 3차원 이상이 필요하고, 로렌츠 어트랙터(Lorenz attractor)가 3개의 변수를 갖는 것도 이 때문이다.
Example 30.4 (Lyapunov 함수를 이용한 안정성 판정)
시스템 \(\dot{x} = -x + 2x^2y\), \(\dot{y} = -y\)의 원점에서의 안정성을 조사한다. Lyapunov 후보 함수 \(V(x,y) = x^2 + y^2\)를 시도:
$$ \dot{V} = 2x\dot{x} + 2y\dot{y} = 2x(-x + 2x^2 y) + 2y(-y) = -2x^2 + 4x^3 y - 2y^2. $$
원점의 충분히 작은 근방 \(\|(x,y)\| < r\)에서 \(-2(x^2 + y^2) + 4x^3 y < 0\)이 성립하는지 확인한다. AM-GM 부등식에 의해 \(|4x^3 y| \leq 2(x^4 \cdot x^2 + y^2) \leq 2r^2(x^2 + y^2)\)이다 (\(|x| < r\)이므로 \(x^4 \leq r^2 x^2\)). 따라서:
$$ \dot{V} \leq -2(x^2 + y^2) + 2r^2(x^2 + y^2) = -(2 - 2r^2)(x^2 + y^2). $$
\(r < 1\)이면 \(\dot{V} < 0\). 따라서 원점은 국소적으로 점근 안정이다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Dynamical Systems (Tracy, UC Davis) — 강의노트 PDF
- Strogatz, Nonlinear Dynamics and Chaos — 비선형 동역학의 가장 유명한 입문서
- Hirsch, Smale & Devaney, Differential Equations, Dynamical Systems, and an Introduction to Chaos — 학부 표준
- Guckenheimer & Holmes, Nonlinear Oscillations, Dynamical Systems, and Bifurcations of Vector Fields — 대학원 표준
- Katok & Hasselblatt, Introduction to the Modern Theory of Dynamical Systems — 에르고드 이론 포함 포괄적 교재
- Devaney, An Introduction to Chaotic Dynamical Systems — 이산 동역학 입문
31. Discrete Mathematics
이산수학은 셀 수 있는 구조를 다룬다. 조합론은 경우의 수를 세고, 그래프 이론은 연결 관계를 추상화하며, 점화식은 이산적 변화를 잡는 도구다. 알고리즘 분석, 네트워크 설계, 암호학 등 컴퓨터과학 전반의 수학적 기반이 된다.
이산수학(discrete mathematics)은 컴퓨터 과학의 언어이다. 컴퓨터는 데이터를 비트의 유한 수열로 처리하고, 알고리즘은 유한 단계의 이산적 연산을 밟는다.
그래프 이론은 라우팅 프로토콜, VLSI 회로 배치, 소셜 네트워크 분석에 쓰이고, 조합론은 실험 설계나 오류 정정 부호에 쓰인다. 부울 대수는 디지털 논리 회로의 수학적 기초이고, 알고리즘의 시간 복잡도 분석도 이산수학의 영역이다.
31.1 Combinatorics
조합론은 '경우의 수가 몇 가지인가'를 묻는다. 암호의 강도 평가, 알고리즘 탐색 공간의 크기, 통계적 검정의 확률 계산 등이 모두 이 질문에 해당한다.
Definition 31.1 (Counting Principles)
- Product rule: 과제 A가 \(m\)가지 결과를, 과제 B가 \(n\)가지 결과를 가지면, A 다음에 B를 수행할 때의 결과 수는 \(mn\)이다.
- Sum rule: 과제 A와 B가 서로소이면, 전체 결과 수는 \(m + n\)이다.
- Permutations: \(n\)개의 서로 다른 대상에서 \(k\)개를 순서 있게 선택: \(P(n,k) = \frac{n!}{(n-k)!}\).
- Combinations: 순서 없는 선택: \(\binom{n}{k} = \frac{n!}{k!(n-k)!}\).
Theorem 31.1 (Binomial Theorem)
$$ (x + y)^n = \sum_{k=0}^{n} \binom{n}{k} x^k y^{n-k}. $$
Theorem 31.2 (Inclusion–Exclusion)
$$ \left|\bigcup_{i=1}^n A_i\right| = \sum_{i} |A_i| - \sum_{i\lt j} |A_i \cap A_j| + \sum_{i\lt j\lt k} |A_i \cap A_j \cap A_k| - \cdots + (-1)^{n+1} |A_1 \cap \cdots \cap A_n|. $$
Example 31.1 (포함-배제 원리: 교란 순열)
\(\{1, 2, 3, 4\}\)의 순열 중 어떤 원소도 원래 위치에 있지 않은 것(교란 순열, derangement)의 수를 구한다. \(A_i\)를 \(i\)가 원래 위치에 고정된 순열의 집합이라 하면:
$$ D_4 = 4! - \left|\bigcup_{i=1}^{4} A_i\right| = 4! - \binom{4}{1}3! + \binom{4}{2}2! - \binom{4}{3}1! + \binom{4}{4}0! $$
$$ = 24 - 24 + 12 - 4 + 1 = 9. $$
일반 공식: \(D_n = n! \sum_{k=0}^{n} \frac{(-1)^k}{k!}\). \(n\)이 커지면 \(D_n / n! \to 1/e \approx 0.368\)에 수렴한다.
Example 31.2 (포함-배제 원리: Euler \(\varphi\) 함수)
\(n = 60\)에 대해 \(\varphi(60)\) (1부터 60까지의 정수 중 60과 서로소인 것의 개수)를 포함-배제 원리로 구한다. \(60 = 2^2 \cdot 3 \cdot 5\)이므로 소인수는 2, 3, 5이다. \(A_p = \{1 \leq k \leq 60 : p \mid k\}\)로 놓으면:
$$ \varphi(60) = 60 - \left(\frac{60}{2} + \frac{60}{3} + \frac{60}{5}\right) + \left(\frac{60}{6} + \frac{60}{10} + \frac{60}{15}\right) - \frac{60}{30} $$
$$ = 60 - (30 + 20 + 12) + (10 + 6 + 4) - 2 = 16. $$
이는 공식 \(\varphi(n) = n \prod_{p \mid n}(1 - 1/p) = 60 \cdot \frac{1}{2} \cdot \frac{2}{3} \cdot \frac{4}{5} = 16\)과 일치한다.
Theorem 31.3 (Pigeonhole Principle)
\(n\)개의 물건을 \(m\)개의 상자에 넣을 때 \(n > m\)이면, 적어도 하나의 상자에 둘 이상의 물건이 들어간다. 일반화: 어떤 상자에는 적어도 \(\lceil n/m \rceil\)개의 물건이 들어간다.
그래프 이론은 대상들 사이의 연결 관계를 다룬다.
31.2 Graph Theory
라우터 간 연결, 도로망의 경로, 칩의 배선, 분자의 결합 등 겉보기에 다른 문제들이 모두 정점과 간선의 그래프로 모델링된다. 이 추상화가 있어 하나의 정리로 여러 분야의 문제를 동시에 다룰 수 있다.
Definition 31.2 (Graph)
Graph(그래프) \(G = (V, E)\)는 정점 집합 \(V\)와 간선 집합 \(E\)로 구성된다. Simple graph에서 간선은 서로 다른 정점의 비순서쌍이다 (루프나 다중 간선 없음). Degree \(\deg(v)\)는 \(v\)에 인접한 간선의 수이다.
Theorem 31.4 (Handshaking Lemma)
$$ \sum_{v \in V} \deg(v) = 2|E|. $$
따라서 홀수 차수를 갖는 정점의 수는 짝수이다.
Definition 31.3 (Graph Properties)
- Graph(그래프)가 connected(연결)이라 함은, 모든 정점 쌍 사이에 경로가 존재하는 것이다.
- Tree(트리)는 연결된 비순환 그래프이다. \(n\)개 정점을 가진 tree는 정확히 \(n-1\)개의 간선을 가진다.
- Graph(그래프)가 bipartite(이분)이라 함은, \(V\)를 \(V_1, V_2\)로 분할하여 모든 간선이 \(V_1\)의 정점과 \(V_2\)의 정점을 연결하도록 할 수 있는 것이다. 동치 조건: 그래프가 bipartite일 필요충분조건은 홀수 길이의 순환을 포함하지 않는 것이다.
- Graph(그래프)가 planar(평면)이라 함은, 간선 교차 없이 평면에 그릴 수 있는 것이다.
Example 31.3 (Euler 경로와 Euler 회로)
Euler path(오일러 경로)는 그래프의 모든 간선을 정확히 한 번씩 지나는 경로이다.
Euler circuit(오일러 회로)는 시작점으로 돌아오는 Euler path이다.
- Euler 회로 존재 조건: 연결 그래프에서 모든 정점의 차수가 짝수.
- Euler 경로 존재 조건: 연결 그래프에서 홀수 차수 정점이 정확히 0개 또는 2개.
쾨니히스베르크 다리 문제: 4개 지역(정점)과 7개 다리(간선)로 이루어진 그래프에서 각 정점의 차수는 3, 3, 3, 5이다. 홀수 차수 정점이 4개이므로 Euler 경로도 존재하지 않는다. 이것이 Euler가 1736년에 증명한 고전적 결과이다.
Example 31.4 (그래프 색칠 문제)
그래프 \(G\)의
chromatic number \(\chi(G)\)는 인접한 정점이 같은 색을 갖지 않도록 \(G\)의 정점을 칠하는 데 필요한 최소 색 수이다.
- \(\chi(K_n) = n\) (완전 그래프: 모든 정점이 서로 인접하므로 모두 다른 색이 필요).
- \(\chi(C_{2k}) = 2\), \(\chi(C_{2k+1}) = 3\) (짝수 순환은 2색, 홀수 순환은 3색).
- 모든 planar graph에 대해 \(\chi(G) \leq 4\) (사색 정리, Appel & Haken, 1976).
- 모든 그래프에 대해 \(\chi(G) \leq \Delta(G) + 1\) (여기서 \(\Delta(G)\)는 최대 차수). Brooks 정리에 의해 완전 그래프와 홀수 순환을 제외하면 \(\chi(G) \leq \Delta(G)\).
Petersen 그래프는 정규 3-그래프 (모든 정점의 차수가 3)이며 \(\chi = 3\)이다. 이는 2색으로는 홀수 순환을 포함하므로 불가능하고, 3색이면 충분하기 때문이다.
Theorem 31.5 (Euler's Formula for Planar Graphs)
\(V\)개 정점, \(E\)개 간선, \(F\)개 면을 가진 연결 평면 그래프에 대해: \(V - E + F = 2\). 이로부터 \(E \leq 3V - 6\) (\(V \geq 3\)일 때)이 유도되며, 이로부터 \(K_5\)와 \(K_{3,3}\)이 평면적이 아님을 보일 수 있다.
Theorem 31.6 (Kuratowski's Theorem)
Graph(그래프)가 planar(평면적)일 필요충분조건은 \(K_5\) 또는 \(K_{3,3}\)의 세분을 부분 그래프로 포함하지 않는 것이다.
Example 31.5 (Euler 공식 적용)
\(K_4\) (4개 정점의 완전 그래프)가 평면적인지 확인한다. \(V = 4\), \(E = \binom{4}{2} = 6\). \(E = 6 \leq 3(4) - 6 = 6\). 부등식이 성립하므로 Euler 공식과 모순되지 않는다. 실제로 \(K_4\)는 사면체의 그래프로 평면에 그릴 수 있으며, \(F = 2 - V + E = 2 - 4 + 6 = 4\)개의 면을 갖는다.
반면 \(K_5\): \(V = 5\), \(E = 10\). \(E = 10 > 3(5) - 6 = 9\). Euler 공식의 결과에 의해 \(K_5\)는 평면적이 아니다.
이산 구조에서 자연스럽게 등장하는 것이 점화식(recurrence relation)이다. 피보나치 수열처럼 이전 항으로부터 다음 항이 결정되는 관계를 닫힌 형태로 풀면, 알고리즘의 시간 복잡도를 분석하는 데 직접 쓸 수 있다.
31.3 Recurrence Relations
분할 정복(divide and conquer) 알고리즘의 시간 복잡도는 점화식으로 쓴다. 병합 정렬의 \(T(n) = 2T(n/2) + O(n)\)이 대표적이다. 점화식을 닫힌 형태로 풀면 알고리즘의 점근적 성능을 예측할 수 있다.
Definition 31.4 (Linear Recurrence)
상수 계수 선형 점화식은 다음의 형태를 갖는다:
$$ a_n = c_1 a_{n-1} + c_2 a_{n-2} + \cdots + c_k a_{n-k}. $$
대응하는 characteristic equation(특성 방정식)은 \(r^k - c_1 r^{k-1} - \cdots - c_k = 0\)이다. 근 \(r_1, \ldots, r_k\)가 서로 다르면, 일반해는 \(a_n = \alpha_1 r_1^n + \cdots + \alpha_k r_k^n\)이다. 중복근에는 다항식 인자가 곱해진다.
Example 31.6 (피보나치 수열)
피보나치 수열 \(F_n = F_{n-1} + F_{n-2}\)의 특성 방정식은 \(r^2 - r - 1 = 0\)이며, 근은 \(\phi = \frac{1+\sqrt{5}}{2}\)와 \(\hat{\phi} = \frac{1-\sqrt{5}}{2}\)이다. 닫힌 형식은
$$ F_n = \frac{\phi^n - \hat{\phi}^n}{\sqrt{5}} $$
이다.
Example 31.7 (2차 점화식 풀이: 특성방정식)
점화식 \(a_n = 5a_{n-1} - 6a_{n-2}\), 초기조건 \(a_0 = 1\), \(a_1 = 4\)를 풀어라.
풀이. 특성 방정식: \(r^2 - 5r + 6 = (r-2)(r-3) = 0\). 근: \(r_1 = 2\), \(r_2 = 3\). 일반해:
$$ a_n = \alpha_1 \cdot 2^n + \alpha_2 \cdot 3^n. $$
초기조건 적용:
$$ a_0 = \alpha_1 + \alpha_2 = 1, \qquad a_1 = 2\alpha_1 + 3\alpha_2 = 4. $$
연립하면 \(\alpha_1 = -1\), \(\alpha_2 = 2\). 따라서:
$$ a_n = -2^n + 2 \cdot 3^n. $$
검증: \(a_0 = -1 + 2 = 1\), \(a_1 = -2 + 6 = 4\), \(a_2 = -4 + 18 = 14 = 5(4) - 6(1) = 14\). 맞다.
Example 31.8 (중복근이 있는 점화식)
점화식 \(a_n = 4a_{n-1} - 4a_{n-2}\), 초기조건 \(a_0 = 1\), \(a_1 = 6\)을 풀어라.
풀이. 특성 방정식: \(r^2 - 4r + 4 = (r-2)^2 = 0\). 중복근 \(r = 2\). 중복근이 있으므로 일반해는:
$$ a_n = (\alpha_1 + \alpha_2 n) \cdot 2^n. $$
초기조건: \(a_0 = \alpha_1 = 1\), \(a_1 = (\alpha_1 + \alpha_2) \cdot 2 = 6\)이므로 \(\alpha_1 + \alpha_2 = 3\), \(\alpha_2 = 2\). 따라서:
$$ a_n = (1 + 2n) \cdot 2^n. $$
검증: \(a_2 = 5 \cdot 4 = 20 = 4(6) - 4(1) = 20\). 맞다.
Example 31.9 (3차 점화식)
점화식 \(a_n = 6a_{n-1} - 11a_{n-2} + 6a_{n-3}\), 초기조건 \(a_0 = 0\), \(a_1 = 1\), \(a_2 = 5\)를 풀어라.
풀이. 특성 방정식: \(r^3 - 6r^2 + 11r - 6 = (r-1)(r-2)(r-3) = 0\). 근: 1, 2, 3. 일반해:
$$ a_n = \alpha_1 + \alpha_2 \cdot 2^n + \alpha_3 \cdot 3^n. $$
초기조건으로부터:
$$ \begin{aligned}
\alpha_1 + \alpha_2 + \alpha_3 &= 0, \\
\alpha_1 + 2\alpha_2 + 3\alpha_3 &= 1, \\
\alpha_1 + 4\alpha_2 + 9\alpha_3 &= 5.
\end{aligned} $$
풀면 \(\alpha_1 = 0\), \(\alpha_2 = -1\), \(\alpha_3 = 1\). 따라서 \(a_n = 3^n - 2^n\).
검증: \(a_3 = 27 - 8 = 19 = 6(5) - 11(1) + 6(0) = 19\). 맞다.
Theorem 31.7 (Master Theorem)
\(a \geq 1\), \(b > 1\), \(d \geq 0\)일 때, \(T(n) = a\, T(n/b) + \Theta(n^d)\) 형태의 점화식에 대해:
$$ T(n) = \begin{cases} \Theta(n^d) & \text{if } d > \log_b a, \\ \Theta(n^d \log n) & \text{if } d = \log_b a, \\ \Theta(n^{\log_b a}) & \text{if } d < \log_b a. \end{cases} $$
마스터 정리를 적용하면, 병합 정렬(\(a=2, b=2, d=1\))은 \(d = \log_2 2\)이므로 \(T(n) = \Theta(n \log n)\)이고, 행렬 곱셈의 Strassen 알고리즘(\(a=7, b=2, d=2\))은 \(\log_2 7 \approx 2.81 > 2\)이므로 \(T(n) = \Theta(n^{\log_2 7}) \approx \Theta(n^{2.81})\)이다.
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- Discrete Mathematics: An Open Introduction (Levin) — 무료 오픈 교재
- Mathematics for Computer Science (Lehman, Leighton, Meyer — MIT 6.042J) — 무료 교재
- Rosen, Discrete Mathematics and Its Applications — 가장 널리 쓰이는 이산수학 교재
- Graham, Knuth & Patashnik, Concrete Mathematics — 조합론과 이산수학의 명저
- Lovász, Pelikán & Vesztergombi, Discrete Mathematics: Elementary and Beyond — UTM, 우아한 입문
- van Lint & Wilson, A Course in Combinatorics — 조합론 심화
- West, Introduction to Graph Theory — 그래프 이론 표준 교재
32. History of Mathematics
이 교재에서 다룬 개념들은 수천 년에 걸쳐 쌓였다. 바빌로니아 점토판에서 시작하여 그리스의 연역적 증명, 인도와 이슬람 세계의 대수학, 뉴턴-라이프니츠의 미적분을 거쳐 현대의 컴퓨터 보조 증명까지의 흐름이다.
수학은 실용적 필요와 추상적 호기심 사이를 오갔다. 나일강 범람 후 토지 재분배가 기하학(geometry, '땅을 측정하는 기술')을 낳았고, 항해와 달력을 위한 천문 관측이 삼각법을 키웠다. 뉴턴과 라이프니츠는 행성 운동을 풀다 미적분을 손에 쥐었고, 맥스웰의 전자기 이론은 벡터해석을 밀어 올렸다. 20세기 들어 양자역학이 함수해석학과 작용소 이론을 자극했고, 암호학은 수천 년간 순수 호기심의 영역이던 정수론을 실용 수학으로 끌어냈다.
| Period |
Approximate Date |
Key Developments |
| Ancient Mesopotamia |
c. 3000–300 BCE |
60진법 수 체계, 이차방정식 (바빌로니아 점토판), 피타고라스 삼조 (Plimpton 322). |
| Ancient Egypt |
c. 2000–300 BCE |
린드 파피루스: 단위 분수, 넓이 계산, \(\pi\)의 근사값. |
| Greek Mathematics |
c. 600 BCE–300 CE |
연역적 증명 (탈레스, 피타고라스). 유클리드의 원론 (기원전 300년경): 공리적 기하학, 소수의 무한성. 아르키메데스: 넓이, 부피, 소진법. 아폴로니우스: 원뿔 곡선. 디오판토스: 초기 대수학. |
| Indian Mathematics |
c. 500–1500 CE |
십진 위치값 체계와 영 (브라마굽타, 628). 아리아바타: 삼각법, 급수. 케랄라 학파 (마다바, 약 1350): 사인, 코사인, 아크탄젠트의 거듭제곱 급수—유럽 미적분보다 2세기 앞섬. |
| Islamic Golden Age |
c. 800–1400 CE |
알콰리즈미: al-jabr (대수학), 체계적 방정식 풀이. 오마르 하이얌: 원뿔 교선을 이용한 삼차방정식. 알하이삼: 초기 적분법. |
| Renaissance Europe |
1400–1600 |
카르다노, 타르탈리아, 페라리: 삼차 및 사차 공식. 비에트: 기호 대수학. 네이피어: 로그. 스테빈: 소수. |
| 17th Century |
1600s |
데카르트: 해석 기하학 (1637). 페르마: 정수론, 초기 미적분. 파스칼, 페르마: 확률론의 토대. 뉴턴과 라이프니츠: 미적분의 발명 (1660–1680년대). |
| 18th Century |
1700s |
오일러: 해석학, 정수론, 그래프 이론(graph theory) 전반에 걸친 방대한 기여 (쾨니히스베르크 다리, 1736). 라그랑주: 변분법, 역학. 라플라스: 천체역학, 확률론. |
| 19th Century |
1800s |
가우스: Disquisitiones Arithmeticae, 정수론, 미분기하학. 코시, 바이어슈트라스: 엄밀한 해석학 (\(\epsilon\)-\(\delta\) 정의). 아벨, 갈루아: 군론, 5차 방정식의 근 공식 불가능성. 리만: 복소해석, 리만 기하학, 리만 가설. 칸토어: 집합론, 초한수. 데데킨트, 페아노: 기초론. 불: 기호 논리학. 비유클리드 기하학 (로바체프스키, 볼리아이, 약 1830). |
| Early 20th Century |
1900–1950 |
힐베르트의 23가지 문제 (1900). 푸앵카레: 대수적 위상수학. 괴델의 불완전성 정리 (1931). 튜링: 계산 가능성 (1936). 콜모고로프: 공리적 확률론 (1933). 측도론 (르베그). 뇌터: 추상대수학. 폰 노이만: 함수해석학, 게임 이론. |
| Late 20th Century |
1950–2000 |
컴퓨터 보조 증명 (사색 정리, Appel & Haken, 1976). 그로텐디크: 현대 대수기하학. 와일스: 페르마의 마지막 정리 증명 (1995). 만델브로: 프랙탈. 복잡도 이론 (쿡, 카프). 서스턴: 기하화 추측. 단치그: 선형계획법 (심플렉스 방법(simplex method), 1947). 카르마르카르: 내부점 방법 (1984). |
| 21st Century |
2000–present |
페렐만: 푸앵카레 추측 증명 (2003). 그린–타오: 소수에서의 등차수열 (2004). 헤일스: 케플러 추측의 형식적 증명 (Flyspeck, 2014). 숄체: perfectoid 공간. 기계 보조 및 형식화된 수학 (Lean, Coq). 해석적 정수론, 대수적 위상수학 (호모토피 유형 이론), 계산적 방법의 발전. |
추천 영상 강의 (원본 소스 기반)
추천 교재 & 오픈 자료
- MacTutor History of Mathematics Archive (St Andrews) — 수학자/주제별 방대한 무료 아카이브
- Convergence (MAA) — 수학사 교육 자료 무료 매거진
- Katz, A History of Mathematics — 가장 포괄적인 수학사 교재
- Boyer & Merzbach, A History of Mathematics — 고전적 수학사 교재
- Stillwell, Mathematics and Its History — UTM, 수학적 내용과 역사의 통합
- Dunham, Journey through Genius — 대정리들을 통한 수학사 여행
- Kline, Mathematical Thought from Ancient to Modern Times — 3권짜리 백과사전적 수학사