Linear Regression
模型
$$ y = \mathbf{w}^T \mathbf{x} + b $$预测值,$\mathbf{w}$ 是权重,$b$ 是偏置。
损失函数(最小二乘)
$$ J(\mathbf{w}, b) = \frac{1}{2} \sum_{i=1}^n (y_i - (\mathbf{w}^T \mathbf{x}i + b))^2 $$最小化预测与真实值的平方误差。
最小二乘解
$$ \mathbf{w} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $$闭式解,$\mathbf{X}$ 是特征矩阵,$\mathbf{y}$ 是标签。
交叉验证误差
$$ \text{CV error} = \frac{1}{K} \sum{k=1}^K \text{Error}_k $$K 折交叉验证,平均验证集误差。
Support Vector Machine (SVM)
最大间隔超平面
决策边界:$$ \mathbf{w}^T \mathbf{x} + b = 0 $$分隔两类数据的超平面。
分类约束:$$ y_i (\mathbf{w}^T \mathbf{x}i + b) \geq 1, \quad y_i \in {+1, -1} $$确保数据点在正确一侧,离边界距离至少 1。
优化目标:$$ \min{\mathbf{w}, b} \frac{\mathbf{w}^T \mathbf{w}}{2} $$最小化 $\mathbf{w}$ 的范数,最大化间隔。
间隔:$$ \frac{2}{|\mathbf{w}|} $$两边界间的距离。
拉格朗日对偶问题
拉格朗日函数:$$ L(\mathbf{w}, b, \alpha) = \frac{\mathbf{w}^T \mathbf{w}}{2} + \sum_i \alpha_i [1 - y_i (\mathbf{w}^T \mathbf{x}i + b)] $$将约束融入优化目标。
对偶问题:$$ \max{\alpha \geq 0} \left[ \sum_i \alpha_i - \frac{1}{2} \sum_{i,j} \alpha_i \alpha_j y_i y_j \mathbf{x}_i^T \mathbf{x}_j \right] $$转化为只优化 $\alpha_i$,便于核函数。
约束:$$ \sum_i \alpha_i y_i = 0, \quad \alpha_i \geq 0 $$保证超平面平衡。
非线性可分(软边界)
优化目标:$$ \min_{\mathbf{w}, b, \epsilon} \frac{\mathbf{w}^T \mathbf{w}}{2} + C \sum_i \epsilon_i $$引入松弛变量 $\epsilon_i$,平衡间隔和误分类。
约束:$$ y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \epsilon_i, \quad \epsilon_i \geq 0 $$允许部分点越界。
对偶约束:$$ 0 \leq \alpha_i \leq C $$限制 $\alpha_i$ 上界,避免过大。
非线性 SVM 与核方法
特征映射:$$ \mathbf{x}_i \to \phi(\mathbf{x}_i) $$映射到高维空间,使数据线性可分。
核函数:$$ K(\mathbf{x}_i, \mathbf{x}_j) = \phi(\mathbf{x}i)^T \phi(\mathbf{x}j) $$替代高维内积,简化计算。
对偶问题:$$ \max{\alpha \geq 0} \left[ \sum_i \alpha_i - \frac{1}{2} \sum{i,j} \alpha_i \alpha_j y_i y_j K(\mathbf{x}_i, \mathbf{x}_j) \right] $$用核函数替换 $\mathbf{x}_i^T \mathbf{x}_j$。
决策函数:$$ f(\mathbf{x}) = \text{sign} \left( \sum_i \alpha_i y_i K(\mathbf{x}_i, \mathbf{x}) + b \right) $$用支持向量和核函数分类新数据。
常见核函数:
多项式核:$$ K(\mathbf{x}_i, \mathbf{x}_j) = (\mathbf{x}_i^T \mathbf{x}_j + 1)^d $$
RBF 核:$$ K(\mathbf{x}_i, \mathbf{x}_j) = \exp(-\gamma |\mathbf{x}_i - \mathbf{x}_j|^2) $$