本文共 2756 字,大约阅读时间需要 9 分钟。
为了能够介绍清楚支持向量机,首先需要理解下面的一些数学基础。
首先推导
优化问题 1: 带有等式约束的优化问题
通过上面的推导,带有等式约束的优化问题可以转化为等价的拉格朗日函数在
优化问题 2: 带有不等式的约束优化问题
优化问题 3:等式和不等式约束同时存在的优化问题
主问题转换为对偶问题
为什么要转换原问题到对偶问题? 1. 主问题的目标函数或者可行域不一定是凸的(Convex),但是对偶问题中,目标函数是变量的线性组合,同时可行域是超立方体,所以必然是凸的。 2. 即使主问题是凸的,其可行域是被超平面截出来的一些不规则区域,不利于求解。但是对偶问题的可行域是规则的超立方体,利于模型的求解。 3. 对于满足如下 Slater 条件的带约束优化问题, 对偶问题和原问题的解是一样的。可通过求解对偶问题得到原问题的解。
支持向量机可以通过两种观点进行推导,下面先介绍几何的观点。
主要想法
1. 超平面:在空间中找到完全将两类样本点分开的超平面。 2. 分类原则: 如果分类函数取正值,则将样本点分为正样本,否则为负样本。 3. 稳健原则 (MaxMin 准则):所选的分类超平面满足,离超平面最近点的距离最大化。
主问题
从图 1 可以得到下面 P0 中目标函数的点到直线距离公式,
上图的一些注记: 1. P0 到 P1的等价转换关系成立,主要通过限定每个超平面对应的来实现。2. 上图中的优化问题.
对偶问题
KKT 条件与模型参数求解
支持向量:通过求解对偶问题 D0, 所有非零的对应的样本使得满足。所以,这些样本都是到分类超平面距离最近的点,又被称为支持向量。分类超平面的参数:从图 10 可以看出,分类超平面的参数与仅由支持向量构成。所以支持向量机的模型复杂度由支持向量决定。大部分的训练样本都不参与模型的推断,所以模型做预测的计算复杂度非常的低。
线性可分:假定样本所在的空间中存在一个超平面能够将正样本与负样本划分平面的两侧。 基本类型的支持向量机基于线性可分的假设,利用训练样本来构造最优(稳健)的超平面。
示例
为了使得模型能够处理线性不可分的分类问题,可以通过容许支持向量机在某些样本上判别错误。
软间隔的引入
软间隔:不满足优化问题 P3 中约束条件的样本点,即。
松弛变量的引入
松弛变量:, 且。
目标函数拓展
优化问题 P3 中的目标函数为。此时对于松弛变量而言,还需要引入另一个目标,即引入的松弛变量之和越小越好。将优化问题 P3 的优化目标与松弛变量的目标综合起来,得到间隔支持向量机的目标函数,,其中非负数是惩罚系数,用来平衡原始目标与松弛变量目标的相对重要程度。
主问题与对偶问题
KKT 条件
解对偶问题 D1,得到最优解,通过下面的对应关系,可以得到主问题 P4 的解,。
(1)如果, 则, 即第个样本点刚好落在最大间隔的边界上面。(2),(2.1)如果且, 则分类边界将第个样本点正确分类,且该点处于由两侧最大间隔构成的带状区域内。(2.2)如果且, 则分类边界将第个样本点错误分类。(3) 如果,则分类边界将第个样本点正确分类,且该点处于由两侧最大间隔构成的带状区域外。
损失函数
通过如下 P4 到 P6 的等价转化,可以将软间隔的支持向量机问题转化为经验 Hinge 损失 +
正则项这种一般形式。
相较于指数损失与 logistic 损失函数,使用 hinge 损失函数得到的解具有稀疏性。相较于支持向量机,使用 logistic 回归做预测需要更大的时间与存储开销。
一般形式
经验风险:描述所选模型与样本的接近程度。结构风险: 又称作正则化项,描述模型的某方面性质,比如模型的复杂度。范数通常被用来做为正则化项,比如倾向于选择稀疏的模型,倾向于选择各个分量都比较均衡的模型。正则化常数:协调模型选择过程中,经验风险和结构风险之间的偏好。
动机
软间隔的支持向量机可以解决线性不可分不那么“严重”的情况,但是对于下面图18 a)中的分类问题却无能为力。但是如果我们将 a) 看作是 b) 中的数据在
映射到高维空间
为了将低维空间中的样本点映射到高维空间,令
类似于图 12. 高维空间中的主问题和对偶问题如下,
引入核函数
图19 中引入了核函数来刻画映射到高维空间后的特征向量之间的内积, 其中 D3 是利用核函数描述的对偶问题,
给定特征映射,核函数长什么样子呢?
反过来,可以从核函数出发,求特征映射。一般来说,不是所有的对称函数都可以作为核函数,所以需要回答下面的几个问题,
1. 什么样的对称函数可以做为核函数?即给定适合的核函数,是否存在对应的特征映射? 2.
转载地址:http://vmltx.baihongyu.com/