在大数据时代，精准的数据分类与预测对各领域的发展至关重要。

超平面作为高维空间中的关键概念，可将线性空间一分为二，为数据分类奠定了理论基石。

由Yuqi Liu撰写

视频

R语言支持向量分类器SVM原理及预测应用

基于此发展而来的最大边缘分类器，通过最大化边际距离，精准划分数据类别，而支持向量分类器则进一步优化，提升了分类的稳健性。

× 在R语言中训练SVM模型通常涉及以下步骤：数据准备：选择合适的数据集并进行预处理，如标准化和划分训练测试集。模型训练：使用svm()函数建立模型，选择合适的核函数（如径向基核函数）和其他参数。参数优化：通过交叉验证和网格搜索确定最优参数，以提高模型的准确性和泛化能力。模型评估：使用测试集评估模型性能，计算混淆矩阵、准确率等指标。

与此同时，在房地产市场中，房价预测一直是研究热点。R 语言凭借其强大的数据分析能力，成为房价预测的有力工具。

本文深入剖析超平面、最大边缘分类器与支持向量分类器的原理，详细阐述其在 Khan 数据集上的应用。并创新性地将这些分类技术与 R 语言相结合，运用回归、LASSO、决策树等多种模型预测房价，旨在为数据分类与房价预测领域提供全新的研究思路与方法。

一、超平面

在高维空间中，超平面具有重要意义。在 (p) 维空间里，超平面是 (p – 1) 维的仿射子空间，其作用是将线性空间分割为不相交的两个部分。举例来说，在二维空间中，超平面呈现为一维子空间，即我们常见的直线；而在三维空间里，超平面是二维子空间，也就是一个平面。
在二维空间中，超平面的数学定义为：(B_0 + B_1x_1 + B_2x_2 = 0)。将其延伸至 (p) 维空间时，表达式变为 (B_0 + B_1X_1 + B_2X_2 + \cdots + B_pX_p = 0)。当向量 (x) 不满足此等式时，存在两种情况。若 (B_0 + B_1x_1 + B_2x_2 + \cdots + B_px_p > 0)，这表明 (x) 处于超平面的一侧；若 (B_0 + B_1x_1 + B_2x_2 + \cdots + B_px_p < 0)，则意味着 (x) 位于超平面的另一侧。所以，超平面能够把 (p) 维空间划分成两半。我们可以依据计算上述等式左侧所得到的符号，来判断某一点究竟位于超平面的哪一侧。
从分类的角度来看，可构建函数 (f(x^i)=B_0 + B_1x_1^i + B_2x_2^i + \cdots + B_px_p^i) 。若 (f(x^i)) 的符号为正，可将其判定为类别 (1)；若 (f(x^i)) 的符号为负，则判定为类别 (-1) 。通过这样的方式，实现利用超平面对数据进行分类。

二、最大边缘分类器

最大边缘分类器的核心在于计算每个训练数据观测值到给定分割超平面的距离。其中，观测值到超平面的最小距离的长度被定义为边际。边际值最大的分割超平面，就被称作最大边缘超平面。也就是说，最大边缘超平面代表了训练观测数据到超平面最小距离的最大值。从某种程度而言，最大边缘超平面相当于在两类数据之间插入的最宽“板”的中线。
在实际操作中，距离超平面最近且满足一定条件的几个训练样本点被称作支持向量。这些支持向量支撑起了最大边缘超平面。只有当这些支持向量发生改变时，最大边缘超平面才会相应地改动，这意味着最大边缘超平面直接依赖于支持向量。基于最大边缘超平面，我们能够对训练数据进行分类，这一过程就是最大边缘分类器的工作机制。
例如，图1展示了数据分布以及最大边缘超平面的位置关系。从图中可以直观地看到最大边缘超平面是如何在两类数据之间找到最宽的间隔，从而实现对数据的有效分类。
最大边缘超平面示例

Yuqi Liu

✉

联系我们

本文分析的数据、代码和文档分享至会员群

加入会员群

可下载资源

完整程序、数据和文档（word）

最受欢迎的见解

1.R语言实现CNN（卷积神经网络）模型进行回归

2.r语言实现拟合神经网络预测和结果可视化

3.python用遗传算法-神经网络-模糊逻辑控制算法对乐透分析

4.R语言结合新冠疫情COVID-19股票价格预测：ARIMA，KNN和神经网络时间序列分析

5.Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

6.Matlab用深度学习长短期记忆（LSTM）神经网络对文本数据进行分类

7.用于NLP的seq2seq模型实例用Keras实现神经机器翻译

8.R语言用FNN-LSTM假近邻长短期记忆人工神经网络模型进行时间序列深度学习预测

9.Python用RNN循环神经网络：LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数时间序列预测

SVM模型可视化解释 | 支持向量机交互式演示

SVM 可视化解释

支持向量机 (SVM) 可视化解释

通过交互式动画理解SVM如何找到最佳分隔超平面，以及它在机器学习中的应用

开始探索

什么是支持向量机？

支持向量机（Support Vector Machine，简称SVM）是一种强大的监督学习模型，主要用于分类任务，也可用于回归分析。

SVM的核心思想是找到一个最佳分隔超平面，将不同类别的数据点分开，同时使两类数据点到超平面的最小距离最大化。

距离超平面最近的那些数据点被称为支持向量，它们决定了超平面的位置和方向，是SVM模型的关键。

核心优势

在高维空间中表现良好
对小样本数据集效果显著
通过核函数处理非线性问题

最佳分隔超平面

交互式SVM演示

点击图表添加数据点，观察SVM如何找到最佳分隔超平面。您也可以拖动已有点来改变它们的位置。

控制选项

选择类别

核函数类型

正则化参数 C: 1.0

较小的C值表示更强的正则化

演示说明

点击图表区域添加数据点，先选择左侧的类别A或类别B
拖动已有的数据点可以改变其位置，观察超平面的变化
支持向量会以加粗的边框显示，它们是决定超平面的关键
尝试不同的核函数，观察它们如何处理线性不可分的数据

核函数的作用

核函数是SVM处理非线性问题的关键，它能将低维空间中的非线性数据映射到高维空间，使其线性可分。

线性核

最简单的核函数，适用于线性可分的数据，计算效率高。

K(x, y) = x · y

适用场景：线性可分数据，文本分类

RBF核

径向基函数核，适用于大多数非线性场景，是默认选择。

K(x, y) = exp(-γ||x-y||²)

适用场景：非线性数据，图像识别

多项式核

将数据映射到多项式特征空间，适用于特定非线性问题。

K(x, y) = (x·y + c)^d

适用场景：图像处理，文本分类

不同核函数处理非线性数据的效果

线性核

RBF核

多项式核

SVM的应用场景

支持向量机在多个领域都有广泛应用，尤其在小样本、高维特征的场景中表现出色。

图像识别

SVM在图像分类、人脸识别等领域表现优异，能够处理高维图像特征并实现精确分类。

文本分类

在垃圾邮件检测、情感分析和新闻分类等任务中，SVM能够有效处理高维文本特征向量。

生物信息学

SVM被用于基因分类、蛋白质结构预测等，能从复杂的生物数据中提取有效模式。

手写识别

在OCR技术中，SVM能有效识别手写字符，在数字识别等任务中准确率高。

异常检测

SVM可用于检测欺诈交易、网络入侵等异常行为，尤其适用于不平衡数据集。

回归分析

SVM不仅用于分类，也可扩展为支持向量回归(SVR)，用于预测连续值输出。

三、支持向量分类器

支持向量分类器，也被称为软边缘分类器。由于最大边缘分类器对数据较为敏感，在实际应用中可能会出现过拟合等问题。因此，支持向量分类器旨在建立一个对个体观测值更为稳健的模型，能够对大多数训练观测值进行更好的分类。它是以牺牲少部分数据为代价，来实现对剩下观测数据的更优分类。
在数学表达上，通过一系列约束条件来确定模型参数。如公式：

视频

支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

在实际应用中，可通过如下代码来实现支持向量分类器（这里仅展示关键部分代码，并非完整代码）：

# 导入所需库
import numpy as np
from sklearn.svm import SVC
# 假设已有训练数据x_train和y_train
# 创建支持向量分类器对象，设置参数C（对应上述c）
clf = SVC(C = 0.5)
# 训练模型
clf.fit(x_train, y_train)

在这段代码中，首先导入了必要的库，其中 numpy 用于数值计算，sklearn.svm 中的 SVC 是支持向量分类器的实现类。然后创建了 SVC 对象，并设置了参数 C 为 (0.5)，这里的 C 就是上述提到的调节参数 (c) ，它控制着模型对数据的容忍度。最后通过 fit 方法使用训练数据对模型进行训练。
可以由松弛变量 (\xi_j) 确定第 (j) 个观测值的位置。若 (\xi_j = 0)，说明观测值位于边际正确的一侧；若 (\xi_j > 0)，则观测值位于边际错误的一侧；若 (\xi_j > 1)，观测值位于超平面错误的一侧。在实际操作时，调节参数 (c) 一般通过交叉验证来获取，以此实现对偏差和方差的平衡。通常情况下，(c) 值小，容忍度小，边际窄，偏差小，方差大；(c) 值大，容忍度大，边际宽，偏差大，方差小。

例如，从图2中可以看到不同 (c) 值对分类结果的影响。当 (c) 值较小时，模型对数据的容忍度低，边际较窄，分类边界更严格；而当 (c) 值较大时，模型对数据的容忍度高，边际变宽，分类边界相对更宽松。
不同c值对分类结果的影响

过采样SMOTE逻辑回归、SVM、随机森林、AdaBoost和XGBoost对不平衡数据分析预测

阅读文章 ➜

四、模拟与实证

本次模拟使用Khan数据集，该数据集由与四种不同类型的小圆蓝细胞肿瘤相对应的多个组织样本构成。对于每个组织样本，都能进行基因表达测量。数据集包含训练数据 (x_{train}) 和 (y_{train}) 以及测试数据 (x_{test}) 和 (y_{test}) 。该数据集涵盖了 (2308) 个基因的表达测量。训练集和测试集分别由 (63) 个和 (20) 个观察结果组成。如图3所示为数据集的相关信息可视化。
Khan数据集信息
通过对超平面、最大边缘分类器以及支持向量分类器的理论分析和在Khan数据集上的模拟，我们可以看到这些方法在数据分类中的有效性和各自的特点。超平面为分类提供了基础的划分依据，最大边缘分类器在寻找最优分类边界上具有独特的优势，而支持向量分类器则通过引入调节参数，在稳健性和分类效果之间找到了更好的平衡。在实际的科研和应用场景中，可根据具体的数据特点和需求，选择合适的分类方法，以实现对数据的准确分类和分析。

R语言软件对房价数据预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化

在房地产市场中，准确地预测房屋价格是至关重要的。过去几十年来，随着数据科学和机器学习的快速发展，各种预测模型被广泛应用于房屋价格预测中。而R语言作为一种强大的数据分析和统计建模工具，被越来越多的研究者和从业者选择用于房屋价格预测。

本文将介绍帮助客户使用R语言软件进行房屋价格预测的几种常见方法，包括回归、LASSO、决策树、随机森林、GBM、神经网络和支持向量机(SVM)。通过这些方法的比较和分析，我们将探讨它们在房屋价格预测中的优势和不足，并通过可视化的方式展示它们的预测结果。

首先读取数据。

data=read.csv("Amsing.csv")

查看原始数据（直接从Ames评估办公室获得）用于税务评估目的，但本身直接预测房屋售价。

首先查看部分数据，以观看数据中有哪些变量。

head(data)

获取数据的基本统计量。

summary(data)

对房屋面积进行可视化，可以让我们对房屋的面积有一个直观的影响，从而也可以排除掉一部分异常点的影响。

从可视化结果来看，可以发现数据中存在较多的异常数据。可能会影响后续的预测过程，因此将它们去除。

查看数据结构

通过查看数据结构，我们可以了解到，哪些数据是数值变量比如房屋面积，总体质量建立年份，哪些数据是因此变量比如街道，土地坡度，房屋状况，哪些数据的因子有哪些。

str(data)

绘制相关散点图

通过绘制相关散点图，我们可以查看数值变量之间存在哪些关系？

看变量之间的相关系数，我们可以找到相关性高的变量：

从相关系数和散点图来看，我们可以看到，房屋价格和房屋的总体质量，建立年份，房屋面积，房屋层高等变量存在相关关系。

然后我们查看数据中是否存在共线性问题

kappa(corr, exact = T)

查看变量之间的boxplot图

正如我们从不同变量之间的箱线图和上面的房屋销售价格中看到的，高销售价格的房屋有更多的卧室、浴室和车库。

正如我们从房屋售价和质量之间的箱线图上看到的，高售价房屋的质量更高。

提取训练集,测试集

indices = sample(nrow(data), nrow(data)*0.7)

回归模型 linear regression

从回归模型的结果来看，我们可以看到部分变量是显著的，说明他们对房屋的价格，有很大的影响。显著的变量有车库面积，走廊，浴池，总体质量，房屋层高等等。从R方的结果来看，R方等于93%，因此，模型解释了房屋价格大部分的方差，可以说模型的拟合效果非常良好

残差表现来看模型的拟合好坏

左上方的图是一个散点图，用于表示拟合值和残差的关系。从图中可以看到，除了第二个异常值外，其余所有点都在纵坐标值-1和+1之间随机分布。

接下来的图是一个散点图，表示拟合值的标准化偏差和残差的关系，其意义与上述相似。右上方的图显示随机误差项服从正态分布，这是因为正态QQ图可以近似视为一条直线。

右下方的图进一步证实了第二个观察值是一个异常值，它对回归方程的影响相对较大。

lasso 模型

在建立lasso模型之后，我们绘制误差变化图

绘制系数变化图

LASSO回归复杂度调整的程度由参数λ来控制，λ越大对变量较多的线性模型的惩罚力度就越大，从而最终获得一个变量较少的模型。因此误差最小的点对应选取log(lamda)=9为最优模型。

regression trees 回归树模型

拟合模型

绘制决策树

从结果来看，房屋的价格主要受到总体质量，走廊，房屋层高，车库等因素影响

一般来说，车库面积越大，总体质量越高，层高越高，那么价格就越高

然后通过得到的决策树模型进行预测得到误差

random forests 随机森林模型

模型结果

从随机森林模型的结果来看，一共生成了五百个随机树，房屋价格的方差被解释了76.75%

得到变量，重要性结果

从结果来看，可以得到和决策树类似的结论，可以看到，房屋建立的年份，以及车库面积房屋层高等因素对房屋的价格都有重要的影响。

对变量的重要性进行可视化

在得到模型之后，对测试集进行预测，并且得到误差

GBM模型

从模型结果来看，可以得到和决策树随机森林类似的结果。上面是相对重要性变量的图，可以看到建立年份，车库面积，房屋层高对房屋的价格有重要的影响

neural network 神经网络

建立神经网络模型

从结果来看，得到一个三层的神经网络以及641个神经元，得到的结果已经完全converged。因此模型拟合较好，所以对测试集进行预测，并且得到误差结果

SVM模型

用svm建立分类模型

使用回归核函数数据进行支持，向量机建模

从结果来看，可以得到它的最优参数以及支持向量的个数124个。在得到模型结果后，对测试集进行预测，并且得到误差结果。

总结评估

在对数据进行六个模型建模后，分别得到了每个模型的误差结果，然后我们将所有的误差结果进行汇总，并且比较每个模型的优劣。

测试误差：随机森林最小，回归次之，其他模型较大。准确度：随机森林最优，但训练复杂。效率：回归模型较高。解释度：决策树模型可解释，神经网络不可解释。其他模型需提高准确度。综上，推荐随机森林预测房屋价格。

关于分析师

Yuqi Liu

✉

联系我们

在此对 Yuqi Liu对本文所作的贡献表示诚挚感谢，他在浙江财经大学完成了应用统计专业的硕士学位，专注机器学习、数据挖掘、数据分析领域。擅长 R 语言、Python、MySQL 。

【视频】R语言支持向量分类器SVM原理及房价数据预测应用及回归、LASSO、决策树、随机森林、GBM、神经网络对比可视化

在大数据时代，精准的数据分类与预测对各领域的发展至关重要。

一、超平面

二、最大边缘分类器

支持向量机 (SVM) 可视化解释

什么是支持向量机？

核心优势

交互式SVM演示

控制选项

演示说明

核函数的作用

线性核

RBF核

多项式核

不同核函数处理非线性数据的效果

SVM的应用场景

图像识别

文本分类

生物信息学

手写识别

异常检测

回归分析

三、支持向量分类器

过采样SMOTE逻辑回归、SVM、随机森林、AdaBoost和XGBoost对不平衡数据分析预测

四、模拟与实证

R语言软件对房价数据预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化

查看数据结构

绘制相关散点图

提取训练集,测试集

回归模型 linear regression

lasso 模型

regression trees 回归树模型

random forests 随机森林模型

对变量的重要性进行可视化

GBM模型

neural network 神经网络

SVM模型

总结评估

关于分析师

相关文章