本文描述了训练支持向量回归模型的过程，该模型用于预测基于几个天气变量、一天中的某个小时、以及这一天是周末/假日/在家工作日还是普通工作日的用电量。

由Kaizong Ye，Coin Ge撰写

支持向量机是机器学习的一种形式，可用于分类或回归。尽可能简单地说，支持向量机找到了划分两组数据的最佳直线或平面，或者在回归的情况下，找到了在容差范围内描述趋势的最佳路径。

在机器学习的广阔天地中，支持向量机（SVM）是一种极具特色且应用广泛的技术手段，它既能够在分类任务中大展身手，精准地对不同类别数据进行区分；也可以在回归领域发挥作用，有效探寻数据背后的趋势规律。

为了更好地理解支持向量机，让我们先从分类任务说起。想象一下，面前有两组数据，就如同操场上站着的两拨学生，一组穿着红色校服，另一组穿着蓝色校服。支持向量机所做的，便是要在这两组数据之间，找到一条最为理想的直线（在二维空间中）或者一个完美的平面（当数据拓展到三维及以上空间时）。这条直线或平面的特殊之处在于，它能将这两组数据尽可能清晰、准确地划分开来，使得位于直线或平面一侧的几乎全是 “红校服学生”（即一类数据），而另一侧则几乎全是 “蓝校服学生”（另一类数据）。它就像是操场上的一条无形界限，最大程度地将不同类别的数据隔离开，减少误判的可能性。

当场景切换到回归任务时，支持向量机的使命也相应转变。此时，我们可以把数据看作是散落在坐标系中的一系列点，这些点大致呈现出某种趋势。支持向量机的目标，便是在给定的容差范围内，寻找一条最佳路径。这就好比在蜿蜒的山路上，要规划出一条最合适的路线，这条路线不仅要尽可能贴合数据点所呈现的趋势，还要在一定的误差允许范围内。它能帮助我们预测数据在未来可能出现的位置，或是对已有数据进行合理的拟合与趋势描述，为我们理解数据背后的潜在规律提供有力支持。

可下载资源

完整程序、数据和文档（word）

本文分析的智能体、数据、代码、报告分享至会员群

加入会员群

作者

Weilong Zhang
✉ 联系我们

对于分类，该算法最大限度地减少了对数据进行错误分类的风险。

对于回归，该算法使回归模型在某个可接受的容差范围内没有获得的数据点的风险最小化。

关于使用SVM进行回归分析的介绍很少，在这里，我们讨论一下SVR的理论知识，并对该方法有一个简明的理解。

SVR简单介绍

SVR全称是support vector regression，是SVM(支持向量机support vector machine)对回归问题的一种运用。所以在介绍SVR之前，我们先简单的来了解一下什么是SVM。

SVM

SVM与logistic分类器类似，也是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

对于下面一个数据集，有两类分别使用×和○来表示。那么我们想要找到一条曲线来区分这两类。可想而知，这样的曲线存在无数条，如何找到那一条最优的曲线呢？那就是要找到间隔(Gap)最大的那一条曲线，然后我们就可以根据这条曲线来分类了。而这条曲线，我们称为超平面。图中加粗的×与○，我们则称这些向量为支持向量。

而实际上，我们很少会遇到上面的情况，能直接使用一条直线将数据分类，更多的时候，数据无法通过直线来分类。比如下面这种情况：

当然了，这都不是事，既然在二维上该数据无法使用线性分类，那我们就将数据映射到更高维上，在高维上构造超平面，从而完成分类。

这就是为什么将上面的直线称为超平面。

所以对于非线性的模型，我们需要：使用非线性映射将数据投影至特征空间；

在特征空间使用线性分类器；

看似很简单，但是我们在映射时，就会发现当变量增多时，映射到高维空间的维度是呈指数增长的，计算起来十分困难，这时候就需要核函数(kernel function)了。核函数也是将特征从低维到高维进行转换，但是它是先在低维上进行计算，实际的分类效果表现在高维上。这样，我们就避免了在高维上复杂的计算，仍得到相同的结果。

一些常用的核函数：多项式核

高斯核

线性核

好了，SVM就简单介绍到这里。更多理论的推导或者其他更深的理论，请自行查阅！

接下来，我们来看看SVR又是怎么回事。

我们知道，最简单的线性回归模型是要找出一条曲线使得残差最小。同样的，SVR也是要找出一个超平面，使得所有数据到这个超平面的距离最小。

前面说了，SVR是SVM的一种运用，基本的思路是一致，除了一些细微的区别。使用SVR作回归分析，与SVM一样，我们需要找到一个超平面，不同的是：在SVM中我们要找出一个间隔(gap)最大的超平面，而在SVR，我们定义一个ε，如上图所示，定义虚线内区域的数据点的残差为0，而虚线区域外的数据点(支持向量)到虚线的边界的距离为残差(ζ)。与线性模型类似，我们希望这些残差(ζ)最小。所以大致上来说，SVR就是要找出一个最佳的条状区域(2ε宽度)，再对区域外的点进行回归。

对于非线性的模型，与SVM一样使用核函数(kernel function)映射到特征空间，然后再进行回归。

导入一些包和数据

import pandas as pd # 对于数据分析，特别是时间序列
import numpy as np # 矩阵和线性代数的东西，类似MATLAB
from matplotlib import pyplot as plt # 绘图

视频

R语言广义相加模型（GAM）在电力负荷预测中的应用

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

Scikit-learn是Python中的大型机器学习包之一。

from sklearn import svm
from sklearn import cross_validation
from sklearn import preprocessing as pre

在此随机插入更好的数据可视化。

# 设置颜色
graylight = '#d4d4d2'
gray = '#737373'
red = '#ff3700'

我在这个模型中使用的数据是通过公寓中安装的智能电表中获得的。

USAGE “字段给出了该小时内的用电度数。

elec.head(3)

Out[5]:

天气数据提取。

weather.head()

预处理

合并电力和天气

首先，我们需要将电力数据和天气数据合并到一个数据框中，并去除无关的信息。

# 合并成一个Pandas数据框架
 pd.merge(weather, elec,True, True)

# 从数据框架中删除不必要的字段
del elec\['tempm'\], elec\['cost'\]

# 将风速转换为单位
 elec\['wspdm'\] * 0.62

elec.head()

最受欢迎的见解

1.在python中使用lstm和pytorch进行时间序列预测

2.python中利用长短期记忆模型lstm进行时间序列预测分析

3.Python用RNN循环神经网络：LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数时间序列

4.Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

5.r语言copulas和金融时间序列案例

6.R 语言用RNN循环神经网络、LSTM长短期记忆网络实现时间序列长期利率预测

7.Matlab创建向量自回归（VAR）模型分析消费者价格指数 (CPI) 和失业率时间序列

8.r语言k-shape时间序列聚类方法对股票价格时间序列聚类

9.R语言结合新冠疫情COVID-19股票价格预测：ARIMA，KNN和神经网络时间序列分析

fig = plt.figure(figsize=\[14,8\])

elecweather\['USAGE'\].plot

在r语言中使用GAM（广义相加模型）进行电力负荷时间序列分析

阅读文章 ➜

视频

支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

我想将典型的工作日与周末、假日和在家工作的日子区分开来。所以现在所有的正常工作日都是0，所有的假期、周末和在家工作的日子都是1。

分类变量：平日与周末/假期/在家工作日

想了解更多关于模型定制、咨询辅导的信息？

✉

联系我们

## 将周末和节假日设置为1，否则为0
elecwea\['Day'\] = np.zeros

# 周末
elecwea\['Atypical_Day'\]\[（elecwea.index.dawe==5）|（elecwea.index.dawe==6）\] = 1

# 假期，在家工作日
假期 = \['2014-01-01','2014-01-20'\]
workhome = \['2014-01-21','2014-02-13','2014-03-03','2014-04-04'\]

for i in range(len(holiday)):
    elecwea\['Day'\]\[elecwea.index.date==np.datetime64(holidays\[i\])\] = 1
for i in range(len(workhome)):
    elecwea\['Day'\]\[elecwea.index.date==np.datetime64(workhome\[i\]) \] = 1
 
elecwea.head(3)

随时关注您喜欢的主题

更多的分类变量：一周中的一天，小时

在这种情况下，一天中的每个小时是一个分类变量，而不是连续变量。做分析时，需要对一天中的每一个小时进行 “是 “或 “否 “的对应。

# 为一天中的每个小时创建新的列，如果index.hour是该列对应的小时，则分配1，否则分配0

for i in range(0,24):
    elecweat\[i\] = np.zeros(len(elecweat\['USAGE'))
    elecweat\[i\]\[elecweat.index.hour==i\] = 1
    
# 例子 3am
elecweat\[3\]\[:6\]

时间序列：需要附加上以前的用电需求的历史窗口

由于这是一个时间序列，如果我们想预测下一小时的能耗，训练数据中任何给定的X向量/Y目标对都应该提供当前小时的用电量（Y值，或目标）与前一小时（或过去多少小时）的天气数据和用量（X向量）。

# 在每个X向量中加入历史用量

# 设置预测的提前小时数
hours = 1

# 设置历史使用小时数
hourswin = 12


for k in range(hours,hours+hourswin):
    
    elec\_weat\['USAGE-%i'% k\] = np.zero(len(elec\_weat\['USAGE'\])

    
    
for i in range(hours+hourswi,len(elecweat\['USAGE'\])）。)
    
    for j in range(hours,hours+hourswin):
        
        elec\_weat\['USAGE-%i'% j\]\[i\] = elec\_weat\['USAGE\]i-j\] 。

        
elec_weat.head(3)

由于这是时间序列数据，定义训练期和测试期更有意义，而不是随机的零星数据点。

分成训练期和测试期

如果它不是一个时间序列，我们可以选择一个随机的样本来分离出一个测试集。

# 定义训练和测试期
train_start = '18-jan-2014'（训练开始）。
train_end = '24-march-2014'.
test_start = '25-march-2014'（测试开始）。
test_end = '31-march-2014'。

# 分成训练集和测试集（仍在Pandas数据帧中）。

xtrain = elec\_and\_weather\[train\_start:train\_end\]。
del xtrain\['US'\]
del xtrain\['time_end'\]


ytrain = elec\_and\_weather\['US'\]\[train\_start:train\_end\] 。

将训练集输出成csv，看得更清楚。

X\_train\_df.to\_csv('training\_set.csv')

scikit-learn包接收的是Numpy数组，而不是Pandas DataFrames，所以我们需要进行转换。

# 用于sklearn的Numpy数组

X\_train = np.array(X\_train_df)

标准化变量

所有的变量都需要进行标准化。该算法不知道每个变量的尺度是什么。换句话说，温度一栏中的73的值看起来会比前一小时的千瓦时使用量中的0.3占优势，因为实际值是如此不同。sklearn的预处理模块中的StandardScaler()将每个变量的平均值去除，并将其标准化为单位方差。当模型在按比例的数据上进行训练时，模型就会决定哪些变量更有影响力，而不是由任意的比例/数量级来预先决定这种影响力。

训练SVR模型

将模型拟合训练数据!

SVR\_model = svm.SVR(kernel='rbf',C=100,gamma=.001).fit(X\_train\_scaled,y\_train)
print 'Testing R^2 =', round(SVR\_model.score(X\_test\_scaled,y\_test),3)

预测和测试

计算下一小时的预测（预测！）我们预留了一个测试数据集，所以我们将使用所有的输入变量（适当的缩放）来预测 “Y “目标值（下一小时的使用率）。

# 使用SVR模型来计算预测的下一小时使用量
 SVRpredict(X\_test\_scaled)

# 把它放在Pandas数据框架中，以便于使用
DataFrame(predict_y)

绘制测试期间的实际和预测电力需求的时间序列。

# 绘制预测值和实际值

plt.plot(index,y\_test\_df,color='k')
plt.plot(predictindex,predict_y)

重新取样的结果为每日千瓦时

### 绘制测试期间的每日总千瓦时图


y\_test\_barplot
ax.set_ylabel('每日总用电量（千瓦时）')

# Pandas/Matplotlib的条形图将x轴转换为浮点，所以需要找回数据时间
ax.set_xticklabels(\[dt.strftime('%b %d') for dt in

误差测量

以下是一些精度测量。

len(y\_test\_df)

均方根误差

这实际上是模型的标准误差，其单位与预测变量（或这里的千瓦时）的单位相同。

calcRMSE(predict\_y, y\_test_df)

平均绝对百分比误差

用这种方法，计算每个预测值和实际值之间的绝对百分比误差，并取其平均值；计量单位是百分比。如果不取绝对值，而模型中又没有什么偏差，你最终会得到接近零的结果，这个方法就没有价值了。

errorsMAPE(predict\_y, y\_test_df)

平均偏置误差

平均偏差误差显示了模型的高估或低估情况。初始SVM模型的平均偏差误差为-0.02，这表明该模型没有系统地高估或低估每小时的千瓦时消耗。

calcMBE(predict\_y, y\_test_df)

变异系数

这与RMSE类似，只是它被归一化为平均值。它表明相对于平均值有多大的变化。