PLS，即偏最小二乘（Partial Least Squares），是一种广泛使用的回归技术，用于帮助客户分析近红外光谱数据。

由Kaizong Ye，Sherry Deng撰写

如果您对近红外光谱学有所了解，您肯定知道近红外光谱是一种次级方法，需要将近红外数据校准到所要测量的参数的主要参考数据上。

偏最小二乘回归（Partial Least Squares，PLS）是一种统计方法，它结合了主成分分析和多元线性回归的特点。

在分析桃子近红外光谱数据时，使用偏最小二乘回归可以建立桃子的某些特性（如甜度、成熟度等）与近红外光谱数据之间的关系模型。通过对大量桃子的近红外光谱数据进行分析，可以提取出最能反映桃子特性的光谱特征。

近红外光谱是一种次级方法，意味着它不是直接测量所要得到的参数的主要方法。它需要通过将自身获得的数据与所要测量的参数的主要参考数据进行校准，才能得出准确的测量结果。例如，在某些化学分析中，近红外光谱不能直接给出特定化学成分的准确含量，而是需要借助已知化学成分含量的样品作为主要参考数据，对近红外光谱数据进行校准后，才能确定未知样品中该化学成分的含量。

这个校准只需在第一次进行。一旦校准完成且稳健，就可以继续使用近红外数据预测感兴趣参数的值。

可下载资源

完整程序、数据和文档（word）

本文分析的智能体、数据、代码、报告分享至会员群

加入会员群

作者

Weilong Zhang
✉ 联系我们

PCR只是使用通过PCA得到的若干主成分构建的回归模型。显然，这并不是最佳选择，而PLS就是解决这个问题的方法。

在本文中，我将向您展示如何使用Python构建一个简单的PLS回归模型。以下是我们将要做的概述。

展示PLS的基本代码
讨论我们要分析的数据及所需的预处理。我们将使用新鲜桃子水果的近红外光谱，其关联的Brix值与PCR帖子相同。这是我们要校准的量。
我们将使用交叉验证方法构建我们的模型

视频

主成分分析PCA降维方法和R语言分析葡萄酒可视化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

PLS Python代码

好的，以下是基于Python 3.5.2的运行PLS交叉验证的基本代码。

# 导入需要的库
from sklearn.metrics import mean_squared_error, r2_score # 导入均方误差和R2得分指标
from sklearn.model_selection import cross_val_predict # 导入交叉验证函数

 

# 定义PLS对象
pls = PLSReg......
nts=5) # 定义保留5个成分的PLS回归模型

 

# 拟合数据
pls.f......
 Y) # 将数据拟合到PLS模型中

 

# 交叉验证
y_cv = cros......
y, cv=10) # 用10折交叉验证计算模型性能

 

# 计算得分
score = r2_score(y,v) # 计算R2得分
mse = mean_squa......
_cv) # 计算均方误差

如您所见，sklearn已经提供了PLS（偏最小二乘）的包，所以我们可以直接使用，而不需要重新发明轮子。首先，我们定义了在PLS回归中要保留的成分数量。我决定保留5个成分作为示例，但后面将将其作为一个自由参数进行优化。一旦定义了PLS对象，我们就将回归拟合到数据X（预测变量）和y（已知响应变量）上。第三步是使用刚刚建立的模型运行一个包含10折交叉验证的交叉验证实验。当我们没有大量谱图时，交叉验证是测试校准预测能力的一种好方法。

为了检查我们的校准效果如何，我们使用通常的指标来衡量。我们通过将交叉验证结果y_cv与已知响应进行比较来评估这些指标。为了优化我们的PLS回归参数（例如预处理步骤和成分数量），我们将跟踪这些指标，最常见的是均方差（MSE）。

还有一件事。在实际代码中，各种数组X, y等通常是从电子表格中读取的numpy数组。因此，您可能需要导入numpy（当然），pandas和其他一些库，我们将在下面看到。

这是Python中PLS回归的基本代码块。看一下数据导入和预处理了。

近红外数据导入和预处理

下面是完整的导入列表：

from sys i......


import matplotlib.pyplot as plt

 

from scipy.sig......


from sklearn.model_selection import cross_val_predict

from sklearn......
score

最受欢迎的见解

1.在python中使用lstm和pytorch进行时间序列预测

2.python中利用长短期记忆模型lstm进行时间序列预测分析

3.Python用RNN循环神经网络：LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数时间序列

4.Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

5.r语言copulas和金融时间序列案例

6.R 语言用RNN循环神经网络、LSTM长短期记忆网络实现时间序列长期利率预测

7.Matlab创建向量自回归（VAR）模型分析消费者价格指数 (CPI) 和失业率时间序列

8.r语言k-shape时间序列聚类方法对股票价格时间序列聚类

9.R语言结合新冠疫情COVID-19股票价格预测：ARIMA，KNN和神经网络时间序列分析

接下来，让我们导入数据，这些数据保存在一个csv文件中。该数据由50个新鲜桃子的近红外光谱组成。每个光谱都有对应的Brix值（响应变量）。最后，每个光谱在1100 nm到2300 nm之间取600个波长点，步长为2 nm。

Matlab中的偏最小二乘法（PLS）回归模型，离群点检测和变量选择

阅读文章 ➜


data = pd.rea......
alues.csv')

# 获取参考值

y = dat......
'].values

# 获取光谱

X = data.dr......
es

# 获取波长

wl = np.a......
2300,2)

随时关注您喜欢的主题

如果需要，数据可以通过主成分分析进行排序，并使用乘法散射校正进行校正，然而，一个简单但有效的去除基线和线性变化的方法是对数据进行二阶导数。让我们这样做并检查结果。



# 计算二阶导数

X2 = savgol_......
deriv=2)

 

# 绘制二阶导数图像

plt.figu......
lot')):

    plt.plot(wl, X2.T)

   ......


    plt.show()

偏移已经消失，数据看起来更加紧密。

偏最小二乘回归

现在是时候优化偏最小二乘回归了。如上所述，我们想要运行一个具有可变组分数的偏最小二乘回归，并在交叉验证中测试其性能。实际上，我们想要找到最小化均方误差的组件数。让我们为此编写一个函数。

def optim_cv(X, ......
nts=True):

 

    '''运行包括可变组件数量的偏最小二乘回归，最多到n_comp，并计算均方误差'''

 

    mse = []

......

 

    for i in component:

......

 

        # 交叉验证

        y_cv = cross......


        mse.append(me......
y_cv))

 


        # 在同一行上更新状态的技巧


        stdout.flush()

    stdout.write("\n")

 

    # 计算并打印均方误差最小值的位置

    msemin = np.......
(mse)

    print("推荐的组件数: ", msemin+1)

    stdout.write("\n")

 

    if plot_components is True:

        wit......


            plt.plot(component[msemin], np.array(mse)[msemin], 'P', ms=10, mfc='red')

          ......


            plt.title('PLS')

            plt.xlim(left=-1)

 

        plt.show()

 

    # 使用最佳组件数定义PLS对象

    pls_opt = PLSRs=msemin+1)

 

    # 对整个数据集进行拟合

    pls_opt.fit(X, y)......


 

    # 交叉验证

    y_cv = cross_v......
cv=10)

 

    # 计算校准和交叉验证的得分

    score_c = r2_score(y, y_c)


 

    # 计算校准和交叉验证的均方误差

    mse_c = mean_squared_error(y, y_c)


 

    # 绘制回归图和评估指标

    rangey = max(y) - min(y)


 

    # 将交叉验证和响应拟合为一条直线

    z = np.po(y, y_c, 1)

    with plt.st......
'k')

        # 绘制最佳拟合线

        ax.plot(nplue', linewidth=1)

        # 绘制理想的1:1线

        ax.plot(y, y, color='green', linewidth=1)

        ......


 

        plt.show()

 

    return

这个函数首先运行了一个循环，通过偏最小二乘回归的组件数计算预测的均方误差。其次，它找到最小化均方误差的组件数，并使用该值再次运行偏最小二乘回归。在第二次计算中，计算了一堆指标并将其打印出来。

让我们通过将最大组件数设置为40来运行此函数。