本文对给定数据集进行多类别分类任务时所采用的各种统计和机器学习技术进行了总结。给定数据集包含 20 个类别，对应 10 种不同的水果及其成熟或未成熟状态。为实现分类任务，首先进行数据可视化，接着进行数据预处理，包括异常值检测技术（如局部异常因子和隔离森林）以及数据缩放技术（如标准缩放器和分位数转换器）。

随后运用降维算法如主成分分析（PCA）和线性判别分析（LDA）以及聚类技术，将聚类 ID 作为额外特征添加到数据集中。最后尝试通过深度学习技术（如卷积神经网络）来提高模型准确性。通过交叉验证评估模型性能，并比较其准确性和计算效率。总体而言，本项目展示了统计机器学习技术在多类别分类任务中的有效性，并强调了异常值检测和降维在提高机器学习模型准确性方面的重要性。

数据加载与重构

导入数据：

df = pd.read_csv(‘../../codesrain.csv’)
df.head()

df = pd.read_csv(‘../../train.csv’)
df.head()
将字符串标签转换为代码：
categories_list = df[ ‘category’ ].astype( ‘category’ ).cat.categories
df[ ‘category’ ] = df[ ‘category’ ].astype(‘category’).cat.codes

拆分数据为特征矩阵和目标向量：

X =data[:,:-1]
y =data[:,-1]
print(X.shape)
print(y)

去除异常值

使用隔离森林去除异常值：

from sklearn.ensemble import IsolationForestclf = IsolationForest(max_samples =100, random_state =1

多层感知机神经网络

数据标准化：

from sklearn.preprocessingimportStandardScalerscaler = StandardScaler()

进行主成分分析：

过采样SMOTE逻辑回归、SVM、随机森林、AdaBoost和XGBoost对不平衡数据分析预测

阅读文章 ➜

from sklearn.decomposition import PCApca = PCA(n_components=363)pca.fit(nn_X_train)

进行线性判别分析：

from sklearn.discriminant_analysis import LinearDiscriminantAnalysislda = LinearDiscriminantAnalysis(n_components=19)lda.fit(nn_X_train, nn_y_train)nn_X_train_lda = lda.transform(nn_X_train)nn_X_test_lda = lda.transform(nn_X_test)

构建并训练多层感知机模型：

随时关注您喜欢的主题

val_acc = []pca_acc = []lda_acc = []pca_lda_acc = []for i in range(40, 44): # clf = MLPClassifier(solver='adam' , alpha=1e-5, random_state=i, max_iter=10000, hidden_layer_sizes=(300, 60)) # clf = MLPClassifier(solver='lbfgs' , alpha=1e-5, random_state=i, max_iter=10000, hidden_layer_sizes=(300, 59)) # best one till now clf = MLPClassifier(solver='adam' , alpha=1e-5, random_state=i, max_iter=10000, hidden_layer_sizes=(448, 119, 170, 116))# clf = MLPClassifier(solver='adam' , alpha=1e-5, random_state=i, max_iter=10000, hidden_layer_sizes=(300, 60)) clf.fit(nn_X_train, nn_y_train)

输出不同处理方式下的平均准确率：

print(sum(val_acc)/len(val_acc))print(sum(pca_acc)/len(pca_acc))print(sum(lda_acc)/len(lda_acc))print(sum(pca_lda_acc)/len(pca_lda_acc))

卷积神经网络

特征值归一化：

print(X_train.max())

主成分分析PCA

from sklearn.decomposition import PCApca = PCA(n_components=900)X_train = pca.fit_transform(X_train)X_test= pca.transform(X_test)X_train = X_train.reshape(X_train.shape[0], 30, 30, 1)X_test= X_test.reshape(X_test.shape[0], 30, 30, 1)

LDA

进行线性判别分析：

# lda = LDA(n_components=18)# X_train = lda.fit_transform(X_train, y_train)# X_test= lda.transform(X_test)

可视化样本

plt.figure(figsize=(10,10))for i in range(25):    plt.subplot(5,5,i+1)

定义卷积神经网络架构

from tensorflow.keras import regularizersmodel = models.Sequential()model.add(layers.Conv2D(128, (3, 3), activation

编译卷积神经网络

model.compile(optimizer='adam',

绘制准确率与 epoch 的关系图

test_loss, test_acc = model.evaluate(X_test.reshape(X_test.shape[0], 64, 64, 1),  y_test, verbose=2)

10/10 – 0s – loss: 0.9434 – accuracy: 0.7888 – 211ms/epoch – 21ms/step

评估模型并输出结果

df_test= pd.read_csv('../../codes/sml/project/test.csv')df_test.head()

结论

通过对多种机器学习和深度学习技术的应用与比较，本文展示了不同方法在多类别分类任务中的性能表现。逻辑回归在公共数据上取得了较高的准确率，而卷积神经网络在私有数据上表现出色。同时，数据预处理中的异常值检测和降维技术对提高模型准确性起到了重要作用。未来，可以进一步探索更先进的模型架构和优化方法，以提高多类别分类任务的性能。

关于作者

Shixian Ding

✉

联系我们

在此对Shixian Ding对本文所作的贡献表示诚挚感谢，他在中国科学技术大学完成了计算机科学与技术（主修）和金融学（辅修）的学位，专注机器学习、数理金融、数据采集、数据挖掘领域。擅长 R 语言、Python、MySQL、Matlab。

PCA主成分分析原理与水果成熟状态数据分析实例：Python中PCA-LDA与卷积神经网络CNN

主成分分析（PCA）作为数据科学中用于可视化和降维的重要工具，在处理具有大量特征的数据集时非常有用。

降维中的主成分分析法(PCA)

Python主成分分析PCA、线性判别分析LDA、卷积神经网络分类分析水果成熟状态数据|附代码数据

数据加载与重构

去除异常值

多层感知机神经网络

过采样SMOTE逻辑回归、SVM、随机森林、AdaBoost和XGBoost对不平衡数据分析预测

随时关注您喜欢的主题

卷积神经网络

主成分分析PCA

LDA

可视化样本

定义卷积神经网络架构

编译卷积神经网络

绘制准确率与 epoch 的关系图

评估模型并输出结果

结论

关于作者

相关文章

PCA主成分分析原理与水果成熟状态数据分析实例：Python中PCA-LDA与卷积神经网络CNN

主成分分析（PCA）作为数据科学中用于可视化和降维的重要工具，在处理具有大量特征的数据集时非常有用。

降维中的主成分分析法(PCA)

Python主成分分析PCA、线性判别分析LDA、卷积神经网络分类分析水果成熟状态数据|附代码数据

数据加载与重构

去除异常值

多层感知机神经网络

过采样SMOTE逻辑回归、SVM、随机森林、AdaBoost和XGBoost对不平衡数据分析预测

随时关注您喜欢的主题

卷积神经网络

主成分分析PCA

LDA

可视化样本

定义卷积神经网络架构

编译卷积神经网络

绘制准确率与 epoch 的关系图

评估模型并输出结果

结论

关于作者

相关文章

关注我们，永远不要错过任何见解。