本文对给定数据集进行多类别分类任务时所采用的各种统计和机器学习技术进行了总结。给定数据集包含 20 个类别，对应 10 种不同的水果及其成熟或未成熟状态。为实现分类任务，首先进行数据可视化，接着进行数据预处理，包括异常值检测技术（如局部异常因子和隔离森林）以及数据缩放技术（如标准缩放器和分位数转换器）。

随后运用降维算法如主成分分析（PCA）和线性判别分析（LDA）以及聚类技术，将聚类 ID 作为额外特征添加到数据集中。最后尝试通过深度学习技术（如卷积神经网络）来提高模型准确性。通过交叉验证评估模型性能，并比较其准确性和计算效率。总体而言，本项目展示了统计机器学习技术在多类别分类任务中的有效性，并强调了异常值检测和降维在提高机器学习模型准确性方面的重要性。

数据加载与重构

导入数据：

df = pd.read_csv(‘../../codesrain.csv’)
df.head()

df = pd.read_csv(‘../../train.csv’)
df.head()
将字符串标签转换为代码：
categories_list = df[ ‘category’ ].astype( ‘category’ ).cat.categories
df[ ‘category’ ] = df[ ‘category’ ].astype(‘category’).cat.codes

拆分数据为特征矩阵和目标向量：

X =data[:,:-1]
y =data[:,-1]
print(X.shape)
print(y)

去除异常值

使用隔离森林去除异常值：

from sklearn.ensemble import IsolationForestclf = IsolationForest(max_samples =100, random_state =1

多层感知机神经网络

数据标准化：

from sklearn.preprocessingimportStandardScalerscaler = StandardScaler()

进行主成分分析：

过采样SMOTE逻辑回归、SVM、随机森林、AdaBoost和XGBoost对不平衡数据分析预测

阅读文章 ➜

from sklearn.decomposition import PCApca = PCA(n_components=363)pca.fit(nn_X_train)

进行线性判别分析：

from sklearn.discriminant_analysis import LinearDiscriminantAnalysislda = LinearDiscriminantAnalysis(n_components=19)lda.fit(nn_X_train, nn_y_train)nn_X_train_lda = lda.transform(nn_X_train)nn_X_test_lda = lda.transform(nn_X_test)

构建并训练多层感知机模型：

随时关注您喜欢的主题

val_acc = []pca_acc = []lda_acc = []pca_lda_acc = []for i in range(40, 44): # clf = MLPClassifier(solver='adam' , alpha=1e-5, random_state=i, max_iter=10000, hidden_layer_sizes=(300, 60)) # clf = MLPClassifier(solver='lbfgs' , alpha=1e-5, random_state=i, max_iter=10000, hidden_layer_sizes=(300, 59)) # best one till now clf = MLPClassifier(solver='adam' , alpha=1e-5, random_state=i, max_iter=10000, hidden_layer_sizes=(448, 119, 170, 116))# clf = MLPClassifier(solver='adam' , alpha=1e-5, random_state=i, max_iter=10000, hidden_layer_sizes=(300, 60)) clf.fit(nn_X_train, nn_y_train)

输出不同处理方式下的平均准确率：

print(sum(val_acc)/len(val_acc))print(sum(pca_acc)/len(pca_acc))print(sum(lda_acc)/len(lda_acc))print(sum(pca_lda_acc)/len(pca_lda_acc))

卷积神经网络

特征值归一化：

print(X_train.max())

主成分分析PCA

from sklearn.decomposition import PCApca = PCA(n_components=900)X_train = pca.fit_transform(X_train)X_test= pca.transform(X_test)X_train = X_train.reshape(X_train.shape[0], 30, 30, 1)X_test= X_test.reshape(X_test.shape[0], 30, 30, 1)

LDA

进行线性判别分析：

# lda = LDA(n_components=18)# X_train = lda.fit_transform(X_train, y_train)# X_test= lda.transform(X_test)

可视化样本

plt.figure(figsize=(10,10))for i in range(25):    plt.subplot(5,5,i+1)

定义卷积神经网络架构

from tensorflow.keras import regularizersmodel = models.Sequential()model.add(layers.Conv2D(128, (3, 3), activation

编译卷积神经网络

model.compile(optimizer='adam',

绘制准确率与 epoch 的关系图

test_loss, test_acc = model.evaluate(X_test.reshape(X_test.shape[0], 64, 64, 1),  y_test, verbose=2)

10/10 – 0s – loss: 0.9434 – accuracy: 0.7888 – 211ms/epoch – 21ms/step

评估模型并输出结果

df_test= pd.read_csv('../../codes/sml/project/test.csv')df_test.head()

结论

通过对多种机器学习和深度学习技术的应用与比较，本文展示了不同方法在多类别分类任务中的性能表现。逻辑回归在公共数据上取得了较高的准确率，而卷积神经网络在私有数据上表现出色。同时，数据预处理中的异常值检测和降维技术对提高模型准确性起到了重要作用。未来，可以进一步探索更先进的模型架构和优化方法，以提高多类别分类任务的性能。