本文主要探讨了如何利用图卷积网络（GCN）对图中的节点进行分类。

由Kaizong Ye，Liao Bao撰写

介绍了相关的数据处理、模型构建、训练及测试等环节，通过对分子数据集的操作实践，展示了完整的节点分类流程，并对模型的效果进行了多方面评估，旨在为相关领域的研究与应用提供参考。

图卷积网络（GCN）是卷积神经网络的一种变体，在处理图结构数据的节点分类任务中有着重要应用。

× 很多问题在本质是都可以表示为图的形式。在真实世界中，我们会发现很多数据其实是以图的形式存在的，比如分子网络，社交网络以及论文引用网络等等。基于图的任务针对图数据，通常有以下几种比较常见的任务类型：结点分类(Node classification)：给定一个结点，预测其类型。链路预测(Link prediction)：预测两个结点之间是否存在连接。社区检测(Community detection)：确定具有紧密连接关系的结点簇。网络相似度(Network similarity)：衡量两个网络或子网络之间的相似性。

例如在化学领域，给定分子结构（以图表示化学键），可以利用GCN预测分子中原子的类型（如碳、氧等）。

本文以数据集为例，详细阐述基于GCN的节点分类实现过程。

数据准备

（一）数据集下载与加载

首先从指定网址下载数据集，该数据集包含碳、氢、氮、氧和硫这五种不同的原子。通过以下代码实现下载与初步处理：


if ~exist(data_file,"file"):
 mkdir(output_folder)

加载下载好的MAT文件中的数据，其包含多个不同的数组，本文主要使用代表库仑矩阵的X数组和代表每个原子原子序数的Z数组，代码如下：

data = load(data_file)

（二）图数据预处理

从加载的数据结构中提取库仑数据和原子序数，并进行相应变换。

为了将训练数据中的库仑矩阵转换为邻接矩阵。之后对部分数据进行可视化展示，查看分子的相关情况，像提取未填充的邻接矩阵、将原子序数转换为符号并绘图等，代码如下：



 nexttile
 plot(G,NodeLabel=symbols,Layout="force")

分子可视化

作者

Kaizong Ye

✉

联系我们

可下载资源

完整程序、数据和文档（word）

本文分析的智能体、数据、代码、报告分享至会员群

加入会员群

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI，NRI指标

利用直方图可视化各标签类别的频率，代码如下：

figure
histogram(categorical(atomicSymbol(atom_data)))

视频

Python、R时间卷积神经网络TCN与CNN、RNN预测时间序列实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

【视频讲解】Python深度学习股价预测、量化交易策略：LSTM、GRU深度门控循环神经网络附代码数据

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

【视频讲解】神经网络、Lasso回归、线性回归、随机森林、ARIMA股票价格时间序列预测

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

卷积神经网络CNN肿瘤图像识别

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

标签计数直方图
对数据进行划分，分为训练集、验证集和测试集，分别包含80%、10%和10%的数据。

模型构建

（一）深度学习模型定义

定义的深度学习模型输入为邻接矩阵A和特征矩阵X，输出分类预测结果。模型是一系列形如 Zl+1=σl(D^−1/2A^D^−1/2ZlWl)+Zl的操作组合，其中涉及激活函数、权重矩阵等不同元素。

（二）模型参数初始化

创建结构来存放模型参数，并利用函数（本文附属文件）初始化各乘法操作的可学习权重：

parameters = struct()
num_hidden_feature_maps = 32

（三）模型相关函数定义

创建函数，其输入模型参数、特征数据和邻接矩阵，返回预测结果；输入模型参数、特征数据、邻接矩阵以及独热编码目标，返回损失、损失相对于参数的梯度和网络预测；另外还有函数，它们各自在模型的训练、预测等环节发挥重要作用。

模型训练

设定训练轮数为1500轮，学习率为0.01，每300轮验证一次网络。初始化Adam相关参数，将训练和验证特征数据转换为特定对象格式，若有可用GPU则将数据转换到GPU上进行训练，同时将训练和验证标签转换为独热编码向量，并初始化训练进度监测对象。然后利用自定义训练循环训练模型，在每一轮中进行模型损失和梯度评估、更新网络参数、更新训练绘图以及按要求验证网络等操作：

num_epochs = 1500
learn_rate = 0.01
validation_frequency = 300
trailing_avg = []
trailing_avg_sq = []

训练过程图像

模型测试与预测

（一）模型测试

使用测试数据对模型进行测试，先按照训练和验证数据的处理步骤预处理测试数据，将测试特征数据转换为相应对象格式，利用模型进行预测并将概率转换为分类标签，最后计算准确率，还通过混淆矩阵等方式可视化模型的预测情况，评估模型基于类别精度和召回率等指标的表现。

计算混淆矩阵：

figure
cm = confusionchart(labels_test,Y_test,

（二）新数据预测

利用函数对未标记数据进行预测，选择测试数据的前几个观测值简单示例，可视化预测结果，将预测结果作为节点标签绘制分子的图表示：

R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据（MNIST）

阅读文章 ➜

num_observations_new = 4
adjacency_data_new = adjacency_data_test[:,:,1:num_observations_new]

随时关注您喜欢的主题

新数据预测可视化

总结

本文通过对数据集完整的处理、基于图卷积网络的模型构建、训练及测试等流程展示，呈现了图中节点分类任务的实现过程及相关方法应用。结果表明模型在该任务中有一定的准确率等表现，后续可进一步探索优化模型结构、改进数据处理方式等方面，以提升模型在节点分类任务中的性能，更好地应用于如化学分子结构分析等诸多领域。

参考文献

[1] Kipf, Thomas N., and Max Welling. “Semi-Supervised Classification with Graph Convolutional Networks.” Paper presented at ICLR 2017, Toulon, France, April 2017.
[2] Blum, Lorenz C., and Jean-Louis Reymond. “970 Million Druglike Small Molecules for Virtual Screening in the Chemical Universe Database GDB-13.” Journal of the American Chemical Society 131, no. 25 (July 1, 2009): 8732–33. https://doi.org/10.1021/ja902302h.
[3] Rupp, Matthias, Alexandre Tkatchenko, Klaus-Robert Müller, and O. Anatole von Lilienfeld. “Fast and Accurate Modeling of Molecular Atomization Energies with Machine Learning.” Physical Review Letters 108, no. 5 (January 31, 2012): 058301. https://doi.org/10.1103/PhysRevLett.108.058301.