之前在某社区中看到一篇帖子《一张价值几十万个跌停的统计表》,主要是预测即将被ST的股票,虽然有些标题党,但是还有有一些参考价值的。
文章中使用了净利润指标来对可能成为ST的股票进行排雷,那么是否有其他指标可以用机器学习的方法对该问题进行建模同时提高预测的准确度呢?在股票市场中,净利润指标一直是投资者和分析师们用于评估公司财务状况和预测未来走势的重要依据。然而,当文章使用净利润指标对可能成为ST的股票进行风险排查时,我们不得不意识到,单一指标可能无法全面反映公司的复杂性和市场的多变性。因此,引入机器学习的方法,并探索其他可能的指标,对于提高预测的准确度具有重要意义。
可下载资源
作者
首先我们来了解下问题的背景:
股票市场上,一般把财务状况或其他状况出现异常的上市公司的股票交易作特别处理,因此这些公司称为ST公司。 ST公司作为绩效水平低下的公司,而非 ST公司为绩效水平较好的公司。
金融是高度非线性的而且有时股票价格数据甚至看起来完全随机的。如ARIMA和GARCH模型这些传统的时间序列方法,只有在序列是稳定的情况下才有效,这是一种需要对序列进行对数收益率(或其他转换)预处理的限制假设。然而,在实时交易系统中实现这些模型时出现的主要问题是,随着新数据的添加,无法保证序列的稳定。
这是通过使用不需要任何平稳性的神经网络来解决的。此外,神经网络天生就能有效地发现数据之间的关系,并利用它来预测(或分类)新数据。
一个典型的全堆栈数据科学项目有以下工作流程:
1、数据采集——这为我们提供了特征;
2、数据预处理——这是使数据可用的一个常见且必要的步骤;
3、开发和实现模型-选择神经网络的类型和参数;
4、回溯模型——在任何交易策略中都是非常关键的一步;
5、优化——找到合适的参数;
那么有没有办法提前知道哪些股票即将被ST吗?
预测一家公司绩效水平的问题可以看作是二分类问题。
我们可以建立一个输出变量,其中“0”代表非ST公司,“1”代表ST公司。
然后我们搜集了上百种和公司绩效可能相关的变量作为模型的输入指标:
为了判断公司的绩效好坏,我们分别使用了分类问题中常用的神经网络模型和决策树模型。
1 神经网络:
l变量重要性
l神经网络拓普图
l分类准确度
2 决策树:
l变量重要性
l决策树结构图:
准确度:
随时关注您喜欢的主题
结论
从模型角度来看,神经网络模型的正确率略低于决策树模型。因此,对于民营上市公司绩效评价研究,决策树模型要优于神经网络模型。
同时,从变量重要性来看,基于本年的3季报的总资产增长率,可以大致预测出该股票是否即将被ST。如果今年3季报依然亏损很厉害,那么年报基本上也是亏损的了。
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!