这样将即可以使用Logistic回归分析结合历史数据对组合中每支股票进行回归分析。利用回归分析结果预测每只股票下个月收益率大于指数投资组合收益率的概率，这时我们选取预测中收益率大于基准收益率概率排名前40支股票，等权重组合，在当月的最后一个交易日以收盘价买入，在次月的最后一个交易日以收盘价卖出。如此即为Logistic选股模型的交易策略。

实证结果分析

#读取数据

file=list.files(".",pattern=".Rdata")

 

for(i in file)load(i)

#计算对数收益率
data$return2=c(0,( log((data$CLOSE.y[-1])/data$CLOSE.y[-nrow(data)])))

合并因子数据和收益率数据

经过对模型的检验得到以下结果：

逻辑回归收益分布

逻辑回归收益的直方图可以看到大部分收益分布在大于0的区域

图中显示了根据模型所选股票在当期的收益率分布。从图中可以看出大部分股票收益率分布在0%至-10%之间，将近半数的股票在其交易当期内具有小额负收益。

最受欢迎的见解

1.R语言对S＆P500股票指数进行ARIMA + GARCH交易策略

2.R语言改进的股票配对交易策略分析SPY—TLT组合和中国股市投资组合

3.R语言时间序列：ARIMA GARCH模型的交易策略在外汇市场预测应用

4.TMA三均线期指高频交易策略的R语言实现

5.r语言多均线量化策略回测比较

6.用R语言实现神经网络预测股票实例

7.r语言预测波动率的实现：ARCH模型与HAR-RV模型

8.R语言如何做马尔科夫转换模型markov switching model

9.matlab使用Copula仿真优化市场风险

R语言金融市场量化交易：布林带、价差策略、RSI交易策略，回测

阅读文章 ➜

这个图横轴代表时间。纵轴代表使用逻辑回归模型结果在不同时间点的收益

累计收益

随时关注您喜欢的主题

组合累积和基准累积

这个图横轴代表时间。纵轴代表使用逻辑回归模型结果在不同时间点的收益率：

通过图中对利用Logistic选股模型选出的组合的收益率和基准收益率的对比可以看出看出通过Logistic选股模型选出的组合具有一个较平稳的收益率，而且在绝大数的时间内收益率超过了基准收益。

由此可以看出Logistic选股模型具有一定的稳定性和有效性，在绝大多数的情况下可以选出收益率高于基准收益的组合。

组合和基准每月的收益率的对比图

逻辑回归模型结果

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.86049  -0.32622  -0.05835  -0.00147   2.24675  

Coefficients:
                      Estimate Std. Error z value Pr(>|z|)
(Intercept)          7.199e+00  9.101e+00   0.791    0.429
SHARE_TOTALTRADABLE -9.482e-10  1.934e-09  -0.490    0.624
MKT_CAP             -4.653e-11  5.952e-11  -0.782    0.434
MV                  -1.687e+00  2.033e+00  -0.830    0.407
pe                  -9.811e-02  1.128e-01  -0.870    0.384

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 16.081  on 41  degrees of freedom
Residual deviance: 11.560  on 37  degrees of freedom
  (1 observation deleted due to missingness)
AIC: 21.56

总结

构建了Logistic选股模型，并利用历史数据经行回测，验证模型的有效性，并根据实验数据得到结果证明Logistic选股模型可以在大部分情况下为投资者选出一个收益率能够超过基准收益的投资组合。但是本文的研究也可能存在以下问题和漏洞：

本文选取了过去5年的历史数据，其中会有较多的数据缺失，数据缺失较多的股票不会计入模型，可能会造成结果的偏差。
对于部分股票具有数据缺失，在经行Logistic回归分析的时候会造成回归结果的不准确，从而影响最终结果。
本文中只是选取前3年的数据经行Logistic回归分析，在计算更近时期的收益时，并没有加入之后新的因子数据经行计算，可能造成分析的不准确。
本文只是解析了Logistic选股模型的原理并构建模型加以验证，其中没有对因子的选取进行验证，不能保证所有的因子都具有极大的相关性，其中也可能会有部分因子导致结果的偏差。
在实验中所用到的数据可能由于现实中信息披露的可靠性、稳定性、时效性等问题导致实验结果不是完全的可靠。
本文中忽略了如果使用Logistic选股模型经行交易对市场的影响。
本文采用的是以季度发布的数据，实验中不能对季度中因子变化导致的影响作出分析。

参考文献

[1]：黄志文. Logistic选股模型及其在沪深300中的实证[R].国信证券，2010.

[2]：黄志文.传统多因素模型及其在沪深300 中的实证[R].国信证券，2010.

[3]：滋维·博迪.投资学[M].第九版.机械工业出版社，2012；127-172.

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言逻辑回归Logistic选股因素模型交易策略及沪深300指数实证

因素模型

研究思路

Logistic模型在股票交易中的选股策略

实证结果分析

逻辑回归收益分布

R语言金融市场量化交易：布林带、价差策略、RSI交易策略，回测

累计收益

随时关注您喜欢的主题

组合累积和基准累积

通过图中对利用Logistic选股模型选出的组合的收益率和基准收益率的对比可以看出看出通过Logistic选股模型选出的组合具有一个较平稳的收益率，而且在绝大数的时间内收益率超过了基准收益。

组合和基准每月的收益率的对比图

逻辑回归模型结果

总结

参考文献

相关文章

R语言逻辑回归Logistic选股因素模型交易策略及沪深300指数实证

因素模型

研究思路

Logistic模型在股票交易中的选股策略

实证结果分析

逻辑回归收益分布

R语言金融市场量化交易：布林带、价差策略、RSI交易策略，回测

累计收益

随时关注您喜欢的主题

组合累积和基准累积

通过图中对利用Logistic选股模型选出的组合的收益率和基准收益率的对比可以看出看出通过Logistic选股模型选出的组合具有一个较平稳的收益率，而且在绝大数的时间内收益率超过了基准收益。

组合和基准每月的收益率的对比图

逻辑回归模型结果

总结

参考文献

相关文章

关注我们，永远不要错过任何见解。