高维变量选择专题|R、Python用HOLP、Lasso、SCAD、PCR、ElasticNet实例合集分析企业财务、糖尿病、基因数据
本专题合集聚焦高维数据场景下的稀疏建模与变量选择,通过 R 语言与 Python 双平台技术栈,系统解析企业财务分析与基因数据挖掘两大领域的核心方法论。
本专题合集聚焦高维数据场景下的稀疏建模与变量选择,通过 R 语言与 Python 双平台技术栈,系统解析企业财务分析与基因数据挖掘两大领域的核心方法论。
WeChat Tencent QQ email print 由Li Yu撰写 进而起到降维的目的,还可检验变量
凯恩斯相关理论主要是美国20世纪30年代的经济危机而提出的,主张政府干预经济,实行宏观调控。
Twenty tobacco budworm moths of each sex were exposed to different doses of the insecticide trans-cypermethrin.
最近我们被客户要求撰写关于上海空气质量指数的研究报告。
在本工作表中,我们将研究价格、收益率和波动性。波动性通常用收益率的均方差来衡量,例如夏普比率的分母,它被用作风险的衡量标准。
最近我们被客户要求撰写关于租房数据分析的研究报告。利用 python 爬取链家网公开的租房数据
传统上,协整的测试是在非常长的时间内进行的,本案例研究A测试了1960-2010年期间T-Bill利率和国债收益率之间的平衡。
最近我们被客户要求撰写关于逻辑回归混合效应模型的研究报告。吸烟、喝酒和赌博被认为是由许多因素造成的。
近段时间,美国总统大选引起了世界各国的关注。
纪录片能够真实、详尽地反映一个地区的风貌,展示经济发展和社会进步。
当ARIMA模型包括其它时间序列作为输入变量时,被称为传递函数模型(transfer function model)、多变量时间序列模型(multivariate time series model)、ARIMAX模型或Box-Tiao模型。
本文介绍具有分组惩罚的线性回归、GLM和Cox回归模型的正则化路径。
铁和泛酸的极好来源,是澳大利亚、美国和东亚的营养食品资源和农业。100 克鲍鱼可提供超过 20% 的每日推荐摄入量。鲍鱼的经济价值与其年龄呈正相关。因此,准确检测鲍鱼的年龄对于养殖者和消费者确定其价格非常重要。
在经济学中,技术效率是指在既定的投入下产出可增加的能力或在既定的产出下投入可减少的能力。
在许多网站上都可以找到一个流行的德国信贷数据集_german_credit_,其中包含了银行贷款申请人的信息。
结构方程模型是一个线性模型框架,它对潜变量同时进行回归方程建模。
在这篇文章中,我将展示如何使用R语言来进行支持向量回归SVR。
在本文中,我们将学习如何使用keras,用手写数字图像数据集(即MNIST)进行深度学习。
数学模型的统计评价通常是通过考虑测试统计量来进行的,测试统计量表示观察数据和拟合模型的数据之间的差异。
最近我们被客户要求撰写关于时间序列的研究报告。我们做的第一件事是清除当前环境中的所有变量。这可以通过以下命令进行。
每一个动态现象都可以用一个潜过程(Λ(t)来描述,这个潜过程在连续的时间t内演化。
本文考虑一下基于核方法进行分类预测。注意,在这里,我们不使用标准逻辑回归,它是参数模型。
至少有两种非平稳时间序列:具有趋势的时间序列和具有单位根的时间序列(称为单整时间序列)。
假设检验的基本原理是小概率原理,即我们认为小概率事件在一次试验中实际上不可能发生。
在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解。
我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。
最近我们被客户要求撰写关于面板平滑转换回归(PSTR)的研究报告。建模过程包括三个阶段:表述,估计和评估。当采用两种状态时,单转换函数PSTR模型具有两个变量:
极值理论关注风险损失分布的尾部特征,通常用来分析概率罕见的事件,它可以依靠少量样本数据,在总体分布未知的情况下,得到总体分布中极值的变化情况,具有超越样本数据的估计能力。
本文我们对逻辑回归和样条曲线进行介绍。
本文提供了运行分布滞后非线性模型的示例,同时描述了预测变量和结果之间的非线性和滞后效应,这种相互关系被定义为暴露-滞后-反应关联。
最近我们被客户要求撰写关于聚类技术的研究报告。为了说明层次聚类技术和k-均值,我使用了了城市温度数据集,其中包括几个城市的月平均气温。
本文演示了在时间序列分析中应用分布滞后线性和非线性模型(DLMs和DLNMs)。
环境科学中的许多数据不适合简单的线性模型,最好用广义相加模型(GAM)来描述。<
这篇文章探讨了为什么使用广义相加模型 是一个不错的选择。为此,我们首先需要看一下线性回归,看看为什么在某些情况下它可能不是最佳选择。
本文使用lasso或非凸惩罚拟合线性回归,GLM和Cox回归模型的正则化
最近我们被客户要求撰写关于混合效应模型的研究报告。我们已经学习了如何处理混合效应模型。
本文将说明金融数学中的R 语言优化投资组合,因子模型的实现和使用。
在本文中,我们将介绍三种提高循环神经网络性能和泛化能力的高级技术。
资本资产定价模型(CAPM) 是用于确定是否在一个特定资产的投资是值得的。
本文将说明单变量和多变量金融时间序列的不同模型,特别是条件均值和条件协方差矩阵、波动率的模型。
具有单个隐藏层和滞后输入的前馈神经网络,可以用于预测单变量时间序列。
在本教程中,您将学习如何在R中创建神经网络模型。
如果您可以写出模型的似然函数,则 Metropolis-Hastings算法可以负责其余部分(即MCMC )。
机器学习算法可用于找到最佳值来交易您的指标。
Stan是一种用于指定统计模型的概率编程语言。Stan通过马尔可夫链蒙特卡罗方法(例如No-U-Turn采样器,一种汉密尔顿蒙特卡洛采样的自适应形式)为连续变量模型提供了完整的贝叶斯推断。
在引入copula时,大家普遍认为copula很有趣,因为它们允许分别对边缘分布和相依结构进行建模。
MCMC是从复杂概率模型中采样的通用技术。
最近我们被客户要求撰写关于ARMA-GARCH模型的研究报告。工业指数(DIJA)的价值基于每个组成公司的每股股票价格之和。
包含更多的预测变量不是免费的:在系数估算的更多可变性,更难的解释以及可能包含高度依赖的预测变量方面要付出代价。
有人已经表示有必要在战术资产配置(Tactical Asset Allocation, 简称TAA)策略中使用共同基金而不是ETF。
最近我们被客户要求撰写关于分析高频金融数据波动率的研究报告。在学术界和金融界,分析高频财务数据的经济价值现在显而易见。
之前我们讨论了使用ROC曲线来描述分类器的优势,有人说它描述了“随机猜测类别的策略”。
在回归模型研究中,我们将讨论优化,而经典工具就是所谓的共轭。给定函数f:Rp→R,其共轭值为函数f ⋆:Rp→R使得
现在,分位数回归已被确立为重要的计量经济学工具。
在普遍的理解中,最大似然估计是使用已知的样本结果信息来反向推断最有可能导致这些样本结果的模型参数值!
本文将使用一个小数据说明ROC曲线,其中n = 10个观测值,两个连续变量x_1和x_2,以及二元变量y∈{0,1}。
本文使用波兰公寓价格数据说明Fisher检验。
这是一个六边形热图可视化程序,主要用到的知识RColorBrewer,fields,也就是R中的可视化绘图库。
时间序列分析是统计学中的一个主要分支,主要侧重于分析数据集以研究数据的特征并提取有意义的统计信息来预测序列的未来值。时序分析有两种方法,即频域和时域。
为了在统计过程中发现更多有趣的结果,我们将解决极大似然估计没有简单分析表达式的情况。
本文我们讨论了期望寿命的计算,人口统计模型的起点是死亡率表。
为了用R来处理网络数据,我们使用婚礼数据集。
自组织映射神经网络(SOM)是一种无监督的数据可视化技术,可用于可视化低维(通常为2维)表示形式的高维数据集。
永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。
技术干货
最新洞察
This will close in 0 seconds