R语言非参数方法:使用核回归平滑估计和K-NN(k近邻算法)分类预测心脏病数据
本文考虑一下基于核方法进行分类预测。注意,在这里,我们不使用标准逻辑回归,它是参数模型。
本文考虑一下基于核方法进行分类预测。注意,在这里,我们不使用标准逻辑回归,它是参数模型。
这个例子展示了如何使用分位数随机林来检测异常值。
至少有两种非平稳时间序列:具有趋势的时间序列和具有单位根的时间序列(称为单整时间序列)。
本文将介绍如何在R中做贝叶斯回归分析,R中有不少包可以用来做贝叶斯回归分析,比如最早的(同时也是参考文献和例子最多的)R2WinBUGS包。
多元统计分析中,交互作用是指某因素作用随其他因素水平的不同而不同,两因素同时存在是的作用不等于两因素单独作用之和(相加交互作用)或之积(相乘交互作用)。
本文学习创建时间序列预测的步骤,关注Dickey-Fuller检验、指数加权平均(EWMA)和ARIMA(自回归移动平均)模型,从理论上学习这些概念以及它们在python和R中的实现。
WeChat Tencent QQ email print 由Kaizong Ye,Liao Bao撰写 μ是
在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解。
我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。
正则化路径是在正则化参数lambda的值网格上计算套索LASSO或弹性网路惩罚的正则化路径。
最近我们被客户要求撰写关于预测销量时间序列的研究报告。指数平滑模型是基于对数据趋势和季节性的描述,而ARIMA模型则是为了描述数据的自相关性。
分段回归( piecewise regression ),顾名思义,回归式是“分段”拟合的。
任何MCMC方案的目标都是从“目标”分布产生样本。
最近我们被客户要求撰写关于面板平滑转换回归(PSTR)的研究报告。建模过程包括三个阶段:表述,估计和评估。当采用两种状态时,单转换函数PSTR模型具有两个变量:
房价有关的数据可能反映了中国近年来的变化:
WeChat Tencent QQ email print 由Kaizong Ye,Weilong Zhang
极值理论关注风险损失分布的尾部特征,通常用来分析概率罕见的事件,它可以依靠少量样本数据,在总体分布未知的情况下,得到总体分布中极值的变化情况,具有超越样本数据的估计能力。
本文我们对逻辑回归和样条曲线进行介绍。
本文提供了运行分布滞后非线性模型的示例,同时描述了预测变量和结果之间的非线性和滞后效应,这种相互关系被定义为暴露-滞后-反应关联。
最近我们被客户要求撰写关于聚类技术的研究报告。为了说明层次聚类技术和k-均值,我使用了了城市温度数据集,其中包括几个城市的月平均气温。
本文演示了在时间序列分析中应用分布滞后线性和非线性模型(DLMs和DLNMs)。
环境科学中的许多数据不适合简单的线性模型,最好用广义相加模型(GAM)来描述。<
这篇文章探讨了为什么使用广义相加模型 是一个不错的选择。为此,我们首先需要看一下线性回归,看看为什么在某些情况下它可能不是最佳选择。
本文使用lasso或非凸惩罚拟合线性回归,GLM和Cox回归模型的正则化
人工神经网络最初是由研究人员开发的,他们试图模仿人脑的神经生理学。
时间序列 被定义为一系列按时间顺序索引的数据点。时间顺序可以是每天,每月或每年。
预测股价已经受到了投资者,政府,企业和学者广泛的关注。然而,数据的非线性和非平稳性使得开发预测模型成为一项复杂而具有挑战性的任务。
最近我们被客户要求撰写关于混合效应模型的研究报告。我们已经学习了如何处理混合效应模型。
当线性假设无法满足时,可以考虑使用其他方法。
回首不平凡的2020年,技术力量越来越受到重视,技术从业者的责任也越来越重大。
时间序列为预测未来数据提供了方法。根据先前的值,时间序列可用于预测经济,天气的趋势。
假设我们期望因变量由潜在协变量子集的线性组合确定。
在本文中,我们将介绍三种提高循环神经网络性能和泛化能力的高级技术。
具有单个隐藏层和滞后输入的前馈神经网络,可以用于预测单变量时间序列。
在本教程中,您将学习如何在R中创建神经网络模型。
如果您可以写出模型的似然函数,则 Metropolis-Hastings算法可以负责其余部分(即MCMC )。
机器学习算法可用于找到最佳值来交易您的指标。
在移动广告领域,移动APP广告因其独特的价值而受到广告商的青睐。
本示例说明如何使用长短期记忆(LSTM)网络对序列数据进行分类。
Stan是一种用于指定统计模型的概率编程语言。Stan通过马尔可夫链蒙特卡罗方法(例如No-U-Turn采样器,一种汉密尔顿蒙特卡洛采样的自适应形式)为连续变量模型提供了完整的贝叶斯推断。
MCMC是从复杂概率模型中采样的通用技术。
最近我们被客户要求撰写关于时间序列预测的研究报告。时间序列预测问题是预测建模问题中的一种困难类型。
模型表现差异很大的可能原因是什么?换句话说,为什么在别人评估我们的模型时会失去稳定性?
包含更多的预测变量不是免费的:在系数估算的更多可变性,更难的解释以及可能包含高度依赖的预测变量方面要付出代价。
随着新型冠状病毒COVID-19的威胁遍及世界,我们生活在一个日益担忧的时代,本文用matlab分析COVID-19数据集。
之前我们讨论了使用ROC曲线来描述分类器的优势,有人说它描述了“随机猜测类别的策略”。
最新研究表明,中国有超过7亿人在观看在线视频内容。
现在,分位数回归已被确立为重要的计量经济学工具。
这篇文章中我们可以编写自己的代码来计算套索(lasso)回归
本文我们讨论了期望寿命的计算,人口统计模型的起点是死亡率表。
为了用R来处理网络数据,我们使用婚礼数据集。
自组织映射神经网络(SOM)是一种无监督的数据可视化技术,可用于可视化低维(通常为2维)表示形式的高维数据集。
我根据泊松Poisson回归、GAM样条曲线模型对一个十字路口的骑自行车者的数量进行预测
本文我们使用4个时间序列模型对每周的温度序列建模。
本文想在R软件中更好地了解分位数回归优化。在查看分位数回归之前,让我们从样本中计算中位数或分位数。
电力负荷预测是电网规划的基础,其水平的高低将直接影响电网规划质量的优劣。
为了找出影响价格波动的主要因素,我们使用逐步回归法来剔除一些对于应变量即把对价格影响很小的自变量剔除出我们的模型
网络模型已经成为抽象复杂系统,是深入了解许多科学领域中观测变量之间的关系模式的流行方法。
本文通过R语言建立广义线性模型(GLM)、多项式回归和广义可加模型(GAM)来预测谁在1912年的泰坦尼克号沉没中幸存下来。
在国内疫情稳定的新常态下,“双十一”点燃了消费者的购物热情,在购物热潮中,消费热点、消费者理念与行为将出现哪些变化?
比如说分类变量为是否幸存、是因变量,连续变量为年龄、是自变量,这两者可以做相关分析吗?两者又是否可以做回归分析?
当我们将CNN(卷积神经网络)模型用于训练多维类型的数据(例如图像)时,它们非常有用。
我们首先讨论多项式回归,进一步,我们会想到分段线性或分段多项式函数,可能还有附加的连续性约束,这些是样条曲线回归的基础。
根据我们对温度的预测,我们可以预测电力消耗。
永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。
技术干货
最新洞察
This will close in 0 seconds