R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
在讨论分类时,我们经常分析二维数据(一个自变量,一个因变量)。但在实际生活中,有更多的观察值,更多的解释变量。随着两个以上的解释变量,它开始变得更加复杂的可视化。
在讨论分类时,我们经常分析二维数据(一个自变量,一个因变量)。但在实际生活中,有更多的观察值,更多的解释变量。随着两个以上的解释变量,它开始变得更加复杂的可视化。
本文考虑一下基于核方法进行分类预测。注意,在这里,我们不使用标准逻辑回归,它是参数模型。
这个例子展示了如何使用分位数随机林来检测异常值。
至少有两种非平稳时间序列:具有趋势的时间序列和具有单位根的时间序列(称为单整时间序列)。
本文将介绍如何在R中做贝叶斯回归分析,R中有不少包可以用来做贝叶斯回归分析,比如最早的(同时也是参考文献和例子最多的)R2WinBUGS包。
多元统计分析中,交互作用是指某因素作用随其他因素水平的不同而不同,两因素同时存在是的作用不等于两因素单独作用之和(相加交互作用)或之积(相乘交互作用)。
本文学习创建时间序列预测的步骤,关注Dickey-Fuller检验、指数加权平均(EWMA)和ARIMA(自回归移动平均)模型,从理论上学习这些概念以及它们在python和R中的实现。
在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解。
我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。
正则化路径是在正则化参数lambda的值网格上计算套索LASSO或弹性网路惩罚的正则化路径。
分段回归( piecewise regression ),顾名思义,回归式是“分段”拟合的。
房价有关的数据可能反映了中国近年来的变化:
本文我们对逻辑回归和样条曲线进行介绍。
这篇文章探讨了为什么使用广义相加模型 是一个不错的选择。为此,我们首先需要看一下线性回归,看看为什么在某些情况下它可能不是最佳选择。
本文使用lasso或非凸惩罚拟合线性回归,GLM和Cox回归模型的正则化
当线性假设无法满足时,可以考虑使用其他方法。
假设我们期望因变量由潜在协变量子集的线性组合确定。
资本资产定价模型(CAPM) 是用于确定是否在一个特定资产的投资是值得的。
本文估计实际GDP增长率的两状态Markov区制转换动态回归模型 。
MCMC是从复杂概率模型中采样的通用技术。
包含更多的预测变量不是免费的:在系数估算的更多可变性,更难的解释以及可能包含高度依赖的预测变量方面要付出代价。
之前我们讨论了使用ROC曲线来描述分类器的优势,有人说它描述了“随机猜测类别的策略”。
现在,分位数回归已被确立为重要的计量经济学工具。
这篇文章中我们可以编写自己的代码来计算套索(lasso)回归,
本文我们讨论了期望寿命的计算,人口统计模型的起点是死亡率表。
我根据泊松Poisson回归、GAM样条曲线模型对一个十字路口的骑自行车者的数量进行预测
本文想在R软件中更好地了解分位数回归优化。在查看分位数回归之前,让我们从样本中计算中位数或分位数。
电力负荷预测是电网规划的基础,其水平的高低将直接影响电网规划质量的优劣。
为了找出影响价格波动的主要因素,我们使用逐步回归法来剔除一些对于应变量即把对价格影响很小的自变量剔除出我们的模型
本文通过R语言建立广义线性模型(GLM)、多项式回归和广义可加模型(GAM)来预测谁在1912年的泰坦尼克号沉没中幸存下来。
比如说分类变量为是否幸存、是因变量,连续变量为年龄、是自变量,这两者可以做相关分析吗?两者又是否可以做回归分析?
当我们将CNN(卷积神经网络)模型用于训练多维类型的数据(例如图像)时,它们非常有用。
我们首先讨论多项式回归,进一步,我们会想到分段线性或分段多项式函数,可能还有附加的连续性约束,这些是样条曲线回归的基础。
根据我们对温度的预测,我们可以预测电力消耗。
在本文中,我们使用了逻辑回归、决策树和随机森林模型来对信用数据集进行分类预测并比较了它们的性能。
尽管对于较高的阈值,SVM可以产生更好的ROC值,但逻辑回归通常更擅长区分不同类别。朴素贝叶斯的ROC曲线通常低于其他两个ROC曲线,这表明样本内性能比其他两个分类器方法差。
一种类型的平滑称为样条平滑。柔性金属(通常是铅),可以用作绘制平滑曲线的参考。将选择一组点(称为结),然后将样条线压在特定的x,y点,然后弯曲以通过下一个点,依此类推。
回归分析是一种十分常见的数据分析方法,通过观测数据确定变量间的相互关系。传统回归分析以点数据为研究对象,预测结果也是点数据,而真实数据往往在一定范围内变动的。
每次我们在应用计量经济学课程中遇到实际应用时,我们都要处理类别变量。
我们已经看到了如何考虑风险敞口,计算包含风险敞口的多个数量(经验均值和经验方差)的非参数估计量。让我们看看如果要对二项式变量建模。
公司必须使用细分技术才能生存。现在,问题在于,我们不能确定指数衰减是溢价随年龄变化的正确方法。一种替代方法是使用非参数技术来可视化年龄对索赔频率的真实影响。
这里的想法是使距离最大化:想法是区分,所以我们希望样本尽可能不独立。要计算基尼系数。
通常,我们在回归模型中一直说的一句话是“ 请查看一下数据 ”。
当我们要为预测提供一个置信区间时,建议您为预测器确定置信区间参数的估计和潜在值的置信区间。
在之前的课堂上,我们已经看到了如何可视化多元回归模型(带有两个连续的解释变量)。
在保险定价中,风险敞口通常用作模型索赔频率的补偿变量。
R语言中基于混合数据抽样(MIDAS)回归的HAR-RV模型预测GDP增长
我想研究如何使用pymc3在贝叶斯框架内进行线性回归。根据从数据中学到的知识进行推断。
R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归
在这篇文章中,我将从一个基本的线性模型开始,然后从那里尝试找到一个更合适的线性模型。 由于空气质
尽管线性模型是最简单的机器学习技术之一,但它们仍然是进行预测的强大工具。
R语言中回归和分类模型选择的性能指标
本文使用模拟数据比较了标准最小二乘法和lasso回归。
R语言中小样本违反异方差性的线性回归
R语言异方差回归模型建模:用误差方差解释异方差
R语言使用二进制回归将序数数据建模为多元GLM
今天的主题是Stata中的治疗效果。 我们将讨论四种治疗效果估计量:
RA:回归调整
IPW:逆概率加权
IPWRA:具有回归调整的逆概率加权
AIPW:增强的逆概率加权
R语言中的Theil-Sen回归分析
R语言关于回归系数的解释
在本课程中,我们将考虑一些线性模型的替代拟合方法,除了通常的 普通最小二乘法。
在这里,我们放宽了流行的线性技术的线性假设。
R语言逻辑回归、方差分析 、伪R平方分析
我从马里兰州生物流调查中提取了一些数据,以进行多元回归分析。
R语言对回归模型进行协方差分析