R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口数据
假设我们需要设计一个抽样调查,有一个完整的框架,包含目标人群的信息(识别信息和辅助信息)。
假设我们需要设计一个抽样调查,有一个完整的框架,包含目标人群的信息(识别信息和辅助信息)。
蒙特卡洛方法利用随机数从概率分布P(x)中生成样本,并从该分布中评估期望值,该期望值通常很复杂,不能用精确方法评估。
一旦我们清理了我们的文本并进行了一些基本的词频分析,下一步就是了解文本中的观点或情感。这被认为是情感分析,本教程将引导你通过一个简单的方法来进行情感分析。
逻辑回归是一种拟合回归曲线的方法,y=f(x),当y是一个分类变量时。
贝叶斯网络(BN)是一种基于有向无环图的概率模型,它描述了一组变量及其相互之间的条件依赖性。
动态时间规整(DTW,Dynamic time warping,动态时间归整/规整/弯曲)是一种衡量两个序列之间最佳排列的算法。
使用glmnet软件包中的相关函数对岭回归和lasso套索回归进行分析。
这个数据集常用于数据概述、可视化和聚类模型。
VaR是 “风险价值 “的缩写,是许多公司和银行用来确定其公司内部金融风险水平的工具。风险值是为公司的投资而计算的,也可能是为检查银行或公司所管理的投资组合的风险水平。
(a)部分:k-means聚类
使用k-means聚类法将数据集聚成2组。
画一个图来显示聚类的情况
使用k-means聚类法将数据集聚成3组。
画一个图来显示聚类的情况
(b)部分:层次聚类
使用全连接法对观察值进行聚类。
使用平均和单连接对观测值进行聚类。
绘制上述聚类方法的树状图。
最近我们被客户要求撰写关于GLM模型的研究报告。具体来说,本教程重点介绍逻辑回归在二元结果和计数/比例结果情况下的使用,以及模型评估的方法。
主成分分析法是数据挖掘中常用的一种降维算法。
这个例子说明了一个函数拟合的神经网络如何根据测量结果来估计脂肪百分比。
关联规则挖掘是一种无监督的学习方法,从交易数据中挖掘规则。
Lease Absolute Shrinkage and Selection Operator(LASSO)在给定的模型上执行正则化和变量选择。
贝叶斯回归分位数在最近的文献中受到广泛关注,本文实现了贝叶斯系数估计和回归分位数(RQ)中的变量选择,带有lasso和自适应lasso惩罚的贝叶斯。
基本的Prophet模型是一个可分解的单变量时间序列模型,结合了趋势、季节性和节假日效应。
状态空间建模是一种高效、灵活的方法,用于对大量的时间序列和其他数据进行统计推断。本文介绍了状态空间建模,其观测值来自指数族,即高斯、泊松、二项、负二项和伽马分布。
就香水市场份额而言,亚洲占全球销售额的8%,仅占拉丁美洲的20%,而中国仅占全球销售额的0.8%。
这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法。
本文提供了一个在统计模型中使用马可夫转换模型模型的例子,来复现Kim和Nelson(1999)中提出的一些结果。
既包括传统的方法,如单变量和多变量正态混合的EM算法,也包括反映有限混合模型的一些最新研究的方法。许多算法都是EM算法或基于类似EM的思想,因此本文包括有限混合模型的EM算法的概述。
本报告是对心脏研究的机器学习/数据科学调查分析。更具体地说,我们的目标是在心脏研究的数据集上建立一些预测模型,并建立探索性和建模方法。但什么是心脏研究?
对于线性关系,我们可以进行简单的线性回归。对于其他关系,我们可以尝试拟合一条曲线。
标准的ARIMA(移动平均自回归模型)模型允许只根据预测变量的过去值进行预测。
我们将使用葡萄酒数据集进行主成分分析。
本文是一个简短的教程,在R中拟合BRT(提升回归树)模型。我们的目标是使BRT(提升回归树)模型应用于生态学数据,并解释结果。
本文展示了如何使用扩展卡尔曼滤波器进行故障检测。本文使用扩展的卡尔曼滤波器对一个简单的直流电机的摩擦力进行在线估计。
简要地提供了在经济学中使用模型平均和贝叶斯方法的论据,使用了动态模型平均法(DMA),并与ARIMA、TVP等方法进行比较。希望对经济和金融领域的从业人员和研究人员有用。
通常,bagging 与树有关,用于生成森林。但实际上,任何类型的模型都有可能使用bagging 。
多项式回归是独立x变量和因果y变量之间的非线性关系。
本文的目的是完成一个逻辑回归分析。使你对分析步骤和思维过程有一个基本概念。
在心理学研究中,个人主体的模型正变得越来越流行。原因之一是很难从人之间的数据推断出个人过程。另一个原因是,由于移动设备无处不在,从个人获得的时间序列变得越来越多。
Boosting算法是一种把若干个分类器整合为一个分类器的方法,也就是一种集成分类方法(Ensemble Method)。
目前,回归诊断不仅用于一般线性模型的诊断,还被逐步推广应用于广义线性模型领域(如用于logistic回归模型)。
最近我们被客户要求撰写关于PLS的研究报告。本文建立偏最小二乘法(PLS)回归(PLSR)模型,以及预测性能评估。
最近我们被客户要求撰写关于混合效应逻辑回归的研究报告。
如果你了解数据科学领域,你可能听说过LASSO。LASSO是一个对目标函数中的参数大小进行惩罚的模型,试图将不相关的变量从模型中排除。
最近我们被客户要求撰写关于心脏病数据的研究报告。在讨论分类时,我们经常分析二维数据(一个自变量,一个因变量)。
线性回归时若数据不服从正态分布,会给线性回归的最小二乘估计系数的结果带来误差,所以需要对数据进行结构化转换。
向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的。
每一个动态现象都可以用一个潜过程(Λ(t)来描述,这个潜过程在连续的时间t内演化。
本文考虑一下基于核方法进行分类预测。注意,在这里,我们不使用标准逻辑回归,它是参数模型。
这个例子展示了如何使用分位数随机林来检测异常值。
本文将介绍如何在R中做贝叶斯回归分析,R中有不少包可以用来做贝叶斯回归分析,比如最早的(同时也是参考文献和例子最多的)R2WinBUGS包。
多元统计分析中,交互作用是指某因素作用随其他因素水平的不同而不同,两因素同时存在是的作用不等于两因素单独作用之和(相加交互作用)或之积(相乘交互作用)。
本文学习创建时间序列预测的步骤,关注Dickey-Fuller检验、指数加权平均(EWMA)和ARIMA(自回归移动平均)模型,从理论上学习这些概念以及它们在python和R中的实现。
在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解。
我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。
正则化路径是在正则化参数lambda的值网格上计算套索LASSO或弹性网路惩罚的正则化路径。
分段回归( piecewise regression ),顾名思义,回归式是“分段”拟合的。
任何MCMC方案的目标都是从“目标”分布产生样本。
房价有关的数据可能反映了中国近年来的变化:
WeChat Tencent QQ email print 由Kaizong Ye,Weilong Zhang
本文我们对逻辑回归和样条曲线进行介绍。
本文提供了运行分布滞后非线性模型的示例,同时描述了预测变量和结果之间的非线性和滞后效应,这种相互关系被定义为暴露-滞后-反应关联。
最近我们被客户要求撰写关于聚类技术的研究报告。为了说明层次聚类技术和k-均值,我使用了了城市温度数据集,其中包括几个城市的月平均气温。
本文演示了在时间序列分析中应用分布滞后线性和非线性模型(DLMs和DLNMs)。
环境科学中的许多数据不适合简单的线性模型,最好用广义相加模型(GAM)来描述。<
这篇文章探讨了为什么使用广义相加模型 是一个不错的选择。为此,我们首先需要看一下线性回归,看看为什么在某些情况下它可能不是最佳选择。
本文使用lasso或非凸惩罚拟合线性回归,GLM和Cox回归模型的正则化
人工神经网络最初是由研究人员开发的,他们试图模仿人脑的神经生理学。
时间序列 被定义为一系列按时间顺序索引的数据点。时间顺序可以是每天,每月或每年。
预测股价已经受到了投资者,政府,企业和学者广泛的关注。然而,数据的非线性和非平稳性使得开发预测模型成为一项复杂而具有挑战性的任务。
最近我们被客户要求撰写关于混合效应模型的研究报告。我们已经学习了如何处理混合效应模型。
当线性假设无法满足时,可以考虑使用其他方法。
回首不平凡的2020年,技术力量越来越受到重视,技术从业者的责任也越来越重大。
时间序列为预测未来数据提供了方法。根据先前的值,时间序列可用于预测经济,天气的趋势。
永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。
技术干货
最新洞察
This will close in 0 seconds