R语言混合线性模型、多层次模型、回归模型分析学生平均成绩GPA和可视化
对于不熟悉的人来说,围绕混合模型的术语,特别是跨学科的术语,可能有点令人困惑。你可能遇到的关于这些类型的模型的一些术语包括。
对于不熟悉的人来说,围绕混合模型的术语,特别是跨学科的术语,可能有点令人困惑。你可能遇到的关于这些类型的模型的一些术语包括。
贝叶斯网络(BN)是一种基于有向无环图的概率模型,它描述了一组变量及其相互之间的条件依赖性。
最近我们被客户要求撰写关于GLM模型的研究报告。具体来说,本教程重点介绍逻辑回归在二元结果和计数/比例结果情况下的使用,以及模型评估的方法。
我们经常使用的一个关系性指标是相关性。通过可以利用数据框架和绘图来帮助探索相关关系。
主成分分析法是数据挖掘中常用的一种降维算法。
在这篇文章中,我们将学习一种在价格序列中建立波动性模型的标准方法,即广义自回归条件异方差(GARCH)模型。
最近我们被客户要求撰写关于混合效应逻辑回归的研究报告。
至少有两种非平稳时间序列:具有趋势的时间序列和具有单位根的时间序列(称为单整时间序列)。
预测股价已经受到了投资者,政府,企业和学者广泛的关注。然而,数据的非线性和非平稳性使得开发预测模型成为一项复杂而具有挑战性的任务。
当线性假设无法满足时,可以考虑使用其他方法。
本文将说明金融数学中的R 语言优化投资组合,因子模型的实现和使用。
最新研究表明,中国有超过7亿人在观看在线视频内容。
自组织映射神经网络(SOM)是一种无监督的数据可视化技术,可用于可视化低维(通常为2维)表示形式的高维数据集。
随着越来越多的数据被数字化,获取信息变得越来越困难。我们在本文中重点关注的一个示例是评估公司面临的不同风险领域。
最近,我们继续对时间序列建模进行探索,研究时间序列模型的自回归和条件异方差族。我们想了解自回归移动平均值(ARIMA)和广义自回归条件异方差(GARCH)模型。它们在量化金融文献中经常被引用。
最近,我们使用隐马尔可夫模型开发了一种解决方案,并被要求解释这个方案。
为了帮助客户正确使用POT模型,本指南包含有关使用此模型的实用示例。本文快速介绍了极值理论(EVT)、一些基本示例,最后则通过案例对河流的极值进行了具体的统计分析。
灰色关联分析包括两个重要功能。
第一项功能:灰色关联度,与correlation系数相似,如果要评估某些单位,在使用此功能之前转置数据。第二个功能:灰色聚类,如层次聚类。
波动率是一个重要的概念,在金融和交易中有许多应用。这是期权定价的基础。波动率还使您可以确定资产分配并计算投资组合的风险价值(VaR)。甚至波动率本身也是一种金融工具,例如CBOE的VIX波动率指数。但是,与证券价格或利率不同,波动不能直接观察到。
这里的想法是使距离最大化:想法是区分,所以我们希望样本尽可能不独立。要计算基尼系数。
变量重要性图是查看模型中哪些变量有趣的好工具。
我们将使用整容手术数据说明两种中心化类型,并对其进行等级线性模型分析。
最近我们被客户要求撰写关于吉布斯采样的研究报告。
R语言无监督学习:PCA主成分分析可视化
R语言对NASA元数据进行文本挖掘的主题建模分析
在绘制的时间序列中可以看到两个主要的季节性:每日和每周。我们在一天中有48个测量值,在一周中有7天,因此这将是我们用来对响应变量进行建模的自变量–电力负荷。
分类问题属于机器学习问题的类别,其中给定一组特征,任务是预测离散值。
R、Python、Open Refine采集pdf数据,清理数据和格式化数据
使用R和Python进行分析的主要好处之一是,它们充满活力的开源生态系统中总是有新的和免费提供的服务。
python暗网市场关联规则学习菜篮子分析
本示例使用Python和SAS分析了预防高危药物研究的结果。这个社交网络有194个节点和273个边,分别代表药物使用者和这些使用者之间的联系。
在这篇文章中,我用R语言和python检测社交网络中的社区。
python隶属关系图模型:基于模型的网络中密集重叠社区检测方法
Cluster Validity – Optimal Cluster Number in Matlab
NASA托管和/或维护了超过32,000个数据集; 这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。
维度降低有两个主要用例:数据探索和机器学习。
判别分析是可用于分类和降维的方法。
对于我的可视化类,选择文本作为我的最终项目“数据集”是一个简单的选择。该文有大约175,000个单词,分为42章。我在网上找到了这本书的原始文本版本并开始工作。
通过分析文本和共同作者社交网络来研究社会科学、计算机和信息学方面的出版物。
研究煤矿隐患数据的挖掘以实现海量隐患数据的有效利用,在分析矿山数据挖掘枝术和煤矿隐患数据特点的基础上,提出煤矿隐患数据挖掘是矿山数字化的重要组成部分
维度规约(降维)算法在WEKA中应用
在本文中,我们通过一个名为WinBUGS的免费贝叶斯软件,可以很容易地完成基于似然的多变量随机波动率(SV)模型的估计和比较。
Iris鸢尾花数据集,内容摘自百度百科:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。
R如何与Tableau集成分步指南 – 适用于数据科学和商业智能专业人员
R语言实现:混合正态分布EM最大期望估计法
r语言中使用Bioconductor 分析芯片数据
从海量数据中发现潜在标志指标, 需要借助多变量模式识别方法。
在文本挖掘中,我们经常收集一些文档集合,例如博客文章或新闻文章,我们希望将其分成组,以便我们可以分别理解它们。主题建模是对这些文档进行无监督分类的一种方法,类似于对数字数据进行聚类,即使我们不确定要查找什么,也可以找到分组。
我们将首先介绍主题建模和t-SNE,然后将这些技术应用于两个数据集:20个新闻组和推文。
每当你发现一个与时间对应的趋势时,你就会看到一个时间序列。
通常,当我们在线搜索信息时,有两种主要方法:关键字 – 使用搜索引擎并输入与我们想要查找的内容相关的单词
链接。链接的页面可能共享相似或相关的内容。
波动率是众多定价和风险模型中的关键参数,例如BS定价方法或风险价值的计算。
本文考虑R语言的EM算法和高斯混合模型实现。
我已经准备了一个文件,其中包含四个用电时间序列来进行分析。数据操作将由data.table程序包完成。
和宏观经济数据不同,金融市场上多为高频数据,比如股票收益率序列。
随着网民规模的不断扩大,互联网不仅是传统媒体和生活方式的补充,也是民意凸显的地带。
高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知,像是一双对地区形象“塑型”的“看不见”的手。
在信息爆炸时代,“信用”已成为越来越重要的无形财产。
拓端数据使用数据挖掘技术对海量的在线医院药物复方历史数据进行智能分析,并从中找出药物配伍的规律,帮助客户解决独特的业务问题。
我已经准备了一个文件,其中包含四个用电时间序列来进行分析。数据操作将由data.table程序包完成。
永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。
技术干货
最新洞察
This will close in 0 seconds