数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
案例数据集是在线零售业务的交易数据,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并使用Echarts做数据可视化。
案例数据集是在线零售业务的交易数据,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并使用Echarts做数据可视化。
主题模型允许对文档中的术语频率发生进行概率建模。
数据变得越来越重要,其核心应用“预测”也成为互联网行业以及产业变革的重要力量。
数据量大,数据要进行清洗以及预处理,同时要多方面可视化,要探索多变量对因变量的影响。
各公司信息科技的建设离不开三方科技公司的参与,而三方科技公司提供的开发人员能力高低不一
风险价值 (VaR) 是金融风险管理中使用最广泛的市场风险度量,也被投资组合经理等从业者用来解释未来市场风险。
在这个项目中,我讨论了如何使用主成分分析 (PCA) 进行简单的预测。
本文描述了一个模型,该模型解释了交易的聚集到达,并展示了如何将其应用于比特币交易数据。
从广义上讲,复杂的模型可以实现很高的预测准确性。
在本文,我们将考虑观察/显示所有变量的模型,以及具有潜在变量的模型。
在网络上进行社区检测时,有时我们不仅拥有实体之间的联系。
我们在心理学网络论文中看到的一个问题是,作者有时会对其数据的可视化进行过度解释。
这篇文章讨论了自回归综合移动平均模型 (ARIMA) 和自回归条件异方差模型 (GARCH) 及其在股票市场预测中的应用。
本教程使用R介绍了具有非信息先验的贝叶斯 GLM(广义线性模型)。
在量化金融中,我们学习了各种时间序列分析技术以及如何使用它们。
可以使用环状图形展示基因数据比较。可以添加多种图展信息,如热图、散点图等。
我们使用R中的igraph包,产生了网络的图形。
最近,我们使用贝叶斯非参数(BNP)混合模型进行马尔科夫链蒙特卡洛(MCMC)推断。
项目背景:银行的主要盈利业务靠的是贷款,这些客户中的大多数是存款大小不等的责任客户(存款人)。
对于不熟悉的人来说,围绕混合模型的术语,特别是跨学科的术语,可能有点令人困惑。你可能遇到的关于这些类型的模型的一些术语包括。
贝叶斯网络(BN)是一种基于有向无环图的概率模型,它描述了一组变量及其相互之间的条件依赖性。
最近我们被客户要求撰写关于GLM模型的研究报告。具体来说,本教程重点介绍逻辑回归在二元结果和计数/比例结果情况下的使用,以及模型评估的方法。
我们经常使用的一个关系性指标是相关性。通过可以利用数据框架和绘图来帮助探索相关关系。
主成分分析法是数据挖掘中常用的一种降维算法。
在这篇文章中,我们将学习一种在价格序列中建立波动性模型的标准方法,即广义自回归条件异方差(GARCH)模型。
最近我们被客户要求撰写关于混合效应逻辑回归的研究报告。
至少有两种非平稳时间序列:具有趋势的时间序列和具有单位根的时间序列(称为单整时间序列)。
预测股价已经受到了投资者,政府,企业和学者广泛的关注。然而,数据的非线性和非平稳性使得开发预测模型成为一项复杂而具有挑战性的任务。
当线性假设无法满足时,可以考虑使用其他方法。
本文将说明金融数学中的R 语言优化投资组合,因子模型的实现和使用。
最新研究表明,中国有超过7亿人在观看在线视频内容。
自组织映射神经网络(SOM)是一种无监督的数据可视化技术,可用于可视化低维(通常为2维)表示形式的高维数据集。
随着越来越多的数据被数字化,获取信息变得越来越困难。我们在本文中重点关注的一个示例是评估公司面临的不同风险领域。
最近,我们继续对时间序列建模进行探索,研究时间序列模型的自回归和条件异方差族。我们想了解自回归移动平均值(ARIMA)和广义自回归条件异方差(GARCH)模型。它们在量化金融文献中经常被引用。
最近,我们使用隐马尔可夫模型开发了一种解决方案,并被要求解释这个方案。
为了帮助客户正确使用POT模型,本指南包含有关使用此模型的实用示例。本文快速介绍了极值理论(EVT)、一些基本示例,最后则通过案例对河流的极值进行了具体的统计分析。
灰色关联分析包括两个重要功能。
第一项功能:灰色关联度,与correlation系数相似,如果要评估某些单位,在使用此功能之前转置数据。第二个功能:灰色聚类,如层次聚类。
波动率是一个重要的概念,在金融和交易中有许多应用。这是期权定价的基础。波动率还使您可以确定资产分配并计算投资组合的风险价值(VaR)。甚至波动率本身也是一种金融工具,例如CBOE的VIX波动率指数。但是,与证券价格或利率不同,波动不能直接观察到。
这里的想法是使距离最大化:想法是区分,所以我们希望样本尽可能不独立。要计算基尼系数。
变量重要性图是查看模型中哪些变量有趣的好工具。
我们将使用整容手术数据说明两种中心化类型,并对其进行等级线性模型分析。
最近我们被客户要求撰写关于吉布斯采样的研究报告。
R语言无监督学习:PCA主成分分析可视化
R语言对NASA元数据进行文本挖掘的主题建模分析
在绘制的时间序列中可以看到两个主要的季节性:每日和每周。我们在一天中有48个测量值,在一周中有7天,因此这将是我们用来对响应变量进行建模的自变量–电力负荷。
分类问题属于机器学习问题的类别,其中给定一组特征,任务是预测离散值。
R、Python、Open Refine采集pdf数据,清理数据和格式化数据
使用R和Python进行分析的主要好处之一是,它们充满活力的开源生态系统中总是有新的和免费提供的服务。
python暗网市场关联规则学习菜篮子分析
本示例使用Python和SAS分析了预防高危药物研究的结果。这个社交网络有194个节点和273个边,分别代表药物使用者和这些使用者之间的联系。
在这篇文章中,我用R语言和python检测社交网络中的社区。
python隶属关系图模型:基于模型的网络中密集重叠社区检测方法
Cluster Validity – Optimal Cluster Number in Matlab
NASA托管和/或维护了超过32,000个数据集; 这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。
维度降低有两个主要用例:数据探索和机器学习。
判别分析是可用于分类和降维的方法。
对于我的可视化类,选择文本作为我的最终项目“数据集”是一个简单的选择。该文有大约175,000个单词,分为42章。我在网上找到了这本书的原始文本版本并开始工作。
通过分析文本和共同作者社交网络来研究社会科学、计算机和信息学方面的出版物。
研究煤矿隐患数据的挖掘以实现海量隐患数据的有效利用,在分析矿山数据挖掘枝术和煤矿隐患数据特点的基础上,提出煤矿隐患数据挖掘是矿山数字化的重要组成部分
维度规约(降维)算法在WEKA中应用
在本文中,我们通过一个名为WinBUGS的免费贝叶斯软件,可以很容易地完成基于似然的多变量随机波动率(SV)模型的估计和比较。
Iris鸢尾花数据集,内容摘自百度百科:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。
R如何与Tableau集成分步指南 – 适用于数据科学和商业智能专业人员
R语言实现:混合正态分布EM最大期望估计法
r语言中使用Bioconductor 分析芯片数据
从海量数据中发现潜在标志指标, 需要借助多变量模式识别方法。
永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。
技术干货
最新洞察
This will close in 0 seconds