R语言使用特征工程泰坦尼克号数据分析应用案例
R语言使用特征工程泰坦尼克号数据分析应用案例
R语言使用特征工程泰坦尼克号数据分析应用案例
近年来,中国社会消费品零售总额不断增长,2019 年1-4 月,消费品零售总额达到128375.8 亿元,同比增长8%。
在环保形势日益严峻的今天,新能源汽车是当今汽车发展的潮流。拓端数据(tecdat)研究人员根据新能源车主满意度调查数据,从多个角度进行数据分析。
在文本挖掘中,我们经常收集一些文档集合,例如博客文章或新闻文章,我们希望将其分成组,以便我们可以分别理解它们。主题建模是对这些文档进行无监督分类的一种方法,类似于对数字数据进行聚类,即使我们不确定要查找什么,也可以找到分组。
此示例探讨了如何使用多因素copula模型模拟相关的交易违约。
如果我们对所有这些模型的结果进行平均,我们有时可以从它们的组合中找到比任何单个部分更好的模型。这就是集成模型的工作方式。
阈值模型用于几个不同的统计领域,而不仅仅是时间序列。
我们将首先介绍主题建模和t-SNE,然后将这些技术应用于两个数据集:20个新闻组和推文。
尽管航空业强劲,但为了保持持续增长以及作为跨地区行业领导者的持续地位,必须时刻保持警惕,以跟上客户需求。
状态转换模型,尤其是马尔可夫转换(MS)模型,被认为是识别时间序列非线性的不错的方法。
只要有金融经济学家,金融经济学家一直在寻找能够预测股票收益的变量。
R语言markov switching model马尔可夫转换模型研究案例
当时间序列数据的频率高于季度或月度时,许多预测程序在分析季节性影响方面遇到了障碍。
R语言Copula的贝叶斯非参数估计
一个加油站有一个加油桩,没有空间供车辆等待(如果车辆到达,加油桩被占用,它就会离开)。
数据来自国际足联的视频游戏FIFA 。游戏的特点是在游戏的各个方面评价每个球员的能力。
通过对用电负荷进行聚类,我们可以提取典型负荷曲线,提高随后的用电量预测的准确性。
每当你发现一个与时间对应的趋势时,你就会看到一个时间序列。
R语言中的偏最小二乘PLS回归算法
总体上看,虎扑会员以年轻的男性和在校大学生为主,他们喜欢篮球等体育运动,关注NBA,英超等球类联赛
这里向您展示如何在R中使用glmnet包进行岭回归(使用L2正则化的线性回归),并使用模拟来演示其相对于普通最小二乘回归的优势。
在传统的金融理论中,理性和同质的投资者是核心假设之一,表明每个投资者都有相同的信息,从而做出同样的决定。
r语言二元期权barrier option实现案例
从网络图看数字媒体对传统媒体的影响
据外媒报道,特朗普上任8天以来引发51%美国人的不满,42%美国人赞同新总统的政策。该项调查共有1500名成年美国人,误差为3%。
对于非结构化的网站中文评论信息,r的中文词频包可能是用来挖掘其潜在信息的好工具,要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。
马云说:“员工离职的原因总是只有两个:钱,没有到位;心委屈了。”
混合IBCF协同过滤推荐算法推荐引擎的探索
R语言Bass模型进行销售预测
Shiny包可以快速搭建基于R的交互网页应用。对于web的交互,之前已经有一些相关的包,不过都需要开发者熟悉网页编程语言(html,CSS,JS)。
通常,当我们在线搜索信息时,有两种主要方法:关键字 – 使用搜索引擎并输入与我们想要查找的内容相关的单词
链接。链接的页面可能共享相似或相关的内容。
此示例显示如何使用估计复合条件均值和方差模型estimate。
对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,从而针对性的进行营销,提高运营人员的办事效率。
金融中一个重要度量是与资产相关的风险,而资产波动率是最常用的风险度量。然而,资产波动率的类型有多种。
波动率是众多定价和风险模型中的关键参数,例如BS定价方法或风险价值的计算。
互联网+下不同时空如何建立合适的指标分析出租车“供求匹配”的程度?
风险价值(VaR)及其所有相关问题仍然是风险管理中的主要模型。
我们在这里讨论所谓的“分段线性回归模型”,因为它们利用包含虚拟变量的交互项。
正则化路径是针对正则化参数λ的值网格处的套索或弹性网络罚值计算的。该算法速度极快,可以利用输入矩阵中的稀疏性x。
某些策略在波动剧烈的市场中表现良好,而其他策略则需要强劲而平稳的趋势,否则将面临长时间的下跌风险。
最近我们被客户要求撰写关于采样算法的研究报告。第一步,我们创建一些测试数据,用来拟合我们的模型。
最近我们被客户要求撰写关于面板平滑转换回归(PSTR)的研究报告。建模过程包括三个阶段:表述,估计和评估。
有许多分层数据的例子。例如,地理数据通常按层次分组,可能是全球数据,然后按国家和地区分组 。一个生物学的例子是按物种分组的动物或植物的属性,或者属于一个级别的属性,然后是家族。一个商业例子可能是业务部门和细分的员工满意度。
这次,我们将使用k-Shape时间序列聚类方法检查与我们有业务关系的公司的股票收益率的时间序列。
R语言参数检验 :需要多少样本?如何选择样本数量
R语言检验独立性:卡方检验(Chi-square test)和费舍尔精确检验分析案例报告
使用基于分类的递归分区算法来拟合基于树的模型得到的模型类似于推荐的ř包rpart包产生的模型支持分类型树和回归型树。
最近我们被客户要求撰写关于时间序列的研究报告。分析时间序列数据的第一件事就是将其读入R,并绘制时间序列。
本文考虑R语言的EM算法和高斯混合模型实现。
优化是一种为所有可能的解决方案找到给定问题的最佳解决方案的技术。
用excel来构建柯布-道格拉斯Cobb-Douglas生产函数的可视化
R语言用Backfitting MCMC抽样算法进行贝叶斯推理案例
检验对的形式 (x1,x2)(X1,X2) 出现在两种情况中:
R语言离群值处理分析
最近我们被要求撰写关于金融时间序列的arma-garch-copula的调查报告。
这里向您展示如何在R中使用glmnet包进行岭回归(使用L2正则化的线性回归),并使用模拟来演示其相对于普通最小二乘回归的优势。
R语言估计时变VAR模型时间序列的实证研究分析案例
数据预处理之异常值处理
信用记分卡一直是信用评分的标准模型,因为它们易于理解,使您能够轻松评分新数据-即计算新客户的信用评分。
概率编程使我们能够实现统计模型,而不必担心技术细节。这对于基于MCMC采样的贝叶斯模型特别有用。
我们最近有一个很棒的机会与一位伟大的客户合作,要求Business Science构建一个适合他们需求的开源异常检测算法。
银行信用数据SOM神经网络聚类实现
多层线性模型(Hierarchical Linear Model,HLM),也叫多水平模型(Multilevel Model,MLM),是社会科学常用的高级统计方法之一。
时变参数VAR随机模型是一种新的计量经济学方法
本文在iris数据集上展示了如何使用R软件来建立Hierarchical Cluster Analysis层次聚类分析(更好的可视化和灵敏度分析)。
最近我们被客户要求撰写关于ARMA-GARCH-VaR模型的研究报告。
R语言中的Wilcoxon符号秩检验与配对学生t检验
最近我们被客户要求撰写关于混合模型的研究报告。由于我们发现自己在工作中越来越多地使用这些模型,我们开发了一套R shiny工具来简化和加速与对象交互的lme4常见任务。
永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。
技术干货
最新洞察
This will close in 0 seconds