【视频讲解】R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集
在许多网站上都可以找到一个流行的德国信贷数据集_german_credit_,其中包含了银行贷款申请人的信息。
在许多网站上都可以找到一个流行的德国信贷数据集_german_credit_,其中包含了银行贷款申请人的信息。
饼图把一个圆分成多个部分,这些部分的弧长(以及面积)代表一个整体的比例。
录取情况反映了公众对一所大学水平和实力的认知,是评价一所大学及其专业 “知名度 “的重要指标。
对于不熟悉的人来说,围绕混合模型的术语,特别是跨学科的术语,可能有点令人困惑。你可能遇到的关于这些类型的模型的一些术语包括。
在本文中,我们将用R语言对数据进行线性混合效应模型的拟合,然后可视化你的结果。
一旦我们清理了我们的文本并进行了一些基本的词频分析,下一步就是了解文本中的观点或情感。这被认为是情感分析,本教程将引导你通过一个简单的方法来进行情感分析。
动态时间规整(DTW,Dynamic time warping,动态时间归整/规整/弯曲)是一种衡量两个序列之间最佳排列的算法。
使用glmnet软件包中的相关函数对岭回归和lasso套索回归进行分析。
随着社会经济的发展,饮食生活已经逐渐融入了我们的日常生活世界,每天都不可避免地在 “吃 “的问题上有更多的考虑,吃好、吃多已经不再是我们的烦恼。
这篇文章假定你已经知道如何用igraph库建立一个基本的网络图。
这个数据集常用于数据概述、可视化和聚类模型。
(a)部分:k-means聚类
使用k-means聚类法将数据集聚成2组。
画一个图来显示聚类的情况
使用k-means聚类法将数据集聚成3组。
画一个图来显示聚类的情况
(b)部分:层次聚类
使用全连接法对观察值进行聚类。
使用平均和单连接对观测值进行聚类。
绘制上述聚类方法的树状图。
我们经常使用的一个关系性指标是相关性。通过可以利用数据框架和绘图来帮助探索相关关系。
主成分分析法是数据挖掘中常用的一种降维算法。
关联规则挖掘是一种无监督的学习方法,从交易数据中挖掘规则。
就香水市场份额而言,亚洲占全球销售额的8%,仅占拉丁美洲的20%,而中国仅占全球销售额的0.8%。
本报告是对心脏研究的机器学习/数据科学调查分析。更具体地说,我们的目标是在心脏研究的数据集上建立一些预测模型,并建立探索性和建模方法。但什么是心脏研究?
今天我们将计算投资组合收益的CAPM贝塔。这需要拟合一个线性模型,得到可视化,从资产收益的角度考虑我们的结果的意义。
新零售,顾名思义,就是与 传统零售 完全不同的,一种新的零售模式。
我们在ggplot2中制作的饼实际上是一个条形图转换为极坐标。
我们将使用葡萄酒数据集进行主成分分析。
在心理学研究中,个人主体的模型正变得越来越流行。原因之一是很难从人之间的数据推断出个人过程。另一个原因是,由于移动设备无处不在,从个人获得的时间序列变得越来越多。
Boosting算法是一种把若干个分类器整合为一个分类器的方法,也就是一种集成分类方法(Ensemble Method)。
最近我们被客户要求撰写关于心脏病数据的研究报告。在讨论分类时,我们经常分析二维数据(一个自变量,一个因变量)。
多元统计分析中,交互作用是指某因素作用随其他因素水平的不同而不同,两因素同时存在是的作用不等于两因素单独作用之和(相加交互作用)或之积(相乘交互作用)。
这是我们最近的一项护士职业满意度线上调查中关注的一个问题。遗憾的是,对护士工作满意的只有约27%。为何这么多人不愿意再次选择做护士?
房价有关的数据可能反映了中国近年来的变化:
最近我们被客户要求撰写关于聚类技术的研究报告。为了说明层次聚类技术和k-均值,我使用了了城市温度数据集,其中包括几个城市的月平均气温。
人们通常使用接收者操作特征曲线(ROC)进行二元结果逻辑回归。但是,流行病学研究中感兴趣的结果通常是事件发生时间。使用随时间变化的时间相关ROC可以更全面地描述这种情况下的预测模型。
在移动广告领域,移动APP广告因其独特的价值而受到广告商的青睐。
随着新型冠状病毒COVID-19的威胁遍及世界,我们生活在一个日益担忧的时代,本文用matlab分析COVID-19数据集。
最新研究表明,中国有超过7亿人在观看在线视频内容。
这是一个六边形热图可视化程序,主要用到的知识RColorBrewer,fields,也就是R中的可视化绘图库。
为了用R来处理网络数据,我们使用婚礼数据集。
自组织映射神经网络(SOM)是一种无监督的数据可视化技术,可用于可视化低维(通常为2维)表示形式的高维数据集。
网络模型已经成为抽象复杂系统,是深入了解许多科学领域中观测变量之间的关系模式的流行方法。
目标函数的平滑度对于优化的成功至关重要。可视化目标函数是一种检查平滑度的简便方法。
在国内疫情稳定的新常态下,“双十一”点燃了消费者的购物热情,在购物热潮中,消费热点、消费者理念与行为将出现哪些变化?
随着越来越多的数据被数字化,获取信息变得越来越困难。我们在本文中重点关注的一个示例是评估公司面临的不同风险领域。
本文简要介绍一下网络分析,我想提供一些有关“友谊悖论”的R语言例证。友谊悖论指出
本文在股市可视化中可视化相关矩阵 :最小生成树
在现实世界中,我们的生活受到大量网络的支配。网络流可以表示很多模型,比如管道中的石油、高压线中电流,或者计算机网络中的数据。
随着现代社会的进步,以男权为主的传统观念正在被颠覆,女性意识逐渐觉醒,并付诸行动,不遗余力地寻求真正的性别平等。
当前是大数据盛行的时代,各种用户信息行为数据分析的结果影响着人们的生活和学习,同时对图书馆的发展也有着影响。
最近我们被客户要求撰写关于分析各种投资的历史收益的研究报告。要执行此分析,我们需要资产的历史数据。数据提供者很多,有些是免费的,大多数是付费的。
越来越多的人愿意精神消费。旅游不仅可以提升人们对外地环境和外地人文的认知,也可以放松身心、愉悦心情,是一种受欢迎的精神消费。
大数据背景下各种数据相关的岗位变得炙手可热,长期处于供不应求的状态。近年来随着人工智能的发展,数据分析岗也越发火热。
R语言提供了丰富的功能,可用于绘制R中的时间序列数据。
我们生活在互联网时代,越来越多的人选择在网上贷款消费 ,投资理财早已成为一门学问,一些有头脑的人通过小额的贷款让钱生钱也成为了一种可能,贷款消费的公司越来越多。
上周在 非人寿保险课程中,我们了解了广义线性模型的理论
在概率课程中经常会看到标准的正态分布表。
大数据已经成为变革和创新的技术力量和思维方式,成为当前研究的热门领域。
这周,我在http://waitbutwhy.com/上发现了一张图片 ,它代表了典型的人类生活
当我们要可视化事故数量时,其想法是根据部门的人员进行标准化。
本文我们绘制英国脱欧投票的地图。
R语言ggmap空间可视化机动车碰撞–街道地图热力图
R语言ggmap空间可视化机动车交通事故地图
新冠肺炎的爆发让今年的春节与往常不同。与此同时,新闻记录下了这场疫情发展的时间轴。
最近我们一直在探索空间数据。事实证明,有一些很棒的R包可用于可视化此类数据。
我们分析了已迁离北京的外来人口的月收入、性别、迁入北京和迁离北京的日期、教育程度和职业这些方面的数据。
由于新型冠状病毒感染的肺炎疫情影响,剧烈增长的市场需求助推了在线教育的发展,同时也暴露了一些问题。
R语言中绘制箱形图的替代品:蜂群图和小提琴图
如何用r语言制作交互可视化报告
R语言大数据分析纽约市的311万条投诉统计可视化与时间序列分析
在某些情况下,你可能希望通过在每帧中添加数据并保留先前添加的数据来进行动画处理。
R语言数据可视化分析案例:探索BRFSS数据数据分析报告
永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。
技术干货
最新洞察
This will close in 0 seconds