R如何与Tableau集成分步指南 – 适用于数据科学和商业智能专业人员
Tableau是当今数据科学和商业智能专业人员使用的最流行的数据可视化工具之一。它使您能够以交互式和多彩的方式创建具有洞察力和影响力的可视化效果。
在本文中,我们将看到一些超越拖放功能的高级图表。我们将创建计算以深入研究数据以提取洞察力。我们还将看看R如何与Tableau集成和使用。
1.高级图形
几乎所有的Tableau用户都知道各种基本图形,例如介绍仪表板中显示的那些图形。这些图表可以使用Tableau 的“ Show Me” 功能轻松完成。但由于这是一篇面向高级用户的文章,因此我们将超越“展示自己”并探索需要额外计算的图表。
首先,让我们快速浏览一下我们将在接下来的几节中做什么。以下是我们超市的销售额和利润的一些基本分析。简单的图表可以达到与仪表板中的目的相同的目的,但我认为您会同意这些图表的宏伟令人兴奋和激动。
1.1运动图
因此,我们首先下载可在此处找到的Superstore数据集 。
现在让趋势线如下所示对你来说应该很容易:
但是本节我们首先要学习的是如何使下面的趋势线运动:
所以让我们开始吧!
导入您的数据集,并创建上述趋势图。我们的X轴是订单日期(月份格式),销售额和利润是度量值。
您只需将“ 订单日期” 拖动到“ 页面”工作区即可,然后再次更改格式以与X轴匹配。
将标记类型从自动更改为圆形。
转到显示历史记录,并选择Trails 查看趋势变化。瞧!您的动态图表已准备好启动。
按箭头按钮查看动作,更改显示历史定制,速度等:
1.2凹凸图
假设你想探索Superstore各个部分的销售额(整整一年)。一种方法是:
虽然备选方案可能如下:
虽然折线图能够显示每个细分市场之间的销售差异,但凹凸图(在上图中)给出了更清晰和简明的相同结果图。
现在让我们尝试自己创建一个:
首先,我们需要根据我们想要对我们的维度进行排名的方式来考虑度量。这里的措施,我们采取的是销售和尺寸是段。
您需要计算字段的帮助才能制作凹凸图表。所以请快速创建一个如下所示的计算。我们将对每个细分市场的销售总额进行排名 :
现在将订单日期拖到列中并将格式更改为月。在标记窗格中将段拖动到颜色。最后将排名拖到行。
在你现在可以看到的图表中,排名是根据月份数量分配的。但是,我们需要他们在细分市场的基础上。因此,右键点击排名在行, 并转到编辑表计算。
由于我们希望使用段计算,请将配置更改为:
您将获得的图表看起来不像仪表板中的图表,因为它缺少标签。让我们在双轴的帮助下快速修复:
再次将等级拖放到行并重复步骤4和5以得到:
您会在商标窗格中看到排名和排名(2)?我们将使用这些来创建带圆圈的标签。
要将上述内容转换为双轴图表,请右键单击第二个图表的等级轴并选择双轴。
在标记窗格中,选择排名或排名(2),然后将标记类型更改为圆形而不是自动。
这里的排名按降序排列。要将其更改为升序,请右键单击左侧的Rank轴 – >编辑轴 – >反向比例。对右边的Rank轴重复同样的操作。
最后,将销售额拖放到标签 – >快速表计算 – >总计百分比上,以获得我们期望的凹凸图。
1.3甜甜圈图
圆环图是小学图的另一种表现形式。坦率地说,它是一个中间有一个洞的饼图,但它有助于更加强调各个细分市场,如下所示:
让我们了解我们创建这个区别的不同之处。
我们将从一个简单的饼图开始,描绘每个细分市场的 利润:
要为饼图创建一个双轴,拖记录数从措施到了行,两次。通过右键点击它们并选择最小值代替默认总和来更改每个绿色药丸的度量:
选择Marks Pane中的第二个饼图,并将其中的每个度量/维度拖出。减小图表的大小,并将颜色更改为白色(尽管此处未显示):
要创建双轴,右键单击第二个饼图的Y轴,然后选择双轴,以获得图表。
现在你必须明白,以上所有图表虽然在最终外观上都不相同,但都是从“ 显示我”功能的核心图表中获得的。但是等一下,它还没有结束。我有更多要展示给你。
1.4瀑布图
瀑布图从其类似的方向和流动中得出其名称。在这里,我们绘制了Superstore多年来的运行销售情况,您可以在2013年中和2014年初看到两个小红色区域,表明销售额实际下降了,并且还有多少。
这意味着这样的图表被用来分析一个度量的累积效应,并且看它是如何作为一个整体增加和减少的。为了更好地理解这一点,让我们想象它。
瀑布图是折线图的衍生物,因此我们将从该图开始:
右键单击绿色的Profit Pill,然后选择Quick Table Calculation – > Running Total。
将标记类型从自动更改为甘特条:
创建一个名为’NegProfit’的计算字段:
将这个NegProfit拖到 Marks 框架中的Size上,得到:
计算的字段用于填写甘特图中的空间。利润中的负值将向下延伸,而正值则会向上延伸。
图表中每个小条的长度表示利润从一个月到下一个月的变化量。
最后,将利润拖到颜色:
您可以继续前进,将颜色更改为两步变化,并清楚地查看上升和下降:
您将获得的图表也可以非常容易地以条形图的形式表示。请注意,我在这里颠倒了颜色,以使异常突出:
但我相信你会同意使用瀑布图是一种更直观的表示数据的方式,特别是看看多年来度量的变化,例如销售和利润。
1.5帕累托图
下面我已经看到了一个流行的80-20数据分析原理。如果你还没有听说过它,让我试着用我们的例子来解释它。经常观察到超市的大部分销售来自少数几种产品。
人们不能指望面包和鸡蛋有与蛋糕相同的销售数字,对吧?这正式被称为80-20原则,这意味着80%的销售额来自20%的产品。在我们的超市,这个原则可以在下面的图表中看到,其中大部分销售是由电话和椅子生成的:
相当流行的可视化, 帕累托图通常用于风险管理,以确定对项目造成最大负面影响的最常见问题 ; 但正如我们将看到的,它也可以有其他应用程序。
让我们看看它是如何完成的:
我们将从下面的图表开始。这具有作为X轴的子类别和作为Y轴的销售。图表按降序排列:
接下来,将销售额拖放到图表上,直到您看到绿色突出显示的条形和最右边的虚线轴:
在此处下降销售以创建双轴。将第一个图表的标记类型更改为条形图,将第二个图表更改为线条,最终得到:
右键单击第二个绿色销售药丸,并为其添加运行总计算:
剩下的只是改变配色方案,并且您的帕累托图表已准备就绪!
2.在Tableau中引入R编程
R的引入使得可以实现更丰富和动态的可视化,这是主要特征之一。R可与Tableau一起用于聚类,预测和预测等技术。
我想通过Clustering开始对R和Tableau的探索,所以我使用了超流行的Iris Dataset。
以下描述了Tableau和R之间的控制流程,以实现此集成:
R脚本作为表计算写入Tableau ,并发送到R的R服务包。 在此模块执行必要的计算并将结果返回给Tableau。
现在让我们看看这个集成的步骤:
安装Rserve软件包
在R命令行中运行以下命令:
install.packages(“Rserve”); library(“Rserve”); Rserve()
配置Tableau以在R中运行
打开Tableau – >帮助 – >设置和性能 – >管理R /外部连接。使用以下默认信息填写字段并选择测试连接:
所以,现在 你已经准备好了适当的配料,让我们开始做饭吧!
如上图所示,您可以使用Tableau的表计算与R进行通信:
如果您向下滚动功能列表,您将遇到以下四种情况:
当计算区域中包含这些函数时,Tableau会自动理解该脚本适用于R.
我希望你最初兴奋的制作集群仍然存在!我们继续。
从这里下载Iris数据集。
在Tableau中导入数据集,并制作下图:
在这里,您可以通过不同的度量获得总和。要获得离散值,请转至分析,并取消选中聚合度量,以获取:
最后,要形成群集,请在标记窗格中将类维度拖到颜色上:
我们上面的是一个散点图,它显示了分为3个不同群集的数据点群集。
现在让我们尝试与R一样,并比较我们将得到的两个可视化。我们将使用最常见的聚类算法K-Means:
从与上面第2点相同的散点图开始。
创建一个新的计算字段并填写以下内容:
为清楚起见,上述计算为:
_INT('result < - kmeans(data.frame(.arg1,.arg2,.arg3,.arg4),3); result $ cluster;',SUM([Petal length]),SUM([Petal width]),SUM([Sepal length]),SUM([Sepal width]))
虽然有一些重叠,但这两个可视化确实看起来相当准确。
这是将R与Tableau集成的潜力的一个小要点。它的应用程序是无限的,我相信你一定已经开始考虑可以与之交互的不同方式。
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!