R语言ROC曲线评价分类器的好坏
本文将使用一个小数据说明ROC曲线,其中n = 10个观测值,两个连续变量x_1和x_2,以及二元变量y∈{0,1}。
本文将使用一个小数据说明ROC曲线,其中n = 10个观测值,两个连续变量x_1和x_2,以及二元变量y∈{0,1}。
本文使用波兰公寓价格数据说明Fisher检验。
时间序列分析是统计学中的一个主要分支,主要侧重于分析数据集以研究数据的特征并提取有意义的统计信息来预测序列的未来值。时序分析有两种方法,即频域和时域。
这篇文章中我们可以编写自己的代码来计算套索(lasso)回归
为了在统计过程中发现更多有趣的结果,我们将解决极大似然估计没有简单分析表达式的情况。
本文我们讨论了期望寿命的计算,人口统计模型的起点是死亡率表。
为了用R来处理网络数据,我们使用婚礼数据集。
自组织映射神经网络(SOM)是一种无监督的数据可视化技术,可用于可视化低维(通常为2维)表示形式的高维数据集。
本文说明了R语言中实现分布滞后线性和非线性模型(DLM和DLNM)的建模。
用于动量策略中所谓的动量(Momentum),是指某一对象所具有的一种倾向于保持其原有属性或特征的性质,也可以简单理解成一种惰性(Inertia)。
在这篇文章中,我使用 R 建立著名的Hull-White利率模型并进行仿真。
我根据泊松Poisson回归、GAM样条曲线模型对一个十字路口的骑自行车者的数量进行预测
本文我们使用4个时间序列模型对每周的温度序列建模。
票息率公式用于计算债券的票息率,根据该公式,债券的票息率将通过将年度票息支付总额除以债券的票面价值,然后乘以 100得出结果。
本文想在R软件中更好地了解分位数回归优化。在查看分位数回归之前,让我们从样本中计算中位数或分位数。
电力负荷预测是电网规划的基础,其水平的高低将直接影响电网规划质量的优劣。
“应用线性模型”中,我们打算将一种理论(线性模型理论)应用于具体案例。
为了找出影响价格波动的主要因素,我们使用逐步回归法来剔除一些对于应变量即把对价格影响很小的自变量剔除出我们的模型
网络模型已经成为抽象复杂系统,是深入了解许多科学领域中观测变量之间的关系模式的流行方法。
本文通过R语言建立广义线性模型(GLM)、多项式回归和广义可加模型(GAM)来预测谁在1912年的泰坦尼克号沉没中幸存下来。
在国内疫情稳定的新常态下,“双十一”点燃了消费者的购物热情,在购物热潮中,消费热点、消费者理念与行为将出现哪些变化?
比如说分类变量为是否幸存、是因变量,连续变量为年龄、是自变量,这两者可以做相关分析吗?两者又是否可以做回归分析?
当我们将CNN(卷积神经网络)模型用于训练多维类型的数据(例如图像)时,它们非常有用。
我们首先讨论多项式回归,进一步,我们会想到分段线性或分段多项式函数,可能还有附加的连续性约束,这些是样条曲线回归的基础。
本文对人口统计预测方法进行讨论。
根据我们对温度的预测,我们可以预测电力消耗。
随着越来越多的数据被数字化,获取信息变得越来越困难。我们在本文中重点关注的一个示例是评估公司面临的不同风险领域。
利率衍生证券的定价依赖于描述基本过程的模型。这些利率模型取决于您必须通过将模型预测与市场上可用的现有数据进行匹配来确定的一个或多个参数。
在本文中,我们使用了逻辑回归、决策树和随机森林模型来对信用数据集进行分类预测并比较了它们的性能。
动量和马科维茨投资组合模型使 均值方差优化 组合成为可行的解决方案。
本文简要介绍一下网络分析,我想提供一些有关“友谊悖论”的R语言例证。友谊悖论指出
最近我们被客户要求撰写关于MCMC采样的研究报告。在许多情况下,我们没有足够的计算能力评估空间中所有n维像素的后验概率 。在这些情况下,我们倾向于利用称为Markov-Chain Monte Carlo 算法的程序 。
本文在股市可视化中可视化相关矩阵 :最小生成树
指数加权波动率是一种波动率的度量,它使最近的观察结果有更高权重。
“聚类是将数据集分为几组的过程,其中包括相似的数据点”。聚类是一种无监督的机器学习,在您拥有未标记的数据时使用。
风险价值(VaR)用于尝试量化指定时间范围内公司或投资组合中的财务风险水平。VaR提供了一段时间内投资组合的最大损失的估计,您可以在各种置信度水平上进行计算。
在数据科学学习之旅中,我经常处理日常工作中的时间序列数据集,并据此做出预测。
巴斯Bass扩散模型已成功地用于预测各种新推出的产品以及成熟产品的市场份额。
分析师通常关心检测市场何时“发生变化”:几个月或几年内市场的典型行为可以立即转变为非常不同的行为。投资者希望及时发现这些变化,以便可以相应地调整其策略,但是这样做可能很困难。
由于目标是预测理赔频率(以评估保险费水平),因此他建议使用旧数据来训练该模型,并使用最新数据对其进行测试。问题在于该模型没有包含任何时间模式。
在现实世界中,我们的生活受到大量网络的支配。网络流可以表示很多模型,比如管道中的石油、高压线中电流,或者计算机网络中的数据。
今天早上,我们使用一些论文中提到的示例,使用最大流最小割定理将流量拥塞降至最低, 并应用了最短路径分析了交通瓶颈。
最近,我们继续对时间序列建模进行探索,研究时间序列模型的自回归和条件异方差族。我们想了解自回归移动平均值(ARIMA)和广义自回归条件异方差(GARCH)模型。它们在量化金融文献中经常被引用。
随着现代社会的进步,以男权为主的传统观念正在被颠覆,女性意识逐渐觉醒,并付诸行动,不遗余力地寻求真正的性别平等。
最近,我们使用隐马尔可夫模型开发了一种解决方案,并被要求解释这个方案。
本示例说明如何创建并可视化Markov链模型的结构和演化 。
本文提出了一种算法,可以根据市场波动性在均值回归和趋势跟随策略之间进行切换。
本说明介绍使用Student-t改进的GARCH(1,1)模型对汇率对数收益进行贝叶斯估计。
为了帮助客户正确使用POT模型,本指南包含有关使用此模型的实用示例。本文快速介绍了极值理论(EVT)、一些基本示例,最后则通过案例对河流的极值进行了具体的统计分析。
正如有配偶的寿命之间存在很强的相关性,我们可能会问,孩子和孙子的出生是否具有对一个人的剩余生命的影响(或者我们是否可以像这样假设独立性)。
本文中,我们讨论了一个将Poisson过程与Wiener过程结合在一起的最佳算法的问题。
当前是大数据盛行的时代,各种用户信息行为数据分析的结果影响着人们的生活和学习,同时对图书馆的发展也有着影响。
灰色关联分析包括两个重要功能。
第一项功能:灰色关联度,与correlation系数相似,如果要评估某些单位,在使用此功能之前转置数据。第二个功能:灰色聚类,如层次聚类。
POT模型其主要动机是为高洪水流量的概率模型提供实用工具。但是,EVT的优势在于结果不取决于要建模的过程。因此,人们可以使用POT来分析降水,洪水,金融时间序列,地震等。
从这个XML文件中,我想创建一个具有ID,name 列的R数据框。请注意,name和ID应包含变量的所有级别。
Excel提供了许多数据分析工具,可通过数据>分析|数据分析进行访问 。
波动率是一个重要的概念,在金融和交易中有许多应用。这是期权定价的基础。波动率还使您可以确定资产分配并计算投资组合的风险价值(VaR)。甚至波动率本身也是一种金融工具,例如CBOE的VIX波动率指数。但是,与证券价格或利率不同,波动不能直接观察到。
Excel提供了相当广泛的功能来创建图形,即Excel所谓的 图表。您可以通过选择插入>图表来访问Excel的图表功能 。
最近我们被客户要求撰写关于分析各种投资的历史收益的研究报告。要执行此分析,我们需要资产的历史数据。数据提供者很多,有些是免费的,大多数是付费的。
对于此示例,我将对R中的时间序列进行建模。我将最后24个观察值保留为测试集,并将使用其余的观察值来拟合神经网络。
关联挖掘通常用于通过识别经常一起购买的产品来提出产品推荐。但是,如果您不小心,则规则在某些情况下可能会产生误导性的结果。
风险价值VaR和损失期望值ES是常见的风险度量。
在本文中,您将发现如何使用标准深度学习模型(包括多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN))开发,评估和做出预测。
深度学习的预测建模是现代开发人员需要了解的一项技能。
隐藏层和神经元的理想数量取决于问题和数据集。与机器学习的多个方面一样,选择最佳的神经网络形状需要一定的知识水平和实验基础。一般来说,增加隐藏层和神经元的数量通常会产生更强大的模型,而这需要更多数据才能有效地进行训练。
尽管对于较高的阈值,SVM可以产生更好的ROC值,但逻辑回归通常更擅长区分不同类别。朴素贝叶斯的ROC曲线通常低于其他两个ROC曲线,这表明样本内性能比其他两个分类器方法差。
永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。
技术干货
最新洞察
This will close in 0 seconds