数据预处理之异常值处理
数据预处理之异常值处理
数据预处理之异常值处理
信用记分卡一直是信用评分的标准模型,因为它们易于理解,使您能够轻松评分新数据-即计算新客户的信用评分。
概率编程使我们能够实现统计模型,而不必担心技术细节。这对于基于MCMC采样的贝叶斯模型特别有用。
我们最近有一个很棒的机会与一位伟大的客户合作,要求Business Science构建一个适合他们需求的开源异常检测算法。
银行信用数据SOM神经网络聚类实现
多层线性模型(Hierarchical Linear Model,HLM),也叫多水平模型(Multilevel Model,MLM),是社会科学常用的高级统计方法之一。
时变参数VAR随机模型是一种新的计量经济学方法
本文在iris数据集上展示了如何使用R软件来建立Hierarchical Cluster Analysis层次聚类分析(更好的可视化和灵敏度分析)。
最近我们被客户要求撰写关于ARMA-GARCH-VaR模型的研究报告。
R语言中的Wilcoxon符号秩检验与配对学生t检验
最近我们被客户要求撰写关于混合模型的研究报告。由于我们发现自己在工作中越来越多地使用这些模型,我们开发了一套R shiny工具来简化和加速与对象交互的lme4常见任务。
R语言用rle,svm和rpart进行时间序列预测
对于熟悉线性回归拟合结构方程模型的分析师来说,在R环境中,拟合结构方程模型涉及学习新的建模语法,新的绘图语法以及通常是新的数据输入方法。
在对诊断测试准确性的系统评价中,统计分析部分旨在估计测试的平均(跨研究)敏感性和特异性及其变异性以及其他测量。
处理分组数据和复杂层次结构的分析师,从嵌入在参与者中的测量,嵌套在州内的县或嵌套在教室内的学生,经常发现他们需要建模工具来反映他们数据的这种结构。
R语言CRAN软件包Meta分析
python用遗传算法 神经网络 模糊逻辑控制算法对乐透进行预测
R语言 线性混合效应模型实战案例
聚类分析算法很多,比较经典的有k-means和层次聚类法。
风险价值是衡量与投资组合相关的风险水平的统计方法。
线性回归在财务中被广泛应用于众多应用程序中。
本文的目的是对如何在R中进行生存分析进行简短而全面的评估。
本文是通过对area,perimeter,campactness几个变量的贝叶斯建模,来查看他们对groovelength这个变量的影响。
我已经准备了一个文件,其中包含四个用电时间序列来进行分析。数据操作将由data.table程序包完成。
此示例显示MATLAB如何从复合条件均值和方差模型预测 和条件差异。
之前在某社区中看到一篇帖子《一张价值几十万个跌停的统计表》,主要是预测即将被ST的股票,虽然有些标题党,但是还有有一些参考价值的。
有正必有反,在个人信贷业务规模不断扩大的同时,信贷的违约等风险问题也日益突出,一定程度上制约着我国的信贷市场的健康发展。
主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。
最近我们被客户要求撰写关于马尔可夫链蒙特卡罗MCMC模型的研究报告。这只是众多算法之一。这个术语代表“马尔可夫链蒙特卡洛”,因为它是一种使用“马尔可夫链”(我们将在后面讨论)的“蒙特卡罗”(即随机)方法。
让我们看一个经济学的例子:假设你想购买一定数量q的特定产品。
此示例显示如何在matlab中应用偏最小二乘回归(PLSR)和主成分回归(PCR),并讨论这两种方法的有效性。
本文显示了如何基于潜在的ARMA-GARCH过程(当然也涉及更广泛意义上的QRM)来拟合和预测风险价值(VaR)。
线性混合效应模型Linear Mixed-Effects Models的部分折叠Gibbs采样
逻辑回归是拟合回归曲线的方法,当y是分类变量时,y = f(x)。
可以使用逐步回归过程确定多元逻辑回归。此函数选择模型以最小化AIC。
和宏观经济数据不同,金融市场上多为高频数据,比如股票收益率序列。
这个问题涉及马蹄蟹研究的数据。
混合模型在很多方面与线性模型相似。它估计一个或多个解释变量对因变量的影响。
本文显示了如何基于潜在的ARMA-GARCH模型(当然也涉及更广泛意义上的QRM)来拟合和预测风险价值(VaR)。
汽车共享”最早出现于上个世纪四十年代的瑞士,他们发明了“自驾车合作社”,后来日本、英国等国争相效仿,但都未形成规模。
弹幕数据测评:情绪制造机
五一小长假将至,很多人都打算要带上自己的家人出去旅游放松一下,这是一个令人很幸福的事情,但同时也是会有一些焦虑的,焦虑什么呢?
口罩网购数据解惑
网约车评论的数字辞典
高校排名中的数字基因
隐形眼镜是一种戴在眼球角膜上,用以矫正视力或保护眼睛的镜片。与框架眼镜相比,隐形眼镜不仅佩戴方便、美观,而且视觉效果好。拓端数据(tecdat)研究人员根据电商网站交易数据从多个角度进行数据分析,对眼镜类型、价格、产地及消费满意度进行数据洞察。
评价数据下的酒店预订“避坑指南”
数据诊断电梯“安全之殇 物业工程肩负着维持项目各类设施设备的正常运作,保障全体业主的正常生活,令物业保值升值,是项目的心脏部门。拓端数据(tecdat)研究人员根据全国电梯故障上报汇总数据,从多个角度进行数据分析。
早在1995年比尔·盖茨就在《未来之路》里说过:未来没有配套智能家居的房子,就是毛坯房。
随着网民规模的不断扩大,互联网不仅是传统媒体和生活方式的补充,也是民意凸显的地带。
互联网无疑是当今最热门的行业。这个行业高薪资的背后也是大量的加班和激烈的竞争。
豆瓣高分影视数据洞察:热门影视十年演变
微博作为热门话题的聚集地,评价、点赞转发、评论有无水军……都可能影响新人们的判断。
小红书作为网友的“种草基地”,里面有来自全国各地婚礼策划企业,新人们会选择在平台上进行了解,收集自己想要的服务。
论坛为有相同爱好的网友提供了广阔的互动交流平台,而由此积累下来的庞大数据和复杂的用户互动场景也蕴含着有价值的信息,本文对虎扑论坛的帖子、个人信息展开分析,探索虎扑论坛用户有哪些特点?
微信公众号等自媒体的出现,让律所营销的方式相对以往发生了显著的变化,律所利用自媒体进行营销已经成为一种潮流,对塑造品牌和开拓案源带来巨大的帮助。
共享单车作为城市交通系统的组成部分,以绿色环保、便捷高效、经济环保为特征蓬勃发展。
社群是一群拥有相似利益、兴趣或追求的人。互联网的影响力使“社群”成为新媒体的一个重要概念,因为它压缩了出版、广播和发行的成本,消除了建立新社会群体的壁垒。
数据职位的工作要求是什么? 工作要求和工作的工资如何?tecdat研究人员通过对招聘网站数据进行分析总结,分析数据分析岗位的需求变化,以了解这些变化如何影响互联网从业者。
“随着娱乐和媒体的发展和转型,融合先进技术,使媒体的边界线逐渐模糊,渗透到人们生活的各个方面,不断产生新的商业模式,开拓新的市场。
针对当前生产和生活中面临的安全事故问题,利用当前发展迅速的DM(Data Mining)技术,通过对事故信息的多维度分析,实现监测系统的事故预测,提高了监测系统的性能,形成安全预警机制。
消费者今天会订阅多个电信服务(电视、付费节目、游戏等)。然而电信供应商提供的服务的差异化程度不高,客户忠诚度成为问题。
在大多数情况下,这些数据告诉了我们用户行为的常见模式。 数据的异常变化可能是我们系统中的故障或用户流失的“症结”所在。
了解不同的股市状况,改变交易策略,对股市收益有很大的影响。
高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知,像是一双对地区形象“塑型”的“看不见”的手。
家电产业和消费者升级悄然地展开。 市场的这种变化使消费者对家用电器的期望不再仅仅是一个简单的功能满足,而是更多的细节体验和技术创新。
在信息爆炸时代,“信用”已成为越来越重要的无形财产。
在互联网时代,数据是最宝贵的资源,大数据引领传统产业,催生新的活力。几乎所有的产业都在拥抱了大数据,体育产业也与之密切相关,数据捕获、存储和分析技术的持续进步正在积极影响着体育行业的方方面面。
永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。
技术干货
最新洞察
This will close in 0 seconds