企业想要发展必须掌握政策的动向。本次研究把握政策的核心要点,利用Python强大的计算生态(pandas,Matplotlib,DataFrame,request_html.Butiful Soup,wordcloud等第三方库),实现对重庆地区政策数据的清洗,可视化以及自然文本分析。
从中得到有效的企业政策趋势及特点,同时给不同类型企业提供分门别类的政策信息。
根据重庆市的政策数据分析得到不同行业发展建议
特征转换
把不能处理的特征做一些转换,处理成算法容易处理的干净特征举例如下:
销售日期。就时间属性本身来说,对模型来说不具有任何意义,需要把日期转变成到年份,月份,日,周伪变量。
产品特征。从产品信息表里面可以得到款式,颜色,质地以及这款产品是否是限量版等。然而并没有这些变量。这就需要我们从产品名字抽取这款产品的上述特征。
以上例举的只是部分特征。
构造
数据中字段的展示:
技术细节
Xingyu Lan
基于APP的用户数据分析
本研究是基于以APP用户数据,探讨各个变量对用户是否会下单购买课程的影响。并对已有用户数据的用户是否会下单购买产品进行预测。
解决方案
任务/目标
利用已知数据预测用户是否会下单购买APP产品。
随时关注您喜欢的主题
数据源准备
利用已知数据预测用户是否会下单购买APP产品。利用已知数据预测用户是否会下单购买APP产品。有用户信息表 (user_info.csv) ,用户登录情况表(login_day.csv),用户访问统计表(visit_info.csv),用户下单表(result.csv),利用数据对用户行为进行数据统计与分析:
在数据预处理时进行缺失值分析。分析结果如下:
对于缺失值,我选择多重插补法进行缺失值进行3次插补。
特征转换
数据中有部分分类变量的字段,我根据不同变量的特性进行数值化。
数据可视化
ANN 神经网络预测用户是否购买产品
关于作者
Xingyu Lan
在此对Xingyu Lan对本文所作的贡献表示诚挚感谢,他专注机器学习、数据采集、数据分析、爬虫领域。擅长Python、SPSS、MATLAB、Excel。