电商网站爬虫

由于电商网站的数据的实时性要求,数据分析时一般直接从网页爬取。因此使用爬虫的方法显得十分重要。R作为数据分析的软件,可以直接对爬取的数据进行后续处理,加上上手快的特点,是电商网站数据爬取和分析的好工具。

下面以http://cn.shopbop.com/为例 简单分享下使用Rcurl对网站进行数据爬取的过程。

首先需要在Rgui里安装需要的软件包

在源码中很容易找到网站导航中子网站的网址

如果得到的中文有乱码,则需要对编码进行转换

否则 可以通过xmlGetAttr函数 得到所需的attributes

由于得到的只是子网页的路径,要获取子网页的数据 需要用paste链接网站根目录地址

#对于批量爬取商品的信息还需要获取商品展示子网页的页数

每页显示40个商品,一共有1200个商品。

通过网址,我们很容易了解商品展示页的地址规则。

#名称信息

图片信息

价格信息

通过文本处理和输出,就可以将其进行保存和后续的数据分析。



非常感谢您阅读本文,有任何问题请在下面留言!

点击这里给我发消息