2)制作采集规则
1. 打开MS谋数机
2. 输入目标抓取网站的网址,命名规则主题名。


第一步:在MS谋数机的“网址栏”,输入想要进行爬虫抓取的网页的网址,然后回车进行加载,可以在MS谋数机下方的“浏览器”窗口看到页面显示。
第二步:页面加载完后,在右边的“工作台”中的“命名主题”下方的“主题名”栏处输入自定义的主题名,这里我命名为“天猫iphonex累计评论”,然后点击旁边的“查看”按钮,测试你起的名字是否已被占用,如果提示“该名可以使用”则命名成功。
3. 新建整理箱
第一步:点击右方的“工作台”中的“创建规则”,点击“新建”按钮,在弹出的窗口中输入想要命名的整理箱名称。这里我命名为“列表”。
第二步:在整理箱中添加抓取内容。右击整理箱名称选择“添加-包含”,这里我先添加“买家昵称”,继续添加的话,右击“买家昵称”选择“添加-其后”,添加“评论内容”。
第三步:整理箱中必须有一个是“关键内容”,选择一个抓取内容设为“关键内容”,这里我吧“买家昵称”勾选为“关键内容”。


4. 进行内容映射
第一步:在“浏览器”窗口中点击你想要获取的内容,比如现在要获取“买家昵称”,就在“买家昵称”那个区域进行鼠标点击,这时候MS谋数台会自动定位“买家昵称”,在HTML中结点的位置(DIV结点)
第二步1:展开一个节点,因为“买家昵称”是一个text所以找到text标签。
第三步:右击这个text,选择“内容映射-买家昵称”。
第四步:类似的做“评论内容”的内容映射。


5. 使用样例复制
由于评论和评论之间是相同结构的数据,我们上一步只是完成了一个评论条目的抓取,想要抓取更多的评论就需要进行样例复制。
第一步:点击整理箱名称,即“列表”。
第二步:勾选右侧方的“启用”,开启样例复制功能。
第三步:分别找到第一条评论和第二条评论对应的节点。
第四步:右击第一条评论对应结点,选择“样例复制映射--第一个”。
第五步:右击第二条评论对应结点,选择“样例复制映射--第二个”。
可以点击右侧的“测试”按钮对当前的规则进行测试,看到的结果是不是想要抓取的内容。


6. 创建记号线索
由于评论有很多页,所以我们要解决抓取数据的时候翻页的问题,需要创建一个“记号线索”。
第一步:点击右方的“工作台”中的“爬虫路线”。
第二步:点击“新建”并勾选“记号线索”,创建记号线索。
第三步:勾选“连续翻页”,表示在执行抓取任务的时候,爬虫可以在同一个DS打数机窗口内抓取完成当前页面之后直接跳到下一个页面进行抓取。
第四步:由于翻页之后继续使用当前规则进行抓取,所以“目标主题名”那里我们不需要更改仍使用“天猫iphonex累计评论”。
第五步:在网页上右击“下一页”的定位结点,选择“翻页映射--作为翻页区--线索1”进行线索定位映射。
第六步:在网页点击“下一页”,找倒定位结点处,选择对应的text结点进行线索映射,右击text选择“翻页映射--作为翻页记号”。


7. 保存规则
在MS谋数台右侧点击“存规则”,这样就可以使用我们创建的规则进行数据抓取了。
如何搜索已存好的规则:在MS谋数台的“搜规则”工作台中输入已经创建好的规则名搜索。
3)数据抓取
1. 打开DS打数机,在“搜索框”输入所要使用的规则主题名称。
2. 右击“主题名”,弹出菜单选择“统计线索”,可以看到有多少个线索等待抓取,线索就是网址。
3. 点击单搜,DS打数机就开始自动进行数据的抓取工作,并会将结果以XML的格式存储下来。
4. 遇到提示“没有线索了,可添加新线索或者激活已有的线索”,说明线索已经采集完一遍了。如果要再次采集,右击“主题名”,选择“线索管理--激活所有线索”;如果要采集其他相同结果的网页,选择“添加”,再把多个网址拷贝进去,就可以“批量采集”了。
5. DS打数机中,点击“爬虫群--启动”。
6. 在“会员中心--规则管理--我的规则” 中,点击“导入数据”,可以直接导入XML数据。
6. 导出数据,导出成功后,即可下载。


我是徐大大,10多年的老SEO人,分享我这些年学习到的技术与心得,包括白帽黑帽SEO,Python开发,爬虫,web安全。真正的大师,永远保持一颗学徒的心(流量为"基",一直探索!)你关注的人,决定你看到的世界,而我主要关注IT互联网。更多网络知识可以关注徐大大seo博客站