您现在看到的是旧版软件教程,新版软件的界面、功能经过全新改版,更加简单好用 请转到最新的入门教程
集搜客想让你最便捷地获取数据,让你有“要什么就抓什么”的感觉,要记住核心要领:
第一步:先建立一个箱子,这里要存储你想抓的内容(术语叫:整理箱)
第二步:接着告诉集搜客程序,网页上哪个内容需要丢到箱子中(术语叫:映射)
什么都不懂的小白们,一开始接触此类软件都会觉得好难啊,怎么这么多专业名词啊,我好晕啊!!!嘛~不要急呐~新技能的get哪会那么容易呢,玩个游戏要玩好都需要时间,更何况咱们还是做这么有技术含量的事呢。废话不多说,本文就是为了帮助小白建立学习的信心,只要你认真看完本文,成功抓取样本数据,你也就入门啦!撒花撒花~
注释:本文演示的抓取规则,可到资源库下载学习:集搜客怎样抓取网页数据演示规则,下载运行即可抓取样本数据。
一、制作采集规则
如果把“抓取数据”比喻成“做一道数学题”的话,“规则”就是你要得到“计算结果”(就是数据)之前列出的“方程式”。后面的很多概念请好好看图哦,图上面都有标明的。
1,输入目标抓取网址,并给规则起个名
图1
第一步:将“要抓取的网址”输入到MS谋数台的网址栏按ENTER键加载,底部浏览器窗口就会把网页加载显示出来。
第二步:网页显示后,在“命名主题工作台”处输入主题名并 查重以确定主题名是否可用。
2,新建整理箱
图2
第一步: 点击新建按钮,在弹出的窗口中输入想要命名的整理箱名称。
第二步: 在整理箱中创建抓取内容,右击整理箱名称选择 “添加→包容”(表示抓取内容包含在整理箱中)。继续添加的话,选择“包容”就是建立多层次的整理箱结构,选择“其前/其后”就是建立同级前后顺序的抓取内容。
第三步:勾选“关键内容”,选择整理箱中 重要且确定会在网页上出现的内容 勾上“关键内容”。
3,将网页内容映射到整理箱
图3
第一步: 在浏览器窗口中点击目标数据——“商品名”(Apple/苹果iphone 6s)。
第二步: 谋数台会自动定位到“商品名”的网页标签节点(A节点)。
第三步: 双击展开A节点,找到#text(文本信息通常储存在#text中)。
第四步: 点击#text,可在 “文本窗口” 内容中看到text的值;
第五步: 右击#text做 “内容映射” 到商品名称。
抓取“商品价格”和抓取“商品名称”的操作步骤相同。
4,使用 样例复制 功能实现批量获取
图4
第一步:点击容器节点 整理箱名。
第二步:勾选启用,启用 样例复制 功能。
第三步:分别找到第一个商品 和 第二个商品 对应的网页标签节点。
第四步:右击 第一个商品对应节点 样例复制功能中的 “第一个” 映射到 样例1。
第五步:右击 第二个商品对应节点 样例复制功能中的 “第二个” 映射到 样例2。
5,规则测试成功后存规则
图5
第一步:点击 测试 按钮可以看到抓取的内容,并且检查数据是否完整准确。
第二步:数据无误的话,点击 存规则,规则就会被保存到服务器中。
第三步:保存规则成功后,点击 爬数据 按钮就开始采集了。
二、启动打数机爬数据
1,爬数据
图6
2,看结果
数据以XML格式 默认存放在C盘用户文件夹的DataScraperWorks 中,可自定义更改结果存储路径。
同时集搜客提供将XML批量导入EXCEL的工具。导入excel之后的数据,如图6所示。
图7
本文主要是给什么都不懂的小白找一点学习的感觉,但是要真正解决需求,还是得从初级教程→中级教程→高级教程循序渐进地学习。因为很多需求,光靠上面那些步骤是没法搞定的,需要更多的操作。如果看懂了,就可以开始着手试试啦~