一.定义数据采集规则:
1.命名采集主题
运行MetaStudio后,如图1执行下面的步骤。
2.定义采集规则
创建整理箱:
首先建立一个顶部整理箱:shop;在弹出的框中输入信息属性名称、点击key复选框(这个顶部整理箱不需要进行Freefomat映射)
在这个整理箱上右击,点击-》添加包容;新建整理箱;
在新建的整理箱上通过 右击-》其后添加其余的整理箱;
注意:对于需要多级抓取的,需要增加一个page整理箱,勾选key、clue、url;
内容映射:
定位到第一条,定位至需要抓取的文本行,选择内容映射;
对于page同样需要内容映射,不过选择的是href:
FreeFomat映射:
将对第一块设置的映射模式应用到整个页面,针对各个快使用到的最相近的class,进行FreeFormat映射;
规则定义完成;
更多细节参考:
采集当当百货价格以建立比价系统
http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html
二、翻页抓取
对于列表页,翻页抓取:
1.1 创建线索
-
转到Clue Editor工作台
-
点击newClue按钮,创建一个线索
-
点击Marker类型,设定为记号线索;
4.设置记号映射 “下一页”字样就是记号
对于Clue1(page的clue)
将目标主题设置为popshopdet;这样就和下一级跳转的建立了联系;
翻页抓取完毕,更多参考:
《翻页抓取当当网价格数据》
http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/bulkscrape.html
三。多级抓取
参考:
DataScraper数据抓取快速入门
http://blog.donews.com/me1105/archive/2011/04/09/144.aspx
卓越网商品数据分级抓取
http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/multilayers.html