DataScraper数据抓取步骤-全

2011/07/04 WEB开发

一.定义数据采集规则:

1.命名采集主题

运行MetaStudio后,如图1执行下面的步骤。

2.定义采集规则

创建整理箱:

首先建立一个顶部整理箱:shop;在弹出的框中输入信息属性名称、点击key复选框(这个顶部整理箱不需要进行Freefomat映射)

在这个整理箱上右击,点击-》添加包容;新建整理箱;

在新建的整理箱上通过 右击-》其后添加其余的整理箱;

注意:对于需要多级抓取的,需要增加一个page整理箱,勾选key、clue、url;

内容映射:

定位到第一条,定位至需要抓取的文本行,选择内容映射;

对于page同样需要内容映射,不过选择的是href:

image

FreeFomat映射:

将对第一块设置的映射模式应用到整个页面,针对各个快使用到的最相近的class,进行FreeFormat映射;

规则定义完成;

更多细节参考:

采集当当百货价格以建立比价系统

http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/defineschema.html

二、翻页抓取

对于列表页,翻页抓取:

1.1 创建线索

  1. 转到Clue Editor工作台

  2. 点击newClue按钮,创建一个线索

  3. 点击Marker类型,设定为记号线索;

4.设置记号映射 “下一页”字样就是记号

对于Clue1(page的clue)

将目标主题设置为popshopdet;这样就和下一级跳转的建立了联系;

翻页抓取完毕,更多参考:

《翻页抓取当当网价格数据》

http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/bulkscrape.html

三。多级抓取

参考:

DataScraper数据抓取快速入门

http://blog.donews.com/me1105/archive/2011/04/09/144.aspx

卓越网商品数据分级抓取

http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/multilayers.html

Search

    Post Directory