热搜:

火车头采集器采集规则

2017-06-25 09:18:30文章来源:点点软件园热度:0

更多
火车头采集器

火车头采集器官方版v9.5

类别:网络工具站长工具语言:简体中文授权:免费软件

  火车头采集器是一款非常不错的数据采集软件,也是互联网上最流行的采集工具,但是使用相对比较专业,很多火车头采集器新手感到无从下手,今天教新手朋友们如何快速使用火车采集数据。更多最新IT资讯尽在金顺软件园http://www.jinshun168.com/

软件名称:火车头采集器
软件大小:23.04MB
下载地址:http://www.jinshun168.com/soft/59090.html

  首先讲一讲网站结构,通常网站结构为树形结构,一个网站主要包以下几种页面:首页、栏目页、文章页,其结构如下图。

  其次讲一讲火车头采集原理,火车头的运行需要一套规则来指定该如何采集所需数据,即需要编写火车头采集规则,编写采集规则也是新手最头痛的问题。

  火车头采集器通常通过网址抓取网站返回的源代码,然后在源代码中提取需要的信息。因此,采集数据需要先采集网址,然后再采集数据。

9SiR火车头采集器教程:[1]怎样写采集规则

  下面开始编写采集规则:运行LocoyPlatform.exe

9SiR火车头采集器教程:[1]怎样写采集规则


  在左侧“任务列表树”选择一个分组点击右键,选择“新建任务”弹出新建任务对话框。填写任务名,网站编码一般选择自动即可。

  添加起始网址

  填写“第一步:采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址,直至获取到内容页的网址。先填写起始网址,通常为目标站首页地址。点击“添加”,在单条网址处填上火车头博客的首页地址,然后依次点击“添加” ->“完成”。

9SiR火车头采集器教程:[1]怎样写采集规则

  编写“多级网址获取”规则

  这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域,先查看起始页地址的源码,找到如图所示代码区域:

9SiR火车头采集器教程:[1]怎样写采集规则

  点击右侧“添加”按钮打开“添加多级网址采集规则”,选择“从页面自动分析得到地址链接”单选按钮,在下面“从该选定区域中提取网址”,“从”(左侧)文本框填上栏目地址代码区域开始之前的标志性代码(要保证其在该页的唯一性),“到”右侧文本框填上栏目地址代码区域结束之后的标志性代码,在“结果网址过滤”的“必须包含”和“不得包含”文本框填上相应代码,如果该区域没有多余的链接不需要过滤,可以不填,这里的栏目页网址必须包含“category-”。然后点击“保存”返回。

9SiR火车头采集器教程:[1]怎样写采集规则

    金顺软件园小编推荐:

    火车头采集器教程

    淘宝店铺商品采集助手怎么用

    明振图片采集器使用方法

以上,就是金顺软件园小编给大家带来的火车头采集器采集规则全部内容,希望对大家有所帮助!

上一篇火车头采集器教程下一篇英雄联盟2017年6月27日最新维护公告
编辑:梓木