电脑技术学习

数据采集程序分析

dn001

目前,市面上比较多的是嵌在网站程序里的采集程序,这种程序的优点:

1、与网站结合的比较好,数据入库方便

2、一般由整站程序提供,免费

存在的不足:

1、执行在服务器上,耗主机资源,如果你是租用空间的话,可能就不允许永这个功能了

2、数据采集方式简单,一般只有两层 目录-〉内容,模式,如果多层,就实现不了,

3、数据才过来后,只能用在一个网站上,对有多个相似网站的朋友来说,还要重复作

3、设置比较烦,要研究对方的HTML结构

4、遇上需要登陆的网站,就难以下手了

5、设置上,采用分析文本的发式,不能适应那种多模板方才采集的网站

其中,耗主机资源是最主要的

另外,还有一种,是运行在用户桌面的程序:

1、克服耗主机资源的问题

2、程序相对独立,使复用采到的数据成为可能

3、可以实现登陆,对那种只有会员才能看到的数据,也可以采,即使有验证码,也可以没问题

不足:

1、需要付费

2、数据提交到与网站的能力不足,一般,用到数据库的方式

3、设置上,还是采用分析文本的发式,不能适应那种多模板方才采集的网站

4、一是基于两层采集的

以上,是我个人对在采集程序的了解,不正确的地方还请指正。

采集软件免费下载:
http://soft.it-ceo.net/UploadFile/2006-4/20064118595744112.rar