目前,市面上比较多的是嵌在网站程序里的采集程序,这种程序的优点:
1、与网站结合的比较好,数据入库方便
2、一般由整站程序提供,免费
存在的不足:
1、执行在服务器上,耗主机资源,如果你是租用空间的话,可能就不允许永这个功能了
2、数据采集方式简单,一般只有两层 目录-〉内容,模式,如果多层,就实现不了,
3、数据才过来后,只能用在一个网站上,对有多个相似网站的朋友来说,还要重复作
3、设置比较烦,要研究对方的HTML结构
4、遇上需要登陆的网站,就难以下手了
5、设置上,采用分析文本的发式,不能适应那种多模板方才采集的网站
其中,耗主机资源是最主要的
另外,还有一种,是运行在用户桌面的程序:
1、克服耗主机资源的问题
2、程序相对独立,使复用采到的数据成为可能
3、可以实现登陆,对那种只有会员才能看到的数据,也可以采,即使有验证码,也可以没问题
不足:
1、需要付费
2、数据提交到与网站的能力不足,一般,用到数据库的方式
3、设置上,还是采用分析文本的发式,不能适应那种多模板方才采集的网站
4、一是基于两层采集的
以上,是我个人对在采集程序的了解,不正确的地方还请指正。
采集软件免费下载:
http://soft.it-ceo.net/UploadFile/2006-4/20064118595744112.rar
下一篇 流媒体下载技术!