现实社会中,大量的信息主要以文本文件、超文本文件、多媒体文件等非结构化文件形式存在,如何管理如此海量的信息呢? 首先,必须解决信息的有序存储问题;其次,要解决信息的快速检索问题。
TBS分布式全文检索系统
分布式全文检索系统适用于各种全文数据库资料的检索。它的逻辑结构如上图所示,分外网和内网两个部分。外网与Internet连接,提供www服务,内网提供控制和数据服务。两网之间通过TCP/IP协议进行通信,从外网进来的请求不能直接到达内网,确保了内网数据的安全。
Web Server与TBS Server 采用Client/Server的结构。EBS Server负责整个系统的调度、用户及权限控制的工作,管理所有的数据库资源,对数据的输出进行流量统计,对用户的操作进行日志记录。用户访问本系统时首先由Web服务器WWW-0进入,而为了提高用户的访问速度,Web服务器WWW-1、WWW-2、WWW-3是可由EBS进行统一调度和任意扩展的。TBS-1、TBS-2、TBS-3、TBS--1、TBS--2、TBS--3是系统的后台全文数据库服务器。横向三个用于存放不同的信息内容,纵向两个用于存放相同内容的备份。用户既可从本地也可远程通过浏览器方式或操作数据库方式进行录入,同时,还可以通过浏览器来远程进行信息的浏览、检索和维护。该系统检索速度快,支持字、词、长句子的混合检索,对新增信息能够实时、自动追加索引,且能保证空间膨胀率为零。
多媒体全文检索光盘制作及出版系统
多媒体全文检索光盘出版系统适用于文件资料选编、报纸杂志合订以及网站页面打包。它支持多种操作系统平台(Win95/97/98/NT/2000)和多种Web浏览器(如Netscape、MS、IE),提供全部配套软件,即装即用,还可开发以下三种不同模式的光盘应用:
1.完全基于浏览器(CDWeb/CBS)的模式。特别适用于图文资料检索。
2.IE浏览器和ActiveX控件结合(InfoView/ Edit)的模式。特别适用于数据库检索。
3.Win32程序(CDMake/CDRun)模式。特别适用于文字、图形、多媒体资料的检索。
该系统具有以下特点:
* 所有页面均可由用户灵活调整,便于与HTML页面挂接;
* 支持字段/全文检索、组合检索等,并可以进行二次检索、多库检索;
* 支持字段、层次、代码等多种浏览方式,并可在浏览时进行二次检索;
* 支持图文混排,支持图像、视频、动画等多媒体信息的直接播出;
* 支持各种排版格式的WORD/EXCEL/PDF文件,可按原版面风格浏览;
* 系统词表(11万)与专业词表相结合; * 对于特殊应用CBScript模板语言,可支持编程级的开发;
* 提供底层全文数据库DLL扩展接口,用户可通过 VC/VB扩展应用。
Internet信息发布及全文检索系统
针对一般传统数据库对字段、结构、标题、关键词等内容定义的限制和检索速度慢的缺陷,Internet信息发布及全文检索系统采用快速模糊检索算法,将结构化数据库与非结构化全文信息库完美地结合在一起。它在内网可构筑单位办公自动化管理系统、文档资料管理系统,在外网可用于构筑Internet信息发布、电子商务网站平台。
该系统的功能特点如下:
* 响应速度快,实现海量数据库毫秒级、亚秒级查询;
* 一次检索可以跨至1024个数据库;
* 对于中文可字词结合索引,支持中英文(全角/半角)混合检索;
* 具有停用词( Stop-list )处理和检索词逻辑运算(与、或、非、差、优先、相邻、异或)功能;
* 支持渐次逼近检索、部分一致匹配、距离检索、同义词扩检;
* 具有Web数据库管理功能;
* 支持字段内容加密/解密和压缩/解压缩;
* 提供系统级、数据库级、记录级、字段级、内容级五级安全控。
TBS全文检索数据库
"金信桥"从信息管理的最基础做起,首先成功开发了TBS全文数据库。
该数据库主要针对非结构化文件管理设计,能够在单库中管理42亿条记录(每条记录/字段都可容纳任意长度的信息);定义多种字段类型;建立多种索引方法(字段索引、全文索引、层次索引、代码索引)。另外,它还独具多值字段、字段加密、内容压缩、自动编码、用户词典等功能。
对不同类型的文件,TBS数据库系统还自带数据转换工具,既可将标准格式、特殊格式的文本信息装入到全文数据库中,也可将各种关系数据库(如DBF、SQL Server、Oracle、DB2、Sybase等)中的信息直接装入。
智能全文搜索引擎
在TBS全文数据库的基础上,"金信桥"又建立了Internet 网站全文搜索引擎(NetBot),主要用于对指定网站中的静态页面进行页面信息收集、全文信息提取和索引,允许前台用户在浏览器中按页面中的任意字词进行全文检索,并提供给用户进行分类浏览的导航工具。
NetBot是一个智能化的中英文网页搜索器,它自动周期性地扫描网站和页面URL,以便及时发现更新的页面,并去除已经失效的URL连接,对数据进行实时更新。另外,它还对设定的URL集合进行定时搜集、分析和加工整理,并自动将有关信息入库、索引,为在浏览器上的全文搜索提供后台数据
网页模板编写语言
为了配合全文检索系统的运用,"金信桥"采用了标准的JavaScript、C、ASP、JSP等语言的语法,开发出了一套语法精练的CBScript网页模板编写语言。它使得编译执行的速度极快,并且提供了大量的页面模板可直接调用,还内置了全文数据库管理、全文检索引擎、电子邮件收发、新闻文件管理、远程文件传输、加密/解密、压缩/解压缩、身份验证、资源管理、动态调度等模块,藉此用户可进行极具个性化的二次开发。
金信桥全文检索系统是目前国内唯一具有三层结构、分布式动态负载均衡、多机并行检索、超大容量、多语种、多媒体、高可靠性的全文检索系统。以下几个它派生出的应用系统都是基于Web开发的,均采用模板技术,使用户可在不编程的情况下对Web页面进行灵活修改,并支持多用户并发检索及同时维护(没有用户数限制)。