如今,企业迫切希望 DBA(数据库管理员)和开发人员能够集成公司数据,以便协助管理信息、挖掘客户数据库或满足日常要求。Sybase 正借助一种称为 Sybase 数据集成 (DI) 套件的新产品来满足这种需求。此项新技术的主要功能包括:
_ 访问多个不同数据源,且能够创建单一、集成的数据视图
_ 访问各种异构数据源,包括大型机数据源
_ 捕获数据源中的实时事件,并将其传播到应用程序中
_ 使用上下文搜索对结构化和非结构化数据中的信息进行搜索和查询
_ 使用 Sybase WorkSpace 开发应用程序
_ 使用通用的系统管理控制台管理 DI 套件组件
_ 通用的安装程序,它使用脚本驱动的实用程序来执行交互式和后台安装
有关数据集成的内容将分成两部分来介绍,在第一部分中,我们将详细介绍 Sybase 数据集成套件的所有功能,并着重介绍数据联邦和企业信息集成 (EII) 范例。在第二部分中,我们将深入介绍复制、搜索、实时事件以及 ETL(数据提取、转换和装载)。
注意:目前,ETL 是在数据集成套件之外独立提供的。
Sybase 数据集成套件的组件
DI 套件包含集成数据的所有常用技术(联邦、复制和 ETL)以及实时和搜索功能。图 1 说明了数据集成套件的各种组件。
什么是企业信息集成?
由 Sybase 最近兼并的 Avaki 公司提供的 Sybase 数据联邦是 DI 套件的一个关键组件。它基于日益成为主流的企业信息集成 (EII) 概念,企业信息集成与以 ETL 为导向的数据仓库不同,因为它只访问数据而不移动信息。ETL 本身就是一个负责将数据移动到支持商业智能报告的中心存储库或数据集市的,由很多步骤组成的过程。
图 1:Sybase 数据集成套件
然而,尽管 EII 使用虚拟化来显示统一的信息资源,但事实上它是调用来自多个资源的“联邦数据而不是进行拷贝。随着数据库数量不断增加,联邦数据方式在访问分布式数据方面变得越来越来重要。Avaki EII 为用户提供了 EII 技术的许多核心功能,并增加了网格功能、数据高速缓存、独立地跨防火墙和管理域移动数据的功能以及共享文件的功能。
数据联邦
如上所述,联邦简化了集成来自多个分布式来源的数据的过程,且能够访问集成的企业数据。用户可以通过它:
_ 获取来自多个不同来源的数据的单一虚拟视图,这些来源包括支持 JDBC/ODBC 访问的关系数据库、应用程序(通过 JCA 或者 Web 服务)、Web 服务、XML 文档或文件。“联邦方法意味着,数据是从原始数据源中提取出来的,而不是从数据副本或数据集市中提取出来的。
_ 将联邦数据以 Web 服务、SQL 视图(使用 JDBC/ODBC 访问)或者平面文件的形式提供给需要使用这些数据的应用程序。因此,现在应用程序无需创建联邦查询或者直接访问源数据库,但可以访问数据联邦服务器以执行其查询。
_ 利用基于 GUI 的工具定义数据源和查询,并在目录中存储这些查询以便于由应用程序执行或者搜索和重用。它还支持即时查询。
_ 更改数据源的模式或者将数据库移动到其它服务器中,且不破坏应用程序。只需对应用程序正在使用的 Web 服务或者 SQL 视图进行修改即可。
_ 依靠用户身份验证的安全支持以及在 EII 层中定义的与查询相关的常用企业验证模式和精细的访问控制。
_ 利用基本的监视功能查看哪些服务器处于正常运行状态,管理和添加用户,管理服务器,并审核日志以便了解访问模式和确定哪些用户登录了服务器及他们运行了什么样的查询。
_ 为面向服务的应用程序构建数据服务层,使得数据层和业务逻辑分离。
DI 套件还包含了提供 EII 功能和工具的数据联邦服务器。用户分别使用套件安装程序来安装 EII 功能,使用 Sybase WorkSpace 来安装工具。
复制
复制组件是 DI 套件的数据分发和数据同步组件,它包含了 Sybase 复制服务器的所有组件。它具有以下功能:
_ 支持异构数据库(包括 ASE、Oracle、IBM DB2 和 Microsoft SQL Server)中事务数据的移动和同步。
_ 提供读取上述任意数据库的功能,并将变化传播到相同的或不同的目标数据库中。
_ 性能极高,由于采用从日志文件读取数据库变化,而非基于触发器的方法时,所以不会影响数据库的正常运行。
_ 以事务处理的方式实时地将事务从源数据库传播到目标数据库(即不向目标数据库提交在源数据库上回滚的事务)。此外,复制在事务级别上维护数据完整性,从而确保只向目标数据库提交完整事务。
_ 在分布式异构系统间启用双向复制。
_ 根据需要允许转换正在使用的数据。
_ 准许将源数据库中的模式变化传播到目标数据库中。
_ 复制是非常灵活的,它允许客户指定是复制整个数据库、整个表格还是仅复制表中指定的列。
实时事件
实时事件通过消息基础架构从异构数据库中捕获限时事件,并将其推入业务应用程序中。有了它就不再需要基于轮询的应用程序的,因为这些应用程序会影响生产服务器的效率。
此组件具有以下功能:
_ 能够从各种数据库(Sybase ASE、Oracle)中捕获事件,并将这些变化传播到消息总线中。您还可以读取消息总线中的事件,并将其作为 SQL 语句在数据库中应用。
_ 允许应用程序捕获和添加与事务的状态相关的信息(即与事务相关的其它信息),并将其作为 XML 消息推入消息总线中。
_ 支持标准的消息基础架构,例如 Java 消息服务 (JMS) 以及传入和传出 WebSphere MQ 的消息服务。
搜索
搜索组件提供高级数据服务以便查询、定位和分析数据。它自动处理、定位并分析数据库、集中式存储库、程序库、文件系统、网络驱动器和现有文档管理系统中相关性最大的信息。
用户可以通过它:
_ 自动捕获和聚集非结构化数据;检索并提供相关内容。其数据导入功能包括文件系统、Web 数据和数据库。
_ 支持多种格式,包括 Microsoft Word、Excel 和 PowerPoint、纯文本文件、Adobe Acrobat PDF 文件以及 HTML。
_ 以自然语言进行搜索。
_ 进行智能处理:它可以推断文档中的概念。软件可以搜索文档或段落或者元数据,并对它们进行分类。
_ 提供自动超级链接,以便在文档中找出在概念上相似的文档或内容。
_ 个性化:搜索根据设定的兴趣或用户配置文件自动提供内容。
_ 与语言无关:可以用各种语言进行搜索,且不是基于关键字的。
ETL(提取、转换、装载)
目前,ETL 是独立于数据集成套件销售的。需要传输数据的用户可以单独购买。用户可以使用它访问异构数据源(数据库、XML 文件等)、转换数据和将其装载到各种目标数据库(数据仓库、XML文件等)中。
_ 目前所支持的数据源和目标数据库包括 Oracle、DB2、MS SQL Server、Sybase ASE、Sybase IQ、XML 和文本文件。可以使用 Sybase 适配器提取大型机数据,并将其写入 ETL 过程将使用的文件中。ETL 工具支持各种服务,包括 SOAP 和 XMLRPC。
_ 图形化开发界面使用户可以利用拖放功能创建转换流。用户可以使用不同的组件进行输入、转换、查找、分级和输出。对于每个组件,都提供 Flash 教程和每一执行流程的各种向导。此外,仿真环境提供完成 ETL 工作的步骤,并检查每个组件的输入、输出和转换。为 Javascript 开发提供全面的调试工具,此工具允许逐行分步执行、定义监测点、执行白盒测试和评估表达式。
_ ETL 工具可以读取平面文件和通过特定更改完成频繁的批处理更新。
_ 转换组件包含分步控制、映射、拆分和转换数据流、Java- Script 以及调用外部代码的功能。
_ 作业控制组件允许用户管理相关性和同步转换过程。
Sybase 数据服务管理器
Sybase 数据服务管理器 (DSA) 是管理 DI 套件组件的图形界面。它提供以控制面板形式组织的可视 DI 套件组件(如下图所示),包括可通过 Sybase Central 插件访问的基于 GUI 的服务器管理器。
图 2:数据服务管理器
DSA 提供显示有关执行特定管理任务的信息的在线帮助。安装任何 DI 套件组件之后,即可访问此帮助。
Sybase WorkSpace
Sybase WorkSpace 是一种建立在开放源代码 Eclipse 框架之上的集成开发环境,此框架有助于开发人员与分析人员在对企业应用程序进行建模和开发企业应用程序时(包括建模、开发、研究、部署和调试周期)相互合作。
WorkSpace 提供开发 DI 套件的数据联邦、复制和实时事件组件的功能。这只在 Windows 操作系统中可用。
问题详细信息解决方案
数据孤岛· 有价值的数据陷入不同的数据源或不兼容的数据模式中。现有系统导制这些数据不可访问。
· 不同数据源中的数据没有被集成起来。
由于数据源之间的事务变化未被分发和同步,所以无法访问实时数据。
复制连接所有支持的异构数据存储,保持数据的集成性和近乎实时的访问数据。
没有统一的企业数据视图访问生产数据将影响系统的运行性能。
数据仓库中的数据并不是实时的。
没有来自不同数据源的生产数据的统一视图。这将影响那些对访问时间敏感的应用程序获取关键数据。
数据联邦有助于:
• 获得各种数据的单一视图。
• 实时查看生产数据。
• 创建不同的视图以访问操作数据和数据仓库数据。
无法自动使用实时数据和历史数据以提高业务流程的效率和质量商务智能 (BI) 工具只访问数据仓库,不访问生产数据。数据联邦将帮助联邦数据仓库和生产系统中的数据,以获得当前数据和历史数据的综合视图。
无法识别并防止对服务的未授权使用• 开发人员编写服务并在其代码中嵌入访问逻辑。
• 无法在代码中添加权限。 数据联邦能够创建用户并设置每种服务的访问权限。
这将使得嵌入在代码中的业务逻辑与服务访问权限分离。
没有能够处理企业中大量非结构化信息的单一解决方案• 根据文章的内容手工做标记以便搜索。这项工作的劳动强度非常高,且需要大量的标记。
• 在搜索相似内容时,使用搜索引擎执行关键字搜索而非基于内容的搜索。关键字搜索将显示在不同文档内容中所有与关键字匹配的结果。DBA可以通过搜索组件来搜索非结构化数据和关系数据库中的数据。此组件能够自动根据文档的内容对文档进行分类,并以自然语言搜索包含相似文本的文档。
企业兼并之后没有该企业的历史数据• 每个被收购公司生成它们自己的报告。
• 整合这些报告不仅困难且非常耗时。DI 套件提供以下选择:
• 将所有数据复制到中心数据库,并创建集合视图。
• 联邦访问不同企业中的数据。
没有实时同步信息,这将对使用应用程序访问数据的用户产生影响。• 应用程序无法获得数据源中发生的事件。
• 只按一定时间间隔将数据变化更新到中心存储库中。因此,数据并不是最新的数据。 实时事件组件可以捕获源数据库中的变化,并将其作为事件推入消息总线中。订阅这些事件的应用程序将把此变化应用到目标数据库中。http://bianceng.cn(编程入门网)
WorkSpace 可以作为 DI 套件中的联邦 (Avaki EII) 服务器的工具。其用于数据集成的元数据驱动的图形建模工具将帮助用户集成来自异构数据源的数据。您可以构建数据服务,提供或搜索数据源,以及导入或创建数据服务的模式模型。您还可以使用 WorkSpace 企业建模工具中的 DataArchitect 进行反向工程或创建新模式模型,然后将它们导入数据联邦工具中,以便创建符合这些模型需要的数据服务。
您还可以通过 WorkSpace 管理和建立异构复制系统。用户创建适用于复制系统的信息流动模型,它将自动管理复制定义、发布和订阅(创建完成之后,您可以手动修改这些设置)。您还可以通过企业建模工具反向工程现有复杂的复制环境,以执行影响分析。
对实时事件管理而言,WorkSpace 的工具有助于捕获实时的数据库事件。
数据集成套件解决方案
数据集成套件组件提供了解决企业中不同数据集成难题的工具。
表 1 提供了数据集成问题的列表,包括问题的详细信息以及 DI 套件提供的解决方案。
结束语
复制、联邦和 ETL 都是用于集成数据的重要技术。用户可以通过复制功能实时地汇集分散在各个部门的多个数据库的数据,企业能够获取最新的数据以进行分析。用户可以使用基于 EII 的数据联邦来编写应用程序,无需拷贝数据即可访问来自异构数据源的最新数据。最后,ETL 还提供抽取、转换和装载数据的技术,从而满足用户提取和转换大量数据的需要。Sybase 数据集成套件通过提供各种数据集成技术来满足典型数据集成项目的需要。另外,Sybase DI 给用户提供了处理非结构化内容所需要的搜索功能,以及无需轮询即可对数据库事件做出实时响应的能力。