随着市场竞争的加剧和信息社会需求的发展,从大量数据中提取(检索、查询等) 制定市场策略的信息就显得越来越重要了。这种需求既要求联机服务,又涉及大量用于决策的数据,而传统的数据库系统已无法满足这种需求。其具体体现在三个方面:
历史数据量很大。
辅助决策信息涉及许多部门的数据,而不同系统的数据难以集成。
由于访问数据的能力不足,它对大量数据的访问性能明显下降。
随着C/S技术的成熟和并行数据库的发展,信息处理技术的发展趋势是从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,这种支持决策的、特殊的数据 存储即被称为数据仓库(Data Warehouse, DW)。
W。H。Inmon对数据仓库的定义为数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。
主题是数据归类的标准,每个主题对应一个客观分析领域,如客户、商店等,它可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据是极少更新的。数据仓库内的数据时限为5年至10年,主要用于进行时间趋势分析。数据仓库的数据量很大,一般为10GB左右。它是一般数据库(100MB)数据量的100倍,大型数据仓库达到TB级。
数据仓库主要应用在两个方面:
使用浏览分析工具在DW中寻找有用的信息。
数据仓库系统支持在DW上的应用,形成决策支持系统(DSS)。