计算机数据管理论文
在网络环境下,计算机数据与日俱增,给企业带来数据量的急剧上升的同时,也带来了数据如何管理的问题。下面是小编给大家推荐的计算机数据管理论文,希望大家喜欢!
计算机数据管理论文篇一
《数据仓库数据源管理研究与实践》
摘 要:论述数据仓库系统数据源管理的意义、对象、内容和方法,基于此,开发建设数据源管理系统,并应用到对ERP系统业务数据的接入管理,取得预期的成效。
关键词:数据仓库 数据源 数据源管理
中图分类号:TP392 文献标识码:A 文章编号:1007-3973(2013)012-202-03
1 引言
数据仓库(Data Warehouse)是所有DSS(Decision Support System)处理的基础,是一个面向主题(Subject Oriented)的、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。一般来说,数据仓库应具有以下几个方面的作用:(1)存储企业级的基础数据和共享数据;(2)为各业务应用系统提供共享数据;(3)为业务部门提供综合数据查询分析功能;(4)为企业管理层提供分析决策信息。
数据仓库系统的数据一般是通过数据源从业务源系统中抽取,由此数据源是数据获取的首要环节和关键点,当面对众多业务源系统,面对海量数据的抽取时,就迫切需要一套完整高效的方法和工具对数据源进行管理,为数据仓库系统数据的准确性、完整性和及时性提供支持。
2 数据源管理概述
2.1 数据源定义
数据源是指业务源系统(以下简称源系统)中向数据仓库提供业务数据的技术对象,数据仓库系统通过数据源来抽取源系统中的业务数据。在源系统中,数据源可以是各种技术对象,如数据库表、视图、XML文件、文本文件或程序等。
相对应的,在数据仓库系统中一般也有相应的技术对象对应于源系统中的数据源,用于存储业务源系统的数据。在源系统和数据仓库系统之间存在着各种数据传输技术和工具,用来进行数据抽取和传输,比如各种专业化的数据抽取工具(ETL)、WebService技术、数据库连接技术(DB Connect)等等。
2.2 数据源管理意义
数据源管理是数据仓库数据管理的重要组成部分,更是数据接入管理的主要内容。数据源管理的目标是:(1)确保数据仓库系统能准确、完整和及时地接收到业务数据,防止因数据源变更对数据仓库数据造成的各种不良影响。(2)让业务人员、信息管理人员和技术人员等各级各类人员清楚地了解和知晓数据仓库系统已接入了哪些业务数据,为业务人员与技术人员建立起沟通的桥梁。(3)减少因不了解数据仓库系统数据而造成的数据重复接入、重复建设或利用不充分等现象,促进数据仓库系统数据模型的完善提升和数据共享能力提高。
3 数据源管理的对象、内容和方法
3.1 数据源管理的对象
3.1.1 数据源
数据源涉及到数据的业务类别、数据结构、抽取方式等信息,可分类归纳为业务属性、技术属性、数据项属性和运行属性四类,以反映数据源的各方面内容。
业务属性用于说明数据源所涉及的业务数据情况,比如是哪些种类的业务数据,什么业务逻辑条件、组织条件和时间条件下的业务数据,这是数据源管理的核心价值所在。数据源业务属性主要通过数据源名称和数据源描述来表达,此外还包含数据的业务类别(比如财务类、营销类等)、数据业务类型(比如主数据、交易数据等)等信息。
数据项属性是指数据源中可提供的业务数据项(也称字段)信息,主要有数据项的技术名称、中文名称、说明、数据类型、数据长度、小数位数、关键字标识等。
技术属性是指数据源的物理实现,说明数据源的技术对象和类型,主要包括:数据源对象的技术名称;技术类型,如表、视图等;当前版本;使用状态,如在用、未用、废弃;增量支持,说明数据源是否支持以增量方式提供数据。
运行属性指数据仓库系统基于数据源抽取业务数据的相关具体信息。运行属性往往是根据业务、技术和管理的需要而确定的,并且往往是设置在数据抽取工具上。运行属性通常包括:数据的抽取频率和触发时间;数据的抽取方式,分为全量或增量,全量是指抽取数据源中的全部数据,增量是指抽取数据源中自上次抽取后变化的业务数据;推送方式,分为推、送两种方式,推是指源系统主动发起数据的传输,拉是指数据仓库系统主动发起数据的传输;数据传输技术,是指数据传输的技术方式,包括WebService、RFC、数据库直连(DBLINK)、ETL工具等。
3.1.2 数据源构造对象
一个数据源本身往往是由程序、表或视图等多个技术对象构建而成,这些技术对象是数据源的构造对象。显然构造对象的变化会对数据源产生影响。事实上这些构造对象本身也可能存在依赖关系,并且是多对多的依赖关系。同样,对这些技术对象需要关注其技术名称、技术类型和主要功能作用。
3.2 数据源管理的内容
数据源管理的主要工作应包括配置管理,变更管理和运行管理等。此外基于数据源管理的特点,从实际工作角度出发还应区分清楚数据源管理的分工职责等。
3.2.1 配置管理
数据源配置管理的主要任务是建立起数据源配置清单,记录数据源的各项属性信息,分析和记录数据源及其构造对象之间的相互依赖关系。数据源配置清单的建立是数据源管理的基础工作。数据源配置清单可以服务于各级各类人员,业务管理人员可以了解数据中心从业务系统抽取了哪些数据,项目实施人员可以充分了解和共享现有数据,避免重复建设,信息运维人员可以了解数据接入情况,以及数据源详细配置。
3.2.2 变更管理
数据源变更管理是数据源管理的重点,能否及时发现数据源变更,并能够有效处理变更。这直接关系到数据抽取的准确性、完整性和及时性。数据源变更的情况有三类:(1)技术对象构造的变化,这是指数据源或其构造对象在逻辑结构上的变化,这类变化往往会直接导致数据抽取任务失败,运维人员比较容易发现数据抽取错误,进而进行排查分析解决,实际工作中这类错误最为常见;(2)单纯的业务逻辑变化,比如一个业务代码及其逻辑含义的变化,这类变化一般不会导致数据抽取任务的失败,错误很隐秘,因而也很难发现,往往是最终用户通过应用功能发现数据存在离谱现象,才能逐步分析解决,而且整个排查分析过程也会很艰难,实际工作中这种情况也存在;(3)信息系统的物理变化,比如服务器有调整,IP地址或域名有变化等,这类错误一般是立刻容易发现的,也比较容易解决,在实际工作中较少发生。
变更管理的主要任务就是解决以下几个问题:(1)及时发现数据源的变更,这是数据源管理的难点。及时发现是指在应用变更之前尽早发现它们对数据源的影响,这需要以知晓数据源(及其构造对象)的变更之处为前提。(2)分析数据源变更的影响。在发现数据源有变更之后,应尽快分析数据源变更的影响,判断数据源变更对数据仓库系统的影响范围、程度和具体技术对象。(3)提出数据源变更影响的解决方案。在数据源变更之前,应尽快提出相应的解决方案来消除或减轻对数据仓库系统造成不良影响,解决方案的实施应与数据源变更相协调一致。(4)及时调整维护数据源配置清单。最后应及时调整维护数据源配置清单,使配置清单始终能反映系统实际状况。总之,一个高水平的管理是应该尽量做到数据源变更前及时发现,迅速完成变更影响分析,有效提出解决方案,并有序加以实施。
3.2.3 运行管理
运行管理主要任务是监控数据源运行情况。了解数据源运行参数,包括运行频率、触发时间、抽取方式、数据传输技术等。关注数据源运行结果,确保数据仓库及时准确地抽取到源系统业务数据。分析数据源运行效率,了解数据抽取过程中耗用的时间和消耗系统资源情况。通过监测数据源运行情况,合理调整数据源配置与抽取策略,提高数据接入质量,改善系统运行效率。
3.2.4 分工协作
由于数据源存在于业务源系统中,并且对数据仓库系统有着紧密的联系。因此,业务源系统和数据仓库系统两端都必须开展数据源管理,明确分工,各尽其责,密切沟通,协调一致,通力合作,只有这样才能管理好数据源,才能有效提高数据抽取的准确性和可靠性。
业务源系统技术人员应研究数据源及其构造对象的结构、状态及相互依赖关系,建立和维护数据源配置清单;在源系统变更实施前,应充分了解技术对象的变更情况,分析它们对数据源可能造成的影响,并及时通知数据仓库系统技术人员。数据仓库系统技术人员应及时分析数据源变化对数据仓库系统造成的影响,并与业务源系统技术人员协调一致,明确相应的解决方案,有序进行数据源的变更。
3.3 数据源管理的方法
要做好数据源管理还需采取必要的信息化工具,通过工具的应用,实现手工管理无法实现的任务,提升数据源管控效率。
(1)采用信息化工具是实现数据源管理要求的必然体现。业务系统的数据源及其关联对象数量庞大,复杂的系统往往具有数千个技术对象,技术对象之间存在着大量的逻辑关系,依靠手工管理是很难做到准确和高效,难以实现数据源变更影响分析等要求。(2)企业往往有多个业务源系统,有各自不同数据源,通过信息化的手段可以把不同业务源系统的数据源统一地整合起来,进而可以较为完整地反映企业数据的整体状况。(3)通过信息化工具,可以实现数据源信息共享,满足业务、信息和技术等各级各类人员对信息管理的不同要求。
4 数据源管理实践
基于上述数据源管理的理念,以某公司SAP BW数据仓库为例,将SAP ERP系统数据源作为切入点,设计开发了一套数据源管理系统,系统架构见图1。数据源管理系统由应用功能、数据库和接口三部分组成。应用功能主要实现数据源查询展现、维护同步和变更预警等功能;数据库主要存储了数据源及其相关信息;接口部分主要实现对ERP系统数据源技术对象的获取。
4.1 系统主要功能
4.1.1 数据源查询
数据源查询实现数据源信息共享。用户可以设置条件以树状导航方式查看数据源清单,对业务人员来说,着重关注数据源的业务含义,如数据源名称、业务类别、数据源描述、来源系统等;对信息管理和技术人员来说,在了解掌握业务含义的基础上,可进一步了解数据源的技术细节,如数据源的来源系统、技术名称、技术类型、抽取方式、抽取技术、抽取频率等,有利于数据源的管理、开发和运维工作。
4.1.2 数据源同步
数据源同步是一项关键功能,实现ERP系统数据源配置信息自动同步到数据源管理系统。它可自动获取ERP系统的数据源对象技术信息,辅以人工分析和说明数据源技术对象的业务属性,更新数据源管理系统中的数据源信息,保证数据源管理系统与ERP系统技术对象的一致性。该项功能可以显著地减少数据源信息维护工作量,同时也为数据源变更预警功能奠定基础。
4.1.3 数据源变更预警
数据源变更预警实现ERP系统数据源及其构造对象变更自动提醒。该功能将列出ERP系统中数据源结构或数据原表等技术对象的最新变化,通过人工甄别,分析这些变化对BW数据源造成的影响,以便能对相关数据源及数据仓库相关模型进行及时调整,减少对数据仓库数据抽取的不良影响。
4.2 关键技术
实现数据源管理系统要解决以下几个主要技术难点:(1)需要研究ERP业务系统的数据源技术对象存储方式,这需要跟踪系统的内部结构,不断进行验证测试,才能掌握数据源存储方式。(2)需要研究数据源的构造对象,厘清数据源与构造对象的对应关系,这项工作已经涉及到源系统内部的数据逻辑结构的研究。(3)研究和建立数据源变更自动预警机制,能够及时发现源系统数据源或其构造对象的更变,并在数据源系统自动提示,该项工作是系统建设的关键,也是技术难点。
4.3 实践成效
数据源管理系统投入运行后,显著提升了ERP系统数据源管理能力。(1)各级各类人员很容易就能掌握ERP系统中哪些数据接入了数据仓库,以及所有相关的业务、技术、运行情况等信息,为满足数据共享需求,以及技术和业务人员之间的沟通提供了条件。(2)对数据源整体情况的掌握,直接避免了因难以了解数据接入现状而导致数据源重复开发的问题,促进了数据共享水平提升。(3)数据源变更事前预警功能达到变更提醒100%准确,避免了因各种变更导致数据不能正常更新到数据仓库的问题,从根本上弥补了ERP系统数据源变更管理的空白。
5 总结与展望
本文对数据源管理的对象和内容进行了分析和定义,开创性地提出了建立数据源配置清单及数据源变更事前预警功能,并将相关理念用于实践,取得了显著成效。后续可拓展实践领域,将其运用到各种异构的源系统数据源管理中,且可延伸管理范围,进一步分析构建数据模型和数据输出相关管理功能,实现数据流全过程管理。
参考文献:
[1] William H. Inmon.Building the Data Warehouse[M].4th ed.New York:Wiley,2005.