OLAP融合于数据挖掘之模型构建论文
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。以下是小编今天为大家精心准备的:OLAP融合于数据挖掘之模型构建相关论文。内容仅供阅读与参考!
OLAP融合于数据挖掘之模型构建全文如下:
1 OLAM模型
本文提出的OLAM模型对OLAP中数据立方体和星型模式的概念分别进行了拓展,涵盖问题的整个搜索空间,能够比较全面地反映多维数据挖掘的实质.下面描述相应的理论方法、基本权标和数据结构.
1.1 从数据立方体到影响域
本文在OLAM模型中引进基本权标:影响域(influencedomain).影响域与多维空间的数据立方体在逻辑上是等价的.但立方体上计算的是聚合(aggregation),而影响域上计算的是蕴涵(implication),即数据中隐藏的模式.影响域同立方体一样具有属性和值,不同点在于它具有置信度(confidence).
立方体将维映射至度量,而影响域将维和度量映射至置信而影响域将度.一个影响域可视为一个函数,其映射关系从维和度量映射至一置信度级别.影响域可视为是广义概念上的数据立方体空间,因为影响域的大小通常比数据立方体要大得多,OLAM分析常常在更细的粒度上分析更多的维,或对多个特性之间的关系进行探索.由于每次重新计算的代价太昂贵,所以需要在比星型模式存储有更多的聚合的模式上进行,即采用下一节所提出的旋转模式.为了“遍历”整个影响域,需要将OLAP运算与影响性分析交叉.可以看出,影响域的操作可在多维和多层次的抽象空间中进行,有利于灵活地挖掘知识.而文献〔3,4,5〕的操作是基于数据立方体的多维数据挖掘,包含在基于影响域的操作之内,是其中的特例.影响域概念可用面向对象的思想描述,这样有助于生成一个较好的结构化的框架.影响域包含六个主要特性:(1)基本维(类);(2)属性;(3)对象或实例;(4)层次;(5)度量;(6)蕴涵.其中,基本维是一种高层次的类型划分,如产品、客户等.每个类/维具有一属性集合,如产品维具有属性价格、颜色等.每个类/维有对象或要素作为实例,对象的每个属性具有一个值.在类和属性内存在层次,例如,对类来讲,商标类是产品的父类;对属性来讲,属性集合地区,城市,省}是一个层次.度量是在维形成的空间上的计算.蕴涵是在维和度量形成的立方体空间上的计算.
1.2 从星型模式到旋转模式
从面向对象的角度来看,数据立方体与影响域的特性不尽相同,包含基本维(类)、属性、对象或实例、层次以及度量这五个特性,OLAP的星型模式通常直接映射在该对象结构中.星型模式每个维表都可看成一个对象,对象的属性代表在维表中的列,度量在各个维构成的空间上进行计算.图1给出一个星型模式的例子,包含四个基本维:商店维、客户维、产品维和定货维,中央的事实表中存有度量和各个基本维的码值.星型模式是用来处理聚合运算的,该模式能很好地用于OLAP,但它本身不带数据挖掘功能,不能用于OLAM,因此需要将星型模式作相应扩展.
在对影响域进行分析的过程中,通常将分析焦点聚焦在星型模式中的维表上(如产品或商店,如图1所示).由于在分析中要用附加的聚合或选择的数据项以丰富维表内容,因此对于每个库表来说,需要比星型模式存储更多的数据.分析的焦点在各个维表之间不断转换,例如从客户维转换至商店维再到产品维等等,可以看作是焦点在绕着星型模式旋转,因此,本文引入“旋转模式”的概念,将OLAM的分析结构命名为旋转模式.图2显示出与图1中星型模式所对应的旋转模式的例子.旋转模式的中心存储的是影响域的蕴涵,外围是各个维表的码值以及聚焦度量和其它度量,四周呈辐射状的是各个维表.
在执行影响域分析时,焦点沿着不同的基本维(或类)旋转,在维和度量形成的广义数据立方体空间上执行蕴涵运算对应于图1的旋转模式的例子如图3所示,旋转模式中的库表具有五个主要部分:(1)中的库表具有五个主要部分聚焦维;(2)聚焦度量;(3)内部属性;(4)外部属性;(5)非聚焦度量.聚焦维代表当前分析焦点所在的基本维,如图2所示的客户维;聚焦度量代表用户关心的度量,如利润;内部属性是聚焦维中的属性,如客户年龄等;外部属性是非聚焦维中的属性,如某客户最喜爱的产品颜色等;非聚焦度量是用于辅助决策的度量,如某客户平均一次购买的商品的数目.由此可以看出影响域中的存储模式与OLAP是不同的.
2 实现OLAM机制的讨论
OLAM机制具有交互的特性,而且求蕴涵函数的计算代价比较昂贵,因此在大型数据库或数据仓库中实现OLAM机制的关键是解决快速响应和有效实现的问题.必须考虑如下因素:
2.1 快速响应和高性能挖掘
OLAM若想获得快速响应和高的性能,会比OLAP困难,因为数据挖掘的计算代价通常比OLAP昂贵.快速响应对于交互式挖掘是致关重要的,有时为了得到快速响应甚至可以牺牲精度,因为交互式挖掘能一步步引导挖掘者聚焦在搜索空间并查找越来越多重要的模式.一旦用户能限定小的搜索空间,就可调用更高级的而速度较慢的挖掘算法进行细致分析.可考虑采用逐渐精化数据挖掘质量的OLAM方法:首先在大数据集上用快速挖掘算法标识出感兴趣的模式/区域,然后用代价较高但较精确的算法进行详细分析.
2.2 基于数据立方体的挖掘方法
基于数据立方体的挖掘方法应该是OLAM机制的核心.基于立方体的数据挖掘已经有很多研究,包括概念描述、分类、关联、预测、聚类等.基于立方体的挖掘继承了关系型或事务型数据挖掘方法的思想,并具有许多特性.在基于立方体的有效挖掘算法领域需要更多的研究.高性能数据立方体技术对OLAM很重要.由于一个挖掘系统需要计算大量维之间的关系或详细细节,这样的数据不可能都预先实体化,有必要联机动态计算数据立方体的一部分.另外,多特性数据立方体的有效计算,以及支持具有复杂维和度量的非传统的数据立方体,对有效地数据挖掘都很重要.因此,需进一步开发数据立方体技术.
2.3 选择或添加数据挖掘算法
关系型查询处理能用不同的处理途径对同一查询生成相同的答案,但是采用不同的数据挖掘算法可能会生成显著不同的挖掘结果.因此,提供多种可选的数据挖掘算法很重要.另外,用户也许想自己开发一个算法,如果提供标准开放的API,而且OLAM系统经过很好地模块化,用户就有可能增加或修改数据挖掘算法.用户定义的数据挖掘算法可以较好地利用一些开发良好的系统构件以及知识可视化工具,并与已有的数据挖掘功能合成.因存在有多个数据挖掘功能,如何在某一具体应用中选定合适的数据挖掘功能是一个问题,必须熟悉应用问题、数据特征以及数据挖掘功能的作用,有时需要执行交互探索式分析来选择合适的功能.因此,建造探索式分析工具以及构建面向应用的语义层是两个重要的解决方案.OLAM提供探索式分析工具,进一步的研究应该放在为具体应用自动选择数据挖掘功能上.
2.4 在多个数据挖掘功能之间交互
OLAM的优势不仅仅在于选择一系列的数据挖掘功能,也在于在多个数据挖掘和OLAP功能之间交互.例如首先切割立方体的一部分,基于一指定的类属性将该部分分类并查找关联规则,然后下挖在更细2.5 可视化工具
为了有效地显示OLAP挖掘结果并与挖掘处理交互,开发多种知识和数据可视化工具很重要.图表、曲线、决策树、规则图、立方体视图、boxplot图等是描述数据挖掘结果的有效工具,帮助用户监测数据挖掘的过程并与挖掘过程交互.
2.6 可扩展性
OLAM系统与用户及知识可视化软件包在顶端通讯,与数据立方体在底端通讯.它应该高度模块化,并具有可扩展性,因为它可能会与多个子系统合成并以多种方式扩展.应该扩展OLAP挖掘技术至高级的和/或特殊用途的数据库系统,包括扩展的关系型、面向对象的、文本、空间、时间、多媒体和异种数据库以及Internet信息系统.对复杂类型的数据,包括结构化、半结构化和非结构化数据的OLAP挖掘也是一重要的研究方向.
2.7 做书签和回溯技术
OLAM借助于数据立方体导航,提供给用户充分的自由,运用任一数据挖掘算法序列来探索和发现知识.当从一个数据挖掘状态转换至另一状态时常常可有很多选择.可做个书签,如果发现一个路径无意义,就回到原先的状态并探索其它的方法.这种做标记和回溯机制防止用户“迷失在OLAM空间”中.
3 结论
利用OLAM模型沿着多个维进行挖掘,观察沿着这些维的模式,进行合并,并以智能的方式与用户进行交互,可以在多维数据库的不同的部位和不同的抽象级别交互地执行挖掘.它有如下优点:
(1)便于交互式探索性的数据分析.有效的数据挖掘需要探索性的数据分析功能〔6〕.用户常希望灵活地遍历数据库,选择任一部分的相关数据,在不同的抽象级别上分析,并以不同的形式表示知识/结果.OLAM便于对不同的数据子集在不同抽象级别上进行数据挖掘,这连同数据/知识可视化工具将大大加强探索性数据挖掘的能力和灵活性.
(2)联机选择数据挖掘功能.事先预测挖掘何种类型的知识是困难的,对于用户来讲,常常不知道想挖掘什么样的知识.通过OLAM模型将OLAP与多个数据挖掘功能结合,用户可以灵活选择所需的数据挖掘功能,并动态交换数据挖掘任务.本文所提出的OLAM模型的理论方法、基本权标和数据结构将数据挖掘和OLAP技术结合在一个统一的框架之中,大大加强了决策分析的功能和灵活性.该模型有助于在大型数据库和数据仓库中交互式地挖掘多层次的知识,是一个很有前景的方向.
参考文献:
1 E.F.Codd, S.B.Codd, C.T.Salley. Beyond decision support.〔J〕Computerworld, 27(30), July 1993
2 Usama M Fayyad, www.51lunwen.com/database/ Gregory Piatetsky-Shapiro et al. Advances inknowledge discovery and data mining.〔M〕California: AAAI/MIT Press, 1996
3 J.W.Han. Towards on-line analytical mining in large databases.〔R〕ACM SIGMOD Record, 1998. 27:97~107
4 J. W. Han, S. Chee, and J. Y. Chiang. Issues for on-lineanalytical mining of data warehouses.〔C〕Proc. of 1998SIGMOD’96 Workshop on Research Issues on Data Mining andKnowledge Discovery (DMKD’98), Seattle, Washington, June1998
5 J.W.Han. OLAP Mining: An Integration of OLAP with DataMining.〔C〕Proc. 1997 IFIP Conference on Data Semantics (DS-7), Leysin, Switzerland, Nov. 1997. 1~11
6 M.S.Chen, J.W.Han, and P.S.Yu. Data mining: an overviewfrom a database perspective.〔J〕IEEE Transactions onKnowledge and Data Engineering, 1996. 8(6): 866~883