DM技术及其在数据处理中的应用
发布时间:2006-10-14 8:03:41   收集提供:gaoqian
谢成山,牛纪海,徐济仁
(1.北京航空航天大学,北京 100083;
2电子工程学院,安徽 合肥230037)
  摘 要:简要介绍了DM(数据挖掘)及其工作过程,并指出了数据挖掘过程中应注意的问题,最后给出了一个具体的数据挖掘的例子。

  关键词:数据挖掘;数据处理;知识;模式

一、概述

  DM(数据挖掘)是一种从大型的数据库或DW(数据仓库)中提出隐藏的预测性信息的新技术,它能挖掘出数据问潜在的模式,找出最有价值的信息。可实现的功能有自动预测知识和行为、自动发现以前未知的模式。

  DM是KDD(Knowledge Discovery Databese)的核心部分,是采用机器学习、运筹学、统计方法等进行知识学习的阶段。数据挖掘算法的好坏将直接影响到所发现的知识。目前一般不加区分KDD和DM,在科研领域称KDD,在工程领域称DM。

  W.J.Fraw1ey等给出DM的定义:DM就是从大型数据库的数据中,提取人们感兴趣的知识,即正确的、非平凡的、未知的、有潜在应用价值的并最终可为用户理解的模式。DM提取的知识可以表示为概念(Concepts)、规律(Rule)、模式(Patten)、约束(Constraints)、可视化(Visualization),对DM技术一般从3方面进行分类:

  (1)数据库种类有关系数据库、事务数据库、面向对象数据库、演绎数据库、多媒体数据库以及现在正在发展的数据仓库,还包括文本文件;

  (2)发现的知识种类相关规则、分类规则、分簇规则、序列模式等。基子知识的不同抽象层次,又可将知识分为一般化知识、原始层知识和多层次知识;

  (3)所用技术一般化采掘、基于模式的采掘、基于统计学或数学原理的采掘。多种混合技术的采掘等。常用方法可分为几种类型:分类、回归、聚类、概括、依赖模式、变化和偏离检测。这几类方法中常用技术有:

  l)基于决策树分类的ID3和C4.5方法;

  2)基于贝叶斯概率的非监督分类Autoclass方法;

  3)用于概括的的AQ15和CN2方法;

  4)解决不精确、不确定知识的粗糙休法(rough-set);

  5)大量人工神经网络法,如BP反向传播算法;

  6)用于产生关联规则的Apriori方法等。

  总之,它是一门交叉学科,涉及机器学习、模式识别、统计学、高性能计算、专家系统等多个领域。

二、数据挖掘应考虑的问题

  (1)作用的数据种类

  它所涉及的数据源对象包括各种数据库、数据仓库、文本文件等。一个强有力的DM系统应能有效地处理这些复杂的数据类型。

  (2)DM方法的有效性和可扩展性

  如算法的运行时间是可预知的或可接受的。

  (3)DM结果的有用性和确定性

  挖掘出来的知识应能准确地反映数据库内容,并且对用户来说是有用的。不确定的程度应能反映在近似规则和定量规则上,系统应能处理噪音数据。

  (4)知识的表达

  用高层次语言和图形建立友好界面来表达发现的知识。

  (5)多层次的交互采掘知识

  既然事先不知道从数据库里可以发现什么样的知识,交互发现成了一种有效手段。它允许用户交互精化DM要求,动态改变数据焦点,从不同角度和层次审视采掘结果。

  (6)并行和分布的数据采掘算法

  数据库的巨大规模,数据的广泛分布,促使采用并行分布技术。

  (7)私有保护和数据安全

  DM可导致对私有权的入侵,研究应采取哪些措施防止暴露敏感信息。

 三、数据挖掘过程

  整个过程可分为3个阶段:数据准备、采掘操作、结果表达和解释。并且在整个采掘过程(见图1)中,离不开用户的参与,整个过程是个反复精练的过程。



1.数据准备

  了解相关领域情况,弄清用户需求,这个阶段又可进一步分成3个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性,处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据采掘的质量。预处理是为了检查数据的完整性和一致性,对噪音数据进行统计处理,丢失数据用统计方法补充。

2.数据采掘

  (1)要先决定如何产生假设,是让数据采掘系统为用户产生假设,还是用户自己对数据库中可能包含的知识提出假设,前一种称为发现型(Discovery-Driven)的数据采掘,后一种称为验证型(Verification-Driven)的数据采掘;

  (2)选择合适的工具;

  (3)进行发掘操作;

  (4)证实发现的知识,将发现的知识向领域专家解释,或检查与库中现有的知识是否矛盾,如前提一样,结论是否相反:结论相同,前提是否相反或包含。

3.结果表达和解释

  根据最终用户的决策目的,对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。因此,此阶段不但要把信息通过可视化方法表达出来,还要对信息进行过滤处理,如果不能令决策者满意,需要重复以上数据采掘的过程。且在处理的任意阶段,可返回以前阶段进行再处理。

  在DM过程中,容易被忽视的是评价问题。为了提高知识发现的效率与知识的有效性、可行性与创新性,一般采用信息融合的技术将知识库与数据库的知识有机地融合起来,用基础知识去制约与驱动DM的过程。

四、一个实际的通信侦察信号处理的例子

1总体组成框图

  根据未来信息战条件下多传感器技侦情报数据具有数据容量大、来源途径多、类型多、层次多的特点,经过反复的综合权衡和充分的分析论证,我们提出在情报知识库的核心支持下、以多传感器技侦情报数据智能融合处理为突破口的综合分析处理总体方案,模型框图如图2所示。



2主要模块的功能说明

  (1)多载体情报数据输入接口为各个传感器送来的各种载体形式的情报数据(网上传输的情报信息流、磁盘数据文件、文档图表及录音录像等)提供输入接口。

  (2)情报数据规范化预处理为进入原始情报数据库的数据记录进行规范化的变换和预处理。

  (3)原始情报质量评估在情报知识数据库的支持下对原始情报数据的质量进行评估,综合考查情报数据的来源与背景、技术特征参数的波动范围与测量精度、其它情报数据的可信度与情报价值、情报数据的完整性及时效性等等,它是最后确定加权系数或隶属度的依据。

  (4)初级融合处理是在情报知识库的支持下对原始情报数据的重复性、相驳性、完备性检查和合并、去相驳、补遗缺等处理,并进行初级统计相关分析,在此基础上形成可供后面智能融合处理的中间结果情报数据。

  (5)智能融合处理是在情报知识库的支持下对中间结果数据库中的情报数据进行广义的相关分析、模糊模式匹配和关联分析、智能推理等综合分析处理,最后的处理结果存入结果情报数据库,供最终情报的综合生成。

  (6)结果情报的质量评估是在情报知识库的支持下对智能融合处理过程及其所得到的结果数据进行质量评估,以便确定进入结果数据库中各数据记录的质量等级。

  (7)基于专家经验的知识元生成是在领域专家经验的指导下形成数据融合处理的准则、模型、逻辑、经验公式与数据等,为情报知识的框架结构提供素材。

  (8)情报生成与分发控制是根据平时和战时的各个环节与各个阶段对情报支援的需求,从多传感器数据智能融合处理后的结果情报数据中生成对敌情描述的全局情报、局域情报或目标情报,并以报告、报表、图表的形式显示或打印输出。

3情报知识库体系的建立与维护管理

  多传感器情报数据要实现智能化融合处理,需要有一个强大的情报知识库体系来支撑,它包括“情报数据知识库”和“专家经验知识库”两部分。“专家经验知识库”是根据专家的知识与经验而建立的具有相对固定性的知识库,而“情报数据知识库”则从海量的原始情报数据中提炼出所隐含的规律、特点、相关特性和关联特性等情报知识,它促进情报数据融合处理过程中自学习和自适应机制的形成。“专家经验知识库”对“情报数据知识库”的形成起指导的作用,而“情报数据知识库”的不断完善又促进“专家经验知识库”的不断发展,两者相辅相成,互相促进。

  在系统中设计下面3个模块来支撑知识库体系的建立:

  (1)基于情报数据的知识元生成模块。在“专家经验知识库”的支持下,根据对原始情报数据的质量评估结果、初级融合处理结果及智能融合处理结果,从各类“海”量的原始情报数据记录、中间结果情报数据记录及结果情报数据记录中寻找所隐含的规律、特点、相关特性和关联特性等情报矢口识,初步形成对各类“目标”进行分类、描述所需的情报知识元。

  (2)基于专家经验的知识元生成模块。将技侦情报侦察分析工作中长年积累的专家经验或情报研究工作中所取得的成果进行规范化处理,形成对各类情报数据进行融合处理所需的专家知识元。

  (3)知识库体系生成与管理模块。通过对专家知识元的有机组合,形成适应各种情况的处理模型、判准准则、推理逻辑等具有专家级知识结构的“专家经验知识库”,作为情报知识库体系中的主干框架:通过对情报知识元的有机组合,形成适应各种情况的加权系数、隶属函数、特征要素、关联特性、逻辑结构及判决门限等补充与细化“专家经验知识库”的“情报数据知识库”。由此将“专家经验知识库”与“情报数据知识库”组成一个有机的整体。

  由于敌方电子装备、兵力部署、战略战术等情况的变化,也由于人的接受知识能力、模糊分折与联想推理及其归纳总结与关联分析能力等各个方面总要比计算机强得多,因此需多余情报知识库体系定期或不定期地进行人工维护管理,包括查询、删除、修改、添加、重组等,使情报知识库能适应敌情的变化,并随着我方在技侦情报分折研究领域的进展而不断完善。

4.情报生成

  根据多传感器技侦情报数据的融合处理结果在情报知识库的支持下生成对敌情的各个方面进行实时准确描述的情报,这是技侦情报综合分析处理的最终目的,也是系统在总体设计时需要把握的重点。

  最终生成的情报包括3个层次:全局情报、局部情报、个体目标情报。


摘自 北极星电技术网
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50