数据挖掘技术在移动通信中的应用
发布时间:2006-10-14 8:04:40   收集提供:gaoqian
王燕莉 安世全
重庆邮电学院计算机学院


  摘要 数据挖掘(Data Mining, DM)是一个应用统计学和人工智能等算法进行知识发现的过程,目前商业应用刚刚起步。本文阐述了数据挖掘的一般技术,重点探讨了数据挖掘技术在移动通信中的应用,包括数据仓库的建立、数据挖掘主题的定义和数据挖掘的过程。

  关键词 数据挖掘 数据仓库 知识发现 移动通信

1 引言

  数据挖掘汇集了统计学、人工智能、数据库等学科的内容,是一门新兴的交叉学科。这门学科旨在帮助人们从海量数据中发现有价值的信息,目前在商业中的应用刚刚起步。国内日趋激烈的移动通信市场竞争促使各移动通信运营商去降低运营成本、提供差异化的客户服务,而数据挖掘技术的应用可以帮助运营商分析客户消费行为,识别客户特征,辅助运营商进行有效的市场营销和客户服务。

2 数据挖掘技术概述

  “数据挖掘包含了一系列旨在从数据集中发现有用而尚未发现的模式(Pattern)的技术。”[1]。确切地说,数据挖掘是一种知识发现的过程,它主要基于统计学、人工智能、机器学习等技术,高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,并对未来情况进行预测,以辅助决策者评估风险、做出正确的决策。数据挖掘与联机分析处理(On-Line Analytical Processing, OLAP)都是分析型工具。联机分析处理作为验证型分析工具,“更多地依赖用户输入的问题和假设”[2], 使得用户能够快速地检索到所需要的数据,而数据挖掘能够自动地发现隐藏在数据中的模式(Pattern)。

  在实际应用中,数据挖掘主要采用以下几种方法进行模式的发现:

  (1)相关分析和回归分析:相关分析主要分析变量之间联系的密切程度;而回归分析主要基于观测数据建立变量之间适当的依赖关系。相关分析是回归分析的基础。

  (2)时间序列分析:与相关分析类似,目的也是为了挖掘出数据之间的联系,但时间序列分析更加侧重于数据在时间先后上的因果关系。

  (3)分类分析:分类分析首先为每一个观测赋予一个标记,然后检查这些被标记的观测,描述出这些观测的特征。这种描述可以是一个数学公式或者模型,利用它可以分类新的观测。常用的几种典型的分类模型有线性回归模型、决策树模型、基于规则模型和神经网络模型等。

  聚类分析:与分类分析不同,聚类分析的输入是一组未标定的记录,目的是根据一定的规则,合理地划分记录集合。聚类分析和分类分析是一组互逆的过程,因此在很多分类分析中适用的算法也同样适用于聚类分析。

3 数据挖掘在移动通信中的应用

  目前移动通信运营商都具有业务营运系统、客户服务呼叫中心、业务受理网站等客户信息系统,这些系统具有如下特点:

  (1)各个信息系统都各自比较完整地管理着客户某一部分的信息,众多的客户数据、市场营销数据、帐务数据以不同的数据格式和访问方式分散在不同的系统中,形成众多的信息孤岛,在各个信息孤岛中存在着冗余和不一致,不能满足数据挖掘过程中数据必须具有单一视图(Single View)的要求。

  (2)这些系统都是联机事务处理(On-Line Transaction Processing, OLTP)系统,实时处理在线事务,不能适应数据挖掘应用大规模、频繁的检索和查询操作。因此,数据挖掘的前提是必须建立企业级的客户信息数据仓库,能够把不同联机事务处理系统的客户数据聚集在一起,提供一个正确、完整和单一的客户数据环境。

3.1 数据仓库的建立

  数据仓库作为数据挖掘的基础,不同于传统的联机事务处理系统,它具有面向主题的、集成的、不可更新以及随时间变化的特性。各个联机事务处理系统作为数据仓库的原始数据源,以文件方式提供客户基本资料、客户呼叫清单、客户帐单、客户联系历史记录等数据。数据仓库通过ETL过程(抽取、转换和加载)处理这些接口文件,并且按不同的主题域组织、存储和管理这些客户数据。通过数据仓库接口,对数据仓库中的客户数据进行联机分析和数据挖掘。整个数据仓库的体系结构见图1,主要由数据源、企业级数据仓库和决策支持三个部分组成。

3.2 数据挖掘的主题定义

  在建立完成企业级的客户信息数据仓库之后,可以基于这个数据仓库平台进行数据挖掘工作。但在数据挖掘工作开展之前,必须明确数据挖掘所需要解决的问题和所需要达到的预定目标。也只有在目标明确定义的前提下,数据挖掘的工作才有方向和意义。本文针对移动通信运营商市场运营的特点,定义了以下主题作为数据挖掘的目标。

3.2.1 客户行为分析

  利用分类分析法和聚类分析法对客户通话行为进行分析,从而得出客户在消费习惯、生活方式、社会联系等方面的特征。对客户行为分析的根本目的是为了按不同特征划分客户群,针对不同客户群的特征,运营商可以进行不同的市场营销活动和客户服务。在客户群划分中典型的应用就是针对某一客户群的消费特征进行某种移动业务的营销。

3.2.2 优惠策略仿真预测

  优惠是市场营销中十分重要的一部分,优惠策略的不恰当,常常会得到适得其反的市场效果。优惠策略仿真预测就是通过已建立的客户行为模型仿真客户对优惠策略的反应,从而预测优惠策略实施的效果。通过对优惠策略的仿真,可以预测优惠策略的成功与否,从而进行相应的调整和优化。

3.2.3 客户忠诚度分析

  客户忠诚度分析主要通过对客户消费金额和帐务支付的分析建立客户价值模型,从而获得客户价值和离网倾向。客户是运营商价值之所在,通过对客户忠诚度分析,有针对性的对高价值客户进行优质服务,对有离网倾向的客户及时进行挽留活动对提高运营商市场占有率,降低营销成本是十分有用的。

3.2.4 反欺诈分析

  目前,移动运营商面临的一个最严重的问题是欠费问题,其中很大一部分是欺诈消费,因此反欺诈消费已经成为移动通信发展的关键。通过对客户数据的多维分析、聚类分析和孤立点分析可以建立客户欺诈消费模型,从而可以有效的对客户消费行为进行监控,对满足欺诈消费模型的消费行为进行告警。

3.2.5 竞争对手分析

  成熟的市场必然是一个竞争比较充分的市场。不同运营商客户之间的互联互通是最基本的前提,因此通过对客户与竞争对手客户之间通话的行为分析,可以建立有关竞争对手经营和客户服务的模型,比如竞争对手客户发展模型,通过对这些模型的使用,可以制定有效的市场应对策略。

3.3 数据挖掘的过程

  在数据挖掘目标明确的前提下,可以基于已经建成的企业级客户信息数据仓库进行数据挖掘工作。本文将遵循以下步骤:问题定义、数据准备、数据探索、建立模型、模型检验、模型应用以及投资回报分析,其中问题定义已经在上文主题定义部分完成。

  在问题定义之后,需要创建一个数据集市作为数据挖掘和分析的对象,一般抽取数据仓库中与问题相关的数据子集作为数据集市。在创建集市过程中可以使用随机抽样、等距抽样、分层抽样和分类抽样等抽样技术来减少数据集市的数据量;通过对数据的删选和对小概率事件的放大,使得数据集市中数据的特征和规律性更加显著。

  在数据探索过程中,通过多维分析和可视化展现探索数据的特征,通过对数据进行增删操作或者根据现有变量重新组合生成一些新的变量来更加有效的描述数据特征;其中,对数据统计特性的分析在数据探索过程中起着十分重要的作用。建立数学模型是数据挖掘工作的核心环节,目前比较常用的建模方法有神经元网络模型、决策树模型和回归模型。数据挖掘中具体使用哪一种方法,取决于数据集市的特征和需要实现的目标,在实际应用中,往往是对多种建模方法的比较和综合。在建模过程中,把数据分层为训练数据和校验数据,训练数据主要使用于建模过程中求解模型参数,而校验数据主要用于模型检验。因此模型检验阶段的主要工作是把检验数据代入已经建立的模型中,观察模型的响应,通过比较模型的响应和真实的数据,从而评估模型的准确程度。如果模型的准确性比较差,就需要重新进行数据探索、建立新的模型、直至新模型检验。因此,在实际应用中,数据探索、建立模型、模型检验是反复迭代的过程,见图2。

  数据挖掘的过程就是一个不断探索数据特征、建立和检验模型,发现客户消费行为特征的过程;移动运营商只有把模型的结果应用到市场营销和客户服务过程中,才能真正发挥数据挖掘的作用。

4 结论

  移动通信市场的激烈竞争导致了面向市场营销和客户服务的数据仓库的建设以及数据挖掘技术的应用,本文在介绍了数据挖掘技术的基础上,重点阐述了移动通信运营商数据挖掘平台的建立,以及基于这个平台展开数据挖掘的过程和数据挖掘的主题分析。应该说,运营商对各种技术应用的最终目的是实施以客户服务为中心的客户关系管理(Customers Relation Management, CRM),但在目前情况下,本文认为,移动运营商当务之急是在建立数据仓库的基础上成功实施多主题的数据挖掘。

参 考 文 献

[1] Alex Berson, Stephen Smith, Kurt Thearling. [美] 构建面向CRM的数据挖掘应用. 北京:人民邮电出版社, 2001

[2] 王珊 等. 数据仓库技术与联机分析处理. 北京:科学出版社, 1998

[3] David Hand, Heikki Mannilar Padhraic Smyth. [美] 数据挖掘原理. 北京:机械工业出版社, 2003

[4] 张喆, 常桂然, 黄小原. 数据挖掘技术在CRM中应用[J]. 中国管理科学. 2003,11(2):53-58;

[5] 邱宏. 数据仓库技术在移动通信中的应用[J]. 电信科学. 1999;12:34-35

[6] 李丙春, 耿国华. 数据仓库与数据挖掘在电信业中的应用[J]. 新疆大学学报. 2003;19(3):358-360


----《中国数据通信》
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50