基于云模型的模糊数据挖掘研究与应用

发布时间：2022-11-16 20:13:29 所属栏目：云计算来源：未知

导读： 摘要：针对目前各领域数据的复杂性、概念边界的模糊性、需求的不确定性，该文提出了一种基于云模型的模糊数据挖掘分析方法，采用了云模型在定性语言值和定量数值之间的不确定转换模型，为定

摘要：针对目前各领域数据的复杂性、概念边界的模糊性、需求的不确定性，该文提出了一种基于云模型的模糊数据挖掘分析方法，采用了云模型在定性语言值和定量数值之间的不确定转换模型，为定性与定量相结合的数据处理分析提供了有力的手段。其中包括：对数据进行概念和特征的模糊识别；建立隶属云模型，刻画数字特征；通过统计、计算、分析得到实际需求的分类信息。实验结果表明了该分析方法能在大量的复杂数据空间中挖掘出有价值的信息，符合实际应用。

关键词：数据挖掘；云模型；隶属度；模糊概念；特征因子；定性与定量转换

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2013）04-0870-03

The Research and Application of Fuzzy Data Mining Based on Cloud Model

DANG Hui， WANG Zhi-he， PAN Li-na

（College of Computer Science and Engineering， Northwest Normal University， Lanzhou 730070， China）

Abstract： Currently， in many fields， data is complicated； the boundary of concept is fuzzy； the demand is uncertain. Then a method of fuzzy data mining based on cloud model is proposed in this paper. This method adopt a uncertain transforming model between qualitative concepts and quantitative expressions， and provide an effective tool for data processing analysis combining quality with quantity. The content include： fuzzy identification of concepts and characteristic on the data； the establishment of membership cloud model and the depiction of digital characteristics； getting classified information based on actual demand by statistics， calculating and analysis. The results of experiment show that the valuable information can be mined in the large and complex data space by this analysis method with practical significance.

Key words： data mining； cloud model； membership degree； fuzzy concept； characteristic factor； transformation between quality and quantity

1 概述

随着科学技术的进步，数据的采集涉及的领域越来越广（如经济、军事、物流、金融、电信等），现实中的数据通常是复杂或混合、结构化或非结构化、不完整、特征描述非精确的，而这些模糊复杂的数据集，单纯的距离测度已不能衡量样本间的相似性，不能提取其重要特征，无法完成数据的挖掘分析。

现在的研究状况显示，许多研究者在确定性的数据挖掘技术方面已经取得的丰硕的成果，提出了许多有效地算法，并满足了各种不同的实际应用，但是对模糊复杂的数据挖掘技术研究还处在不成熟的阶段，仍存在大量的问题有待解决。目前，越来越多的领域涉及到模糊概念的处理和表达，传统的模糊数学已经不能满足模糊研究的需要，而云模型[1]作为知识表示的基础，能把数据的模糊性和随机性完全集成到一起，构成定性和定量相互间的映射，可以解决一些模糊概念下数据挖掘的实际问题。因此，利用云模型及相关理论从模糊、不确定性数据集中挖掘出有价值的知识有一定的研究意义。

2 模糊概念

云计算模型三种模式_云计算是一种商业计算模型_云模型计算

“模糊”是人类感知万物、获取知识、思维推理、决策实施的重要特征。“模糊”比“清晰”所包含的信息容量更大，内涵更丰富，更符合客观世界。在人类的思维中，有许多模糊的概念，如大小，冷热等，这些概念没有明确的内涵和外延，也就无法用传统的精确数学加以描述。

模糊集理论[2]最早由zadeh（1965）提出，用来描述人的认识中关于事物自身在纵横两方面差异的中间过渡所呈现的类属和形态界限的不确定性，是“亦此即彼”界限的不确定性，其概念具有内涵分明、外延不明确的特性。由于模糊理论的核心概念一隶属函数固有的不彻底性，基于模糊理论建立的定性定量的转换模型就存在先天固有的局限性。在传统的模糊集合理论和统计理论的基础上的云模型汲取了自然语言的优点为实现定性概念与定量数据间的相互转换提供了新的有力工具。

3 云模型及相关理论

3.1基本概念[1]

云模型是李德毅院士于1996年在传统模糊数学和概率统计的基础上提出的定性定量互换模型，它把概念的模糊性（边界的亦此亦彼性）和随机性（发生的概率）有机的综合在一起。设[U]是一个论域，[U={x}]，[T]为[U]上的一个概念，[U]中的元素[x]对于[T]所表达的定性概念的隶属度[CT（x）]（或称[x]与[T]的相容度）是一个具有稳定倾向的随机数，隶属度在论域上的分布称为隶属云，简称云。[CT（x）]在[[0云模型计算，1]]取值，云是从论域[U]到区间[[0，1]]的映射，即[x∈U，x→CT（x）.] 3.2云的数字特征、正态云模型及云发生器

云的数字特征用期望值[Ex]（Expected Value）、熵[En]（Entropy）、超熵[He]（Hyper Entropy）三个变量表征。其中[Ex]可以认为是所有云滴在数域中的重心位置，反映了最能够代表这个定性概念在数域的坐标，即[Ex]隶属于这个定性概念的程度是100%；[En]是定性概念亦此亦彼性的度量，反映了在数域中可被语言值接受的数域范围，即模糊度，[En]越大，概念接受的数值范围越大，概念越模糊；[He]是熵[En]的离散程度，即熵的熵，反映了每个数值代表这个语言值确定度的凝聚性，也反映云滴的凝聚程度，[He]越大，云滴离散度越大，隶属度的随机性越大，云的厚度也越大。

在实际应用中，社会和自然科学的各个分支都证明了正态分布的普适性，正态云[3]成为了最常见和常用的云模型。云模型除了完整的形态外，还有半升云和半降云两种半云形态。半云用来表达具有单侧特征的定性概念。例如用半升云表示“远”或“重”；半降云表示“近”或“轻”。由一个半升云、一个半降云和一个均匀分布，可以生成梯形云，表达裕度大的概念。例如“大约二、三十米”。

云发生器[4]有正向云发生器和逆向云发生器。正向云发生器输入为表示定型概念[A]的三个数字特征值[Ex]、[En]、[He]和云滴数[N]，输出为[N]个云滴的定量值以及每个云滴代表概念[A]的确定度。逆向云发生器输入为[N]个云滴的定量值及每个云滴代表概念的确定度[（x，y）]。输出为这[N]个云滴表示的定性概念[A]的期望值[Ex]，熵[En]和超熵[He]。以上是一维云模型发生器，多维云模型发生器可参见有关文献[5]。

4 基于云模型的模糊数据挖掘分析

用云模型进行知识的挖掘[6]，一般来说首先找出挖掘对象的几个定性概念，对每个定性概念进行模糊地程度划分例如学习成绩可以分优、良、中、差，这四种程度，然后对概念构建云模型，确定隶属云的数字特征，最后综合每个概念，根据综合的模糊集及相关指标即可挖掘出有价值的信息。

4.1概念类型及特征的识别

1）根据特定领域的理论和实际情况可把概念或知识分为[m]种类型[（a1，a2，…，am）]，每种类型代表一种有价值的分类。

2）抽取[n]个特征因子[（x1，x2，…，xn）]，每一个特征因子有对应的实际含义（可以包含多种模糊划分），每一种含义对应一个数值（可以是一个数值区间）。

4.2正态云模型的构建

1）根据之前提取的特征因子，视实际问题的需要定义与特征因子相对应的归属类型模糊集[{A1，A2，…，An}]。

2）建立隶属云模型

确定[n]个模糊集[{A1，A2，…，An}]的隶属云，即确定[n]个模糊集的隶属云的三个数字特征值[（Ex，En，He）]，根据统计分析和计算可以确知[n]个模糊集的隶属云的三个数字特征分别为：[A1（Ex1，En1，He1），A2（Ex2，En2，He2），…，An（Exn，Enn，Hen）]。根据三个数字特征利用正向云发生器算法计算各特征因子相对于模糊集合的隶属度[μAi（x）（i=1，2，…n）]。

4.3知识表示

令[f（x）=（x1，x2，…，xn）]，即[f（x）]表示知识具有的特定的定位模式，再令综合模糊集

[H=A1⊕A2⊕…⊕An]表示一个综合的水平指标，并定义为：

[μH（x）=1 μAi（x）=1 ， i=1，2，…，ni=1n?iμAi（x） μAi（x）≠1 ， i=1，2，…，n ]

其中，[?i（i=1，2，…，n）]为权重，可以根据模拟数据和具体情况而定，且[i=1n?i=1，（i=1，2，…，n）]。

4.4知识的挖掘归类

根据4.1中定义的概念或知识的类别将挖掘到的信息进行分类：[a1]类（[μH（x）≥λ1]），[a2]类（[λ2 ≤μH（x）

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

云原生 PostgreSQL -	有效的云迁移策略为企
微软智能云Azure在华新	三种在云中利用开源的