新浪体育-首页 10年专注环保设备研发制造 环保设备【http://chevytothelevy.com】系统设计\制作\安装一条龙服务
新浪体育 中文网址:【麻豆视频.COM】
当前位置:新浪体育 > 新浪体育 > 案例分类2 >
15

数据挖掘实用案例分析第二章-第 2章 数据挖掘的应用分类

作者:admin 来源:未知 时间:1626778048 点击:

[文章前言]:8第 2章 数据挖掘的应用分类 由于数据挖掘能分析出数据中的有用信息, 给企业带来显著的经济效益, 这使得数据挖掘技术越来越普及。 如在销售数据中发掘顾客的消费习惯, 并可从

  8第 2章 数据挖掘的应用分类 由于数据挖掘能分析出数据中的有用信息, 给企业带来显著的经济效益, 这使得数据挖掘技术越来越普及。 如在销售数据中发掘顾客的消费习惯, 并可从交易记录中找出顾客偏好的产品组合, 其他包括找出流失顾客的特征与推出新产品的时机点等都是零售业常见的实例; 利用数据挖掘分析顾客群的消费行为与交易纪录, 结合基本数据, 并依其对品牌价值等级的高低来区隔顾客, 进而达到差异化营销的目 的; 制造业对数据挖掘的需求多运用在品质控管方面, 从制造过程中找出影响产品品质最重要的因素, 以期提高作业流程的效率。 近几年, 电话公司、 ...

  8第 2章 数据挖掘的应用分类 由于数据挖掘能分析出数据中的有用信息, 给企业带来显著的经济效益, 这使得数据挖掘技术越来越普及。 如在销售数据中发掘顾客的消费习惯, 并可从交易记录中找出顾客偏好的产品组合, 其他包括找出流失顾客的特征与推出新产品的时机点等都是零售业常见的实例; 利用数据挖掘分析顾客群的消费行为与交易纪录, 结合基本数据, 并依其对品牌价值等级的高低来区隔顾客, 进而达到差异化营销的目 的; 制造业对数据挖掘的需求多运用在品质控管方面, 从制造过程中找出影响产品品质最重要的因素, 以期提高作业流程的效率。 近几年, 电话公司、 信用卡公司、 保险公司以及股票交易商对诈欺行为的侦测都很有兴趣, 这些行业每年因为诈欺行为而遭受的损失都非常巨大, 数据挖掘可以从一些信用不良的客户 数据中 找出 相似特征并预测可能的诈欺交易, 达到减少损失的目的。 金融业可以利用数据挖掘来分析市场动向 , 并预测个别公司 的营运以及股价走向。 数据挖掘的另一个独特的用法是在医疗业, 用来预测手术、 用药、 诊断或是流程控制的效率。 归纳起来, 数据挖掘技术的基本任务主要体现在分类与回归、 聚类、 关联规则、时序模式、 偏差检测五个方面。 图 2-1 是典型的数据挖掘应用场景。 图 2-1 数据挖掘应用示例 2.1 分类与回归 我们经常会碰到这样的问题: 1) 如何将信用卡申请人分为低、 中、 高风险群? 2) 如何预测哪些顾客在未来半年内 会取消该公司 服务, 哪些电线 章 数据挖掘的应用 分类 9 值服务? 3) 如何预测银行可以安全地贷给贷款人的贷款量? 4) 哪些使用 2G 通信网络的手机用户有可能转换到 3G 通信网络? 5) 如何有效预测房地产开发中存在的风险? 除此之外, 市场经理需要进行数据分析, 以便帮助他预测具有某些特征的顾客会购买一台新的计算机; 医学研究者希望分析乳腺癌数据, 预测病人应当接受三种具体治疗方案的哪一种; 这些都是分类与回归的例子。 2.1 .1 分类与回归建模原理 分类(Classification): 指将数据映射到预先定义好的群组或类。 因为在分析测试数据之前, 类别就已经确定了 , 所以分类通常被称为有监督的学习。 分类算法要求基于数据属性值来定义类别, 通常通过已知所属类别的数据的特征来描述类别。 分类就是构造一个分类函数( 分类模型), 把具有某些特征的数据项映射到某个给定的类别上。 该过程由两步构成。  模型创建: 通过对训练数据集的学习来建立分类模型。  模型使用: 使用分类模型对测试数据和新的数据进行分类。 其中的训练数据集是带有类标号的, 也就是说在分类之前, 要划分的类别是已经确定的。 通常分类模型是以分类规则、 决策树或数学表达式的形式给出, 图 2-2 就是一个三分类问题。 图 2-2 分类问题 回归(Regression): 用属性的历史数据预测未来趋势。 回归首先假设一些已知类型的函数( 例如线性函数、 Logistic 函数等) 可以拟合目 标数据, 然后利用某种误差分析确定一个与目 标数据拟合程度最好的函数, 图 2-3就是一个非线性回归问题。 回归模式的函数定义与分类模式相似, 主要差别在于分类模式采用离散预测值( 例如类标号), 而回归模式采用连续的预测值。 在这种观点下, 分类和回归都是预测问题。 但数据挖掘业界普遍认为: 用预测法预测类标号为分类, 预测连续值(例如使用回归方法) 为预测。 许多问题可以用线性回归解决, 许多非线性问题可以通过对变量进行变化, 从而转换为线性问题来解决。 分类与回归建模原理如图 2-4 所示。 10 第一部分 基 础 篇 图 2-3 回归问题 图 2-4 分类与回归建模原理 2.1 .2 分类与回归算法 分类与回归常用算法见表 2-1。 表 2-1 主要分类与回归算法 算 法 名 称 算 法 描 述 BP( Back Propagation, 反向传播)一种按误差逆传播算法训练的多层前馈网络, 是目 前应用最广泛的神经网络模型之一 LM( Levenberg-Marquardt) 基于梯度下降法和牛顿法结合的优化算法, 特点是迭代次数少, 收敛速度快, 精确度高 第 2 章 数据挖掘的应用 分类 11 ( 续) 算 法 名 称 算 法 描 述 FNN( Fuzzy Neural Network, 模糊神经网络) 具有模糊权系数或者输入信号是模糊量的神经网络, 是模糊系统与神经网络相结合的产物, 汇聚了 神经网络与模糊系统的优点 RBF( Radial Basis Function, 径向基函数) 具有单隐层的三层前馈网络。 是一种局部逼近网络, 能够以任意精度逼近任意连续函数, 特别适合于解决分类问题 ANFIS( Adaptive Neural Fuzzy Inference System, 自 适应神经 模糊推理系统) 功能上与一阶 T-S 模糊推理系统等价的自 适应网络, 是将神经网络的学习机制引入模糊系统, 构成一个带有人类感觉和认知成分的自 适应系统 WNN( Wavelet Neural Network, 小波神经网络) 基于小波变换而构成的神经网络模型, 即用非线性小波基取代通常的神经元非线性激励函数( 如 Sigmoid 函数), 把小波变换与神经网络有机地结合起来, 充分继承了 两者的优点 SVM( Support Vector Machine, 支持向量机) V.Vapnik 等人在研究统计学习 理论的基础上发展起来的一种新的机器学习算法, 在解决小样本、 非线性及高维模式识别问 题中 表现出 许多特有的优势。 支持向量机根据有限的样本信息在模型的复杂性和学习 能力之间寻求最佳折衷, 以获得最好的推广能力 CART( Classification And Regression Tree, 分类与回归树) 一种十分有效的非参数分类和回归方法, 通过构建树、 修剪树、 评估树来构建一个二叉树 2.2 聚类 我们经常会碰到这样的问题: 1) 如何通过一些特定的症状归纳某类特定的疾病? 2) 谁是银行信用卡的黄金客户? 3) 谁喜欢打国际长途, 在什么时间, 打到哪里? 4) 对住宅区进行聚类, 确定自 动提款机 ATM 的安放位置。 5) 如何对用户 WAP 上网行为进行分析, 通过客户分群进行精确营销? 除此之外, 促销应该针对哪一类客户, 这类客户具有哪些特征? 这类问题往往是在促销前首要解决的问题, 对整个客户做分群, 将客户分组在各自 的群组里, 然后对每个不同的群组, 采取不同的营销策略。 这些都是聚类分析的例子。 2.2.1 聚类分析建模原理 聚类( Clustering) 分析: 是在没有给定划分类的情况下, 根据信息相似度进行信息聚类的一种方法, 因此聚类又称为无指导的学习。 与分类不同, 分类需要先定义类别和训练样本, 是有指导的学习。 聚类就是将数据划分或分割成相交或者不相交的群组的过程, 通过确定数据之间在预先指定的属性上的相似性, 就可以完成聚类任务。 聚类的输入是一组未被标记的数据, 根据数据自 身 的距离或相似度进行划分。 划 12 第一部分 基 础 篇 分的原则是保持最大的组内相似性和最小的组间相似性, 也就是使不同聚类中的数据尽可能地不同, 而同一聚类中的数据尽可能地相似。 比如根据股票价格的波动情况,可以将股票分成不同的类, 总共可以分成几类, 各类包含哪些股票, 每一类的特征是什么, 这对投资者, 尤其对投资基金的人来说, 可能是很重要的信息。 当然, 聚类除了 将样本分类外, 还可以完成孤立点挖掘, 如将其应用于网络入侵检测或金融风险欺诈探测中。 聚类分析建模原理如图 2-5 所示。 图 2-5 聚类分析建模原理 2.2.2 聚类算法 常用聚类算法分类见表 2-2。 表 2-2 主要聚类算法分类 类 别 主 要 算 法 K-means ( K-平均值) K-MEDOIDS ( K-中心点) 划分( 分裂) 方法 CLARANS ( 基于选择的算法) BIRCH ( 平衡迭代规约和聚类) CURE ( 代表点聚类) 层次方法 CHAMELEON ( 动态模型) DBSCAN ( 基于高密度连接区域) DENCLUE ( 密度分布函数) 基于密度的方法 OPTICS ( 对象排序识别) STING ( 统计信息网络) CLIOUE ( 聚类高维空间) 基于网格的方法 WAVE-CLUSTER ( 小波变换) 统计学方法 基于模型的方法 神经网络方法 第 2 章 数据挖掘的应用 分类 13 2.3 关联规则 我们经常会碰到这样的问题: 1) 商业销售上, 如何通过交叉销售得到更大的收入? 2) 保险方面, 如何分析索赔要求发现潜在的欺诈行为? 3) 银行方面, 如何分析顾客消费行业, 以便有针对性地向其推荐感兴趣的服务? 4) 哪些制造零件和设备设置与故障事件关联? 5) 哪些病人和药物属性与结果关联? 6) 哪些商品是已经购买商品 A 的人最有可能购买的? 除此之外, 人们希望从大量的商业交易记录中发现有价值的关联知识, 以帮助进行商品目 录的设计、 交叉营销或其他有关的商业决策。 在商业销售上, 关联规则可用于交叉销售, 以得到更大的收入; 在保险业务方面, 如果出现了 不常见的索赔要求组合, 则可能为欺诈行为, 需要进一步调查; 在医疗方面, 可找出可能的治疗组合; 在银行方面, 对顾客进行分析, 可以推荐感兴趣的服务等。 这些都属于关联规则挖掘问题, 关联规则挖掘的目 的是在一个数据集中找出各项之间的关系, 从大量的数据中挖掘出有价值的描述数据项之间相互联系的有关知识。 随着收集和存储在数据库中的数据规模越来越大, 人们对从这些数据中挖掘相应的关联知识越来越有兴趣。 2.3.1 什么是关联规则 关联规则( Association): 揭示数据之间的相互关系, 而这种关系没有在数据中直接表示出来。 关联分析的任务就是发现事物间的关联规则或称相关程度。 关联规则的一般形式是: 如果 A 发生, 则 B 有百分之 C 的可能发生。 C 称为关联规则的置信度(Confidence)。 利用关联分析能寻找数据库中大量数据的相关联系, 常用的两种技术为:  关联规则, 用于发现一个事物与其他事物间的相互关联性或相互依赖性, 如分析客户在超市买牙刷的同时又买牙膏的可能性。  序列模式分析, 将重点放在分析数据之间的前后因果关系, 如买了 电脑的顾客会在三个月 内买杀毒软件。 相信大家都听说过“尿布与啤酒” 的故事。 在某超市里, 有一个有趣的现象: 尿布和啤酒赫然摆在一起出 售。 但是这个奇怪的举措却使尿布和啤酒的销量双双增加了 。 这不是一个笑话, 而是发生在美国沃尔玛连锁店超市的真实案例, 并一直为商家所津津乐道。 沃尔玛拥有世界上最大的数据仓库系统, 为了 能够准确了 解顾客在其门 14 第一部分 基 础 篇 店的购买习惯, 沃尔玛对其顾客的购物行为进行购物篮分析, 想知道顾客经常一起购买的商品有哪些。 沃尔玛数据仓库里集中了 其各门店的详细原始交易数据。 在这些原始交易数据的基础上, 沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。 一个意外的发现是: 跟尿布一起购买最多的商品竟是啤酒! 经过大量实际调查和分析, 揭示了 一个隐藏在“尿布与啤酒” 背后的美国人的一种行为模式: 在美国, 一些年轻的父亲下班后经常要到超市去买婴儿尿布, 而他们中有 30%~40%的人同时也为自 己买一些啤酒。 产生这一现象的原因是: 美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了 他们喜欢的啤酒。 按常规思维, 尿布与啤酒风马牛不相及, 若不是借助数据挖掘技术对大量交易数据进行挖掘分析, 沃尔玛是不可能发现数据内在这一有价值的规律的。 2.3.2 关联规则算法 常用关联规则算法见表 2-3。 表 2-3 主要关联规则算法分类 算法名 称 算 法 描 述 Apriori 一种最有影响的挖掘布尔关联规则频繁项集的算法。 其核心是基于两阶段频集思想的递推算法 FP-Tree 针对 Apriori 算法的固有缺陷, J.Han 等提出了 不产生候选挖掘频繁项集的方法: FP-树频集算法 灰色关联法 以分析和确定各因素之间的影响程度或若干个子因素( 子序列) 对主因素( 母序列) 的贡献程度而进行的一种分析方法 HotSpot 挖掘得到通过树状结构显示的感兴趣的目 标最大化/最小化的一套规则, 最大化/最小化的利益目标变量/值 2.4 时序模式 我们经常会碰到这样的问题: 1) 下个月 的商品销量、 销售额或库存量是多少? 2) 明天广州市的最高用电负荷是多少? 2.4.1 什么是时序模式 时序模式: 描述基于时间或其他序列的经常发生的规律或趋势, 并对其建模。 与回归一样, 它也用已知的数据预测未来的值, 但这些数据的区别是变量所处时间的不同。 序列模式将关联模式和时间序列模式结合起来, 重点考虑数据之间在时间维度上的关联性。 时序模式包含时间序列分析和序列发现。 第 2 章 数据挖掘的应用 分类 15  时间 序列分析: 用已有的数据序列预测未来。 在时间序列分析中, 数据的属性值是随着时间不断变化的。 回归不强调数据间的先后顺序, 而时间序列要考虑时间特性, 尤其要考虑时间周期的层次, 如天、 周、 月 、 年等, 有时还要考虑日 历的影响, 如节假日 等。  序列发现: 用 于确定数据之间 与时间 相关的序列模式。 这些模式与在数据( 或者事件) 中 发现的相关的关联规则很相似, 只是这些序列是与时间相关的。 2.4.2 时间序列的组合成分 时间序列的变化主要受到长期趋势、 季节变动、 周期变动和不规则变动这四个因素的影响。 其中:  长期趋势因 素( T) 反映了 经济现象在一个较长时间内 的发展方向 , 它 可以在一个相当长的时间内 表现为一种近似直线的...

  以上就是小编为大家介绍的数据挖掘实用案例分析第二章-第 2章 数据挖掘的应用分类的全部内容,如果大家还对相关的内容感兴趣,请持续关注江苏某某环保设备有限公司

  本文标题:数据挖掘实用案例分析第二章-第 2章 数据挖掘的应用分类  地址:/case/alfl2/2187.html



欢迎来到:❥❥新浪体育❤chevytothelevy.com❤新浪体育,,胜利的阵营方更是可以接受敌对阵营的顶礼膜拜,获取无上荣耀。

XML地图 新浪体育

环保设备公司,10年品牌打造行业正规!

【Copyright ©2017-2021 新浪体育-首页 】  版权所有

网站地图 新浪体育