新浪体育-首页 10年专注环保设备研发制造 环保设备【http://chevytothelevy.com】系统设计\制作\安装一条龙服务
新浪体育 中文网址:【麻豆视频.COM】
当前位置:新浪体育 > 新浪体育 > 案例分类4 >
17

4分类算法及kNN案例ppt

作者:admin 来源:未知 时间:1625194952 点击:

[文章前言]:k-最近邻算法 计算每个训练实例到待分类实例之间的距离 找出和待分类实例距离最近的k个训练实例 找到的k个训练实例中哪个类别占的最多,待分类实例就属于哪个类别 k-最近邻算法

  k-最近邻算法 计算每个训练实例到待分类实例之间的距离 找出和待分类实例距离最近的k个训练实例 找到的k个训练实例中哪个类别占的最多,待分类实例就属于哪个类别 k-最近邻算法 A(1,1) B(2,1) D(2,0) C(3,1) E(5,2) F(4,3) G(5,3) H(6,3) M(2,2) d(M, A) d(M, B) d(M, C) d(M, D) d(M, E) d(M, F) d(M, G) d(M, H) 取k=5,使用欧氏距离 M的k个近邻中, 蓝色有4个,黄色有1个, 因此M的分类结果为蓝色 从k个最近邻居中决定分类结果 方式1: 选出k个最近的邻居中的数量最多的类标号 方式2: k个最近邻居分别按距离计算权重,权重最大的类标号获胜。 权重可以采用 1 / (d2 + 1) 来计算,其中d为某个最近邻居到待分类实例的距离。 可采用其它权重计算方式,只要满足 到待分类实例的距离越近权重值越大, 到待分类实例的距离越远权重值越小即可 k-最近邻算法 A(1,1) B(2,1) D(2,0) C(3,1) E(5,2) F(4,3) G(5,3) H(6,3) M(2,2) d(M, A) d(M, B) d(M, C) d(M, D) d(M, E) d(M, F) d(M, G) d(M, H) 取k=5,使用欧氏距离 weight(蓝) = 1/3 + 1/2 + 1/3 + 1/5 = 1.367 weight(黄) = 1/6 = 0.167 k-最近邻算法 A(1,1) B(2,1) D(2,0) C(3,1) E(5,2) F(4,3) G(5,3) H(6,3) M(4,1) 取k=2,使用欧氏距离 d(M, A) d(M, B) d(M, C) d(M, D) d(M, E) d(M, F) d(M, G) d(M, H) M要分类为蓝色还是黄色? 如果只有两个类别,选择k时应选择一个奇数 k值的选择 如果k过于小,那么将会对数据中存在的噪声过于敏感 如果k过大,邻居中可能包含其他类的点 一个经验的取值法则为k≤ ,q为训练实例的数目 k-最近邻算法 kNN是基于实例的学习算法,训练过程仅是保存训练数据 必须保存全部训练数据,如果训练数据集很大,必须使用大量的存储空间 在分类时必须对数据集中的每个数据计算距离值,实际使用时可能非常耗时 应用示例: 手写数字识别 将训练样本中的每张图划分 成5x5的网格,计算每个格子中 黑色像素所占比例,形成5x5维特征向量, 并以此训练分类算法 将待识别的图片按同样的方式 转换为5x5维特征向量, 然后应用分类算法 分类系统设计的基本步骤 传感器 特征提取 特征选择 分类器设计 系统评估 模式 总结 分类:将待分类实例划分到合适的类别中 数值预测:预测数值属性,没有“类标号” 知识的表达:线性模型、决策树、规则、基于实例的表达 基于距离的分类:kNN算法 谢谢! 数据挖掘 王成 华侨大学计算机科学与技术学院 /ml/datasets.html 这上面的聚类数据45种,分类数据240种 /v_july_v/article/details/6142146 数据挖掘领域十大经典算法 /v_july_v/article/details/7577684 主要内容 分类和预测 知识的表达 基于距离的分类 聚类 聚类(Clustering) 解决的是事物分组的问题,目的是将类似的事物放在一起 聚类算法 (k-Means, DBSCAN...) 分类 分类(Classification)是解决“这是什么?”的问题,分类所承担的角色就如同回答小孩子的问题“这是一只船”,“这是一棵树”等。 把每个数据点分配到合适的类别中,即所谓的“分类” 分类 算法 邮件 正常邮件 垃圾邮件 例如,邮件系统接收到一封陌生邮件时,算法能识别出该邮件是否垃圾邮件。聚类能将一堆邮件分成两组,但不知道哪组是垃圾邮件 数值预测 数值预测(numeric prediction)是预测一个连续值或有序值,而不是类标号 例如预测某同学在期末考试中的成绩为95分,95是一个数值,而不是“树”、“船”这样的类标号 分类和数值预测是“预测问题”的两种主要类型,简单起见,在不产生混淆时,使用较短术语“预测”表示“数值预测” 相关应用 垃圾邮件识别 信用卡用户分级,低风险优质客户给予较高的额度 手写字体识别、语音输入、图像识别 ... 相关应用 9月26日,石家庄市建华大街和裕华路交叉口西南角的行人闯红灯自动识别抓拍系统开始试用。 如果行人指示信号灯为红灯时,仍有行人在斑马线上过马路,这套系统会自动将其中一个人的图像拍摄下来并形成照片。 分类的两个步骤 训练模型:对一个类别已经确定的训练集创建模型 用于创建模型的数据集叫做训练集 每一条记录都属于一个确定的类别或类标号 模型使用:用创建的模型预测未来或者类别未知的记录 分类过程:训练模型 训练集 分类算法 模型 IF 气温低 THEN 不适合运动 分类过程:测试模型 分类算法 模型 预测结果: 不适合运动 真实结果: 不适合运动 测试集 分类过程:训练集和测试集的划分 十折交叉验证 留一法 过拟合 分类过程:使用模型 未分类数据 (天气晴,温度高,湿度中等) 分类算法 模型 不适合运动 数值预测过程 数值预测也是一个两步过程,和分类过程类似,只不过没有“类标号属性”,因为要预测的属性值是连续值,而不是分类的(离散值) 例如预测某同学的期末考试成绩得分,如果转换成预测某同学的期末考试成绩“是否合格”,该数据挖掘任务就由数值预测变成了分类。 有监督和无监督学习 监督学习 (Supervised learning) 训练集是带有类标签的,例如邮件系统中针对每封训练邮件,都标记好是否垃圾邮件 学习是在训练样本的“指导”下操作的,“指导”指每个训练样本都有一个明确的结论(类别),故称有“监督”学习 分类算法是有监督的机器学习算法 无监督学习 (Unsupervised learning) 学习不是在训练样本的“指导”下操作的 让计算机自己去学习怎样做一件事情 聚类算法是无监督的机器学习算法 模型 可将模型看成一个映射或函数 y = f(X),其中X是特征向量 给定未知实例的特征向量X,算法即可得出其关联的y的值 分类和预测算法的训练过程即是为了从训练数据中“学习”得到这个函数,进而用于未知数据 分类算法的评价 预测的准确率 正确地预测新的或先前未见过的数据的类标号的能力 速度 构造模型的速度、利用模型进行分类的速度 强壮性 给定噪声数据或具有空缺值的数据,模型正确预测的能力 可伸缩性 当给定大量数据时,有效地构造模型的能力 可解释性 涉及学习模型提供的理解和洞察的层次 分类算法预测准确率的指标 两类错误 查全率 查准率 精度 主要内容 分类和预测 知识的表达 基于距离的分类 基于线性模型的表达 线性模型的输出仅是实例的各属性的加权求和 例如,给定学生的特征向量(x1, x2, x3...),预测模型可表示为 其中y为输出,(x1, x2, x3...xn)为特征向量,w0, w1, w2...wn为权值,将由算法学习得到 其中50, 0.8, 0.2, 0.6...的值将由算法学习得到 基于线性模型的表达 基于决策树的表达 母亲:闺女,给你介绍个对象 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。 示例来源于July博客: /v_july_v/article/details/7577684 你见或不见, 我都在那里 基于决策树的表达 天气 刮大风 温度 晴 小雨 去玩 多云 不要去玩 不要去玩 去玩 去玩

  35度 是 否 基于规则的表达 IF 天气 = 多云 THEN 去玩 IF 天气 = 晴 AND 温度

  35 THEN 不要去玩 IF 天气 = 小雨 AND 刮大风 THEN 不要去玩 IF 天气 = 小雨 AND 没有刮大风 THEN 去玩 基于实例的表达 直接将训练样本保存下来,使用实例本身来表达所学到的(知识),而不是推断出一个规则集或决策树,并保存它 直接在样本上进行工作,而不是建立规则的学习称为基于实例的学习(instance-based learning) 基于实例的学习也称为死记硬背式学习(rote learning),一旦“记住”了一个训练实例集,在遇到一个新的实例时,就会在“记忆”中找出与之最相似的一个训练实例 基于实例的表达 在基于实例的学习中,对一个新的实例进行分类时,才进行实质性的工作,而不是处理训练集时进行 和其它机器学习方法的区别在于“学习”发生的时间不同 基于实例的学习是“懒惰”的,尽可能延缓实质性的工作,而其它学习方法是“急切”的,在训练样本时就进行学习并得到一个泛化的表达,例如生成决策树或规则 主要内容 分类和预测 知识的表达 基于距离的分类 基于距离的分类 与一个类中的成员和另一个类中的成员之间的相似性相比,同一个类中的成员彼此之间被认为是更加相似的 相似性(距离)度量可以用来识别数据库中不同成员之间的“相似程度” 基于距离的分类方法的直观解释 (1) 类定义 (2) 待分类样本 (3) 分类结果 k-最近邻算法 k-最近邻算法,kNN,k-Nearest Neighbor 十大数据挖掘算法之一 C4.5 k-Means SVM Apriori EM PageRank AdaBoost kNN Na?ve Bayes CART

  以上就是小编为大家介绍的4分类算法及kNN案例ppt的全部内容,如果大家还对相关的内容感兴趣,请持续关注江苏某某环保设备有限公司

  本文标题:4分类算法及kNN案例ppt  地址:/case/alfl4/1611.html



欢迎来到:❥❥新浪体育❤chevytothelevy.com❤新浪体育,,胜利的阵营方更是可以接受敌对阵营的顶礼膜拜,获取无上荣耀。

XML地图 新浪体育

环保设备公司,10年品牌打造行业正规!

【Copyright ©2017-2021 新浪体育-首页 】  版权所有

网站地图 新浪体育