新浪体育-首页 10年专注环保设备研发制造 环保设备【http://chevytothelevy.com】系统设计\制作\安装一条龙服务
新浪体育 中文网址:【麻豆视频.COM】
当前位置:新浪体育 > 新浪体育 > 案例分类3 >
16

数据挖掘案例之分类问题——贷款结果预测

作者:admin 来源:未知 时间:1625195116 点击:

[文章前言]:通过本案例,用所学的数据挖掘知识针对实际问题进行建模,实现一个完整的分类问题的建模过程。在项目过程中巩固对Python数据分析基本操作、sklearn中相关算法建模分析、Python数据可

  通过本案例,用所学的数据挖掘知识针对实际问题进行建模,实现一个完整的分类问题的建模过程。在项目过程中巩固对Python数据分析基本操作、sklearn中相关算法建模分析、Python数据可视化的常用方法和库、数据挖掘分类算法原理以及对应的模型评估值指标等的掌握,进一步锻炼和培养自身的数据分析思维。

  在理解数据后对数据进行预处理,然后利用统计学知识分析数据内部的关系,探索属性之间的相关性,然后采用分类算法中的决策树、随机森林和梯度提升树GBDT进行建模,并根据模型评分选择效果较好的模型,然后采用网格优化算法对模型进行参数优化,最终获得最优模型。

  我们本次的分析希望找到“申请人的特征是否会对贷款发放造成影响”,因此我们根据对字段action_taken_name的分析(图3),删除值为“Application withdrawn by applicant”和“Loan purchased by the institution”的记录,将问题简化,转变为一个简单的二分类问题,新增字段“loan_status”,如果贷款已获批准则赋值为0,其他情况(即未获批准)为1。

  首先对数值型字段进行分析。作图分析缺失值情况,尝试找出对建模无意义的字段。

  由上图(图5)观察“ratespread”缺失值占比很大,不考虑参与后续建模过程。同时“as _of _year”,application_date_indicator”等字段的值只有一种,对建模无意义,不予考虑。

  根据上述散点图(图7)的结果,若申请者收入较低且申请额度也较低,往往贷款申请的结果为不通过。

  由图11可知,这些变量在目标变量“loan_status” 为 0 或 1 时,分布仍然基本相同,可以认为他们对分类任务没有价值。

  对数值类型的特征变量基本分析完毕,我们开始对非数值类型的特征变量做详细分析。

  由图15可以看出,申请者以购房以再融资为目的的最多,而以房屋重新装修“home improvement”为目的的申请者最少。

  根据图16,以购房为目的的贷款 “Home purchase ”,申请通过百分比“percent approved”为84.65%,远远高于另外两者,可以得出结论,以购房为目的的申请者与其他两类申请者相比更易获得批准。

  由图17可知,申请者大多为男性。后续可依据此思路对其他特征进行进一步分析。

  本实验针对实际问题进行建模分析,采用多种方法进行模型对比,最终选择随机森林进行模型训练,然后进行客户申请贷款产品的结果进行预测 。

  在模型参数优化方面采用网格搜索的方式进行最优化模型参数的搜索,从而找到最优化模型参数有效提升了模型的准确率 。

  实验结果表明采用该流程能够对此类分类问题进行预测分析,效果比较好,可以作为解此类数据分析挖掘算法的一种有效手段。

  当然模型准确率还有提升的空间, 读者可以采用所学的特征工程、模型选择和模型参数优化等方面的知识进行最优模型的寻找,获取更好的分类模型。

  以上分析过程还有很大的优化空间,读者可以尝试其他分析思路,或在kaggle上查看其他kaggler的分析,或许对你会有新的启发。

  以上就是小编为大家介绍的数据挖掘案例之分类问题——贷款结果预测的全部内容,如果大家还对相关的内容感兴趣,请持续关注江苏某某环保设备有限公司

  本文标题:数据挖掘案例之分类问题——贷款结果预测  地址:/case/alfl3/1633.html



欢迎来到:❥❥新浪体育❤chevytothelevy.com❤新浪体育,,胜利的阵营方更是可以接受敌对阵营的顶礼膜拜,获取无上荣耀。

XML地图 新浪体育

环保设备公司,10年品牌打造行业正规!

【Copyright ©2017-2021 新浪体育-首页 】  版权所有

网站地图 新浪体育