新浪体育-首页 10年专注环保设备研发制造 环保设备【http://chevytothelevy.com】系统设计\制作\安装一条龙服务
新浪体育 中文网址:【麻豆视频.COM】
当前位置:新浪体育 > 新浪体育 > 案例分类2 >
15

离散型随机变量的二分类预测案例

作者:admin 来源:未知 时间:1626778071 点击:

[文章前言]:首先我们读取数据,使用matplotlib对Class特征(0:无欺诈行为)制作直方图,直观感受一下数据的样子: 这批数据中,信用卡正常数据(Class==0)和异常数据(Class == 1)的数据占比存在巨大差异,

  首先我们读取数据,使用matplotlib对Class特征(0:无欺诈行为)制作直方图,直观感受一下数据的样子:

  这批数据中,信用卡正常数据(Class==0)和异常数据(Class == 1)的数据占比存在巨大差异,通常这种数据不进行预处理而直接用来模型制作简直就是给自己徒增烦恼。因此我们需要让数据的分配变得更加均衡,这里介绍两种方式:

  把特征中数据量过大的分类继续进行随机抽样,直到和样本少的类别有相同数量的样本,以此来达到样本的均衡

  把特征中样本的少的类别通过某种数据生成策略,把样本变得和另一类别的样本一样多

  我们观察数据同时还会发现Amount特征的向量值和其他值的范围差异巨大,我们对这一列数据进行标准化操作

  接下来,我们可以使用不同的惩罚力度,对二分类进行L1正则化,这里我们的惩罚力度为:

  构建逻辑回归图,数据训练,预测,计算召回率,在一个交叉验证的for循环里一气呵成:

  1.召回率recall:比如,一批人员,有10个病人,我检测发现出来了2个,recall=2/10。使用召回率而不使用精度来评估模型的优劣

  3.FP:false positive:寻找10个病人,模型把90个好人判断成了病人FP=90(不该命中的部分命中了)

  4.FN:false negative:寻找10个病人,模型把两个病人当成了好人,FN=2(该命中的却不中)

  然而我们还有其他4组惩罚力度哟,用一个for循环来搞定,循环结束后会拿到了5组平均召回率

  找到最大的平均召回率相对应的惩罚力度(在此方式里,我们并没考虑到误杀率FP)

  我们看到结果还是不做的,只有10张信用卡的欺诈行为没有被检测到,另外还有16张正常消费的信用卡被误认为是欺诈。

  lr.predict(X_test_undersample.values)来直接获得最终标签结果,即某个概率非黑即白,如果想调节sigmoid的阈值,我们得获得某个事物发生的具体概率概率,使用lr.predict_proba(X_test_undersample.values),此方法在二分类问题里,返回的是n行2列的矩阵,行为n多个事物,第一列是事件为假的概率,第二列是事件为真的概率,因此第m行的两列相加必然为一。然后:

  对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。

  根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。

  对于每一个随机选出的近邻xn,分别与原样本按照如下的公式构建新的样本。

  以上就是小编为大家介绍的离散型随机变量的二分类预测案例的全部内容,如果大家还对相关的内容感兴趣,请持续关注江苏某某环保设备有限公司

  本文标题:离散型随机变量的二分类预测案例  地址:/case/alfl2/2190.html



欢迎来到:❥❥新浪体育❤chevytothelevy.com❤新浪体育,,胜利的阵营方更是可以接受敌对阵营的顶礼膜拜,获取无上荣耀。

XML地图 新浪体育

环保设备公司,10年品牌打造行业正规!

【Copyright ©2017-2021 新浪体育-首页 】  版权所有

网站地图 新浪体育