【机器学习】评价指标 : 准确率,查准率与查全率

11 篇文章 2 订阅
订阅专栏

引言

在机器学习中,有几个评价指标,今天专门来介绍一下。之前的学习中主要是看模型,学算法,突然有一天发现,机器学习中的一些基本概念还是有点模糊,导致不知道如何综合评价模型的好坏。 这篇文章主要介绍如下几个知识点:

Accuracy(准确率)
Precision(精确率,差准率)
Recall(召回率, 查全率)
ROC曲线
AUC面积

介绍

  • 正样本 : 属于某一个类别(真值)的样本
  • 负样本 : 不属于某一个类别的样本
    个人理解,正负样本是相对的,取决于机器学习算法开发者。
TP(True Positive) :  猜对了; 预测为正样本
TN(True Negative):  猜对了; 预测为负样本
FP(False Positive): 猜错了: 预测为正样本
FN(False Negative): 猜错了: 预测为负样本

在这里插入图片描述


Accuracy(准确率)

我们想计算一下模型的准确率, 不就是拿 (我们模型猜对的数据个数) / (所有的的数据个数)
即 :(TP + TN) / (ALL)
当然了, 我们希望, 模型的准确率越高越好,最好是猜的全对~

Precision(精确率, 查准率)

在某些场景下,我们希望模型是这样, 如果模型猜测某个样本为正样本, 它尽可能的就是正样本。
也就是说,这个评价指标里,我们不考虑模型把正样本猜成负样本的场景,但是只要模型说这个是正样本,大概率就是正样本。
计算公式: TP / (TP + FP)

举个例子: 宁可漏掉,也不能错杀。 在垃圾邮件的识别过程中,希望宁可漏掉,也不要把正常的邮件给拦截了。

考虑极端场景:

  • 如果百万数据中,我模型就判断了一个正样本,并且猜对了, 这个指标就是 100% 了。
  • 如果百万数据中,我模型全部判断为负样本, 这个指标就是 0/0 就没有值了。

Recall(召回率, 查全率)

然而,在某些场景下, 我们又希望模型是这样的,模型可以把尽可能多的正样本都猜出来。
计算公式: TP / (TP + FN)

举个例子: 宁可错杀,也不能漏掉, 如果漏掉一个正样本的判断,会产生灾难性影响的场景下, 这个指标就非常重要了。

考虑极端场景:

  • 我模型全部判断样本为正样本, 这样的指标就是100%
  • 我模型全部判断样本为负样本, 这样的指标就是0%

简单的思考下可以知道,如果我们只追求单个查准率 或 查全率,这是不合理的,没有实际的价值,因此,需要综合考虑多个因素。

参考文档:
https://zhuanlan.zhihu.com/p/152197756

PR曲线

PR曲线: recall 为横坐标, precision为纵坐标。
思考一下可以知道, PR曲线越往右上凸起,效果越好。


在这里插入图片描述


ROC曲线

要理解ROC曲线, 需要理解两个概念, 分别代表着X轴与Y轴

x 轴:FPR(False Postive Rate)
FPR = FP / (FP + TN) (猜错的正例) / (观测值里所有的反例)

y 轴:TPR (True Postive Rate)

TPR = TP / (TP + FN) (猜对的正例) / (观测值里所有正例)

  • 横轴FPR:,FPR越大,预测正类中实际负类越多。
  • 纵轴TPR:TPR越大,预测正类中实际正类越多。
    理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,Sensitivity、Specificity越大效果越好.

在这里插入图片描述

说一下个人对这个曲线的理解, 是干货哦,是自己一开始对这个曲线最大的疑惑,后来想通了
图中的曲线,似乎无线趋近于(1,1)这个点, 这个点表示什么意思呢?思考了一下,得到如下的结论:

x 轴的 1 表示: 如果一个模型越是把负类预测为正类。(如果所有的负类都被猜成正类了)
y 轴的 1 表示: 那么这个模型就越容易把正类也预测为正类。(所有的正类也很可能会被猜成为正类。)

那么,这个曲线是什么样的才是一个好的模型呢?

我们希望
一个模型越不容易把负类预测为正类的情况下,(x越小)
这个模型越容易把正类预测为正类         (y越大)
所以说,曲线越是往左凸出,模型越好。

这样解释的话,是不是就理解曲线的含义了呢?


那么问题来了,我们应该怎么得到ROC曲线一系列的坐标点的数据呢?有了坐标点,我们才可以画曲线。
答案如下:在模型的预测结果中,一般预测的结果是这个样本为正样本的概率,概率越大, 则越可能是正样本;因此可以设置一个阈值,大于这个阈值的,就是正样本。
但是, 阈值选取多大比较合适呢? 我们可以选取各种不同的阈值,求出该阈值条件下的FPR和TPR的值,获得的坐标点就是ROC曲线中的点了。

ROC曲线与PR曲线的对比

主要参考:https://zhuanlan.zhihu.com/p/138181502

  • ROC曲线:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变
  • PR曲线 : 对于只关心正例的场景,则由于PR曲线使用了Precision,因此PR曲线的两个指标都聚焦于正例。所以在此情况下PR曲线被广泛认为优于ROC曲线。
使用场景:
  • ROC曲线由于兼顾正例与负例,所以适用于评估分类器的整体性能,相比而言PR曲线完全聚焦于正例。
  • 衡量模型时,如果想剔除类别分布带来的影响, 则ROC比较合适。
  • 如果在相同类别分布下, 想看正例的预测情况, 则PR比较合适。
  • 类别不平衡问题中, ROC曲线通常会给出一个乐观的效果估计,考虑使用PR曲线。
  • 在曲线上找到一个最优的点, 从而得到阈值 和 precision, recall等重要指标,并应用于实际场景。

AUC面积

定义: AUC面积指的是 ROC曲线下的面积。
我们如何从AUC来判断模型的优劣标准呢?
参考:https://blog.csdn.net/u013514928/article/details/106635778

AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

总结

这篇文章主要介绍了机器学习模型的评价指标以及相关评估曲线。 在机器学习中, 我们除了需要学习研究算法的原理, 也要知道如何来评估一个模型 ,以及如何选取阈值参数。 在选择评价指标的时候, 也需要根据具体的场景, 选择合适的评价指标,从而可以客观的评价模型孰优孰劣。

机器学习理论之mAP 查全率 查准率 IoU ROC PR曲线 F1值
学习中
10-31 374
机器学习理论之mAP 查全率 查准率 IoU ROC PR曲线 F1值
机器学习基础概念:查准率查全率、ROC、混淆矩阵、F1-Score 机器学习实战:分类器
12-21
机器学习:基础概念查准率查全率F1-Score、ROC、混淆矩阵机器学习实战:分类器性能考核方法:使用交叉验证测量精度性能考核方法:混淆矩阵精度和召回率ROC曲线训练一个随机森林分类器,并计算ROC和ROC AUC分数 查准率查全率 对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例TP、假正例FP、真反例TN、假反例FN四种,令TP、FP、TN、FN分别表示其对应的样例数,则显然有TP+FP+TN+FN=样例总数,分类结果的“混淆矩阵”为: 查准率P: p=TPTP+FP p=\frac{TP}{TP+FP} p=TP+FPTP​ 查全率R: R=TPTP+FN
机器学习--查准率查全率
qq_47180202的博客
08-19 1万+
机器学习--查准率查全率
机器学习查准率查全率与F1
最新发布
淼淼不暴躁!
10-26 6122
定义: 查准率是指在所有被分类为正类别的样本中,有多少比例的样本实际上是正类别的。应用场景: 当我们关心的是确保被模型预测为正类别的样本确实是正类别时,例如在医学诊断中,确保模型预测为患有某种疾病的患者确实患有该疾病。定义: 查全率是指在所有实际正类别的样本中,有多少比例的样本被模型成功地预测为了正类别。应用场景: 当我们关心的是确保所有真实正类别的样本都被模型找出来时,例如在安全检查中,确保所有危险品都被检测出来。查准率表示在所有被模型预测为正类别的样本中,有多少比例的样本实际上是正类别的。
查准率查全率
热门推荐
庆志的小徒弟
07-16 6万+
一、理解查准率(precision)& 查全率(recall) 我们在平时常用到的模型评估指标是精度(accuracy)和错误率(error rate),错误率是:分类错误的样本数站样本总数的比例,即E=n/m(如果在m个样本中有n个样本分类错误),那么1-a/m就是精度。除此之外,还会有查准率查全率,下面举例解释。 按照周志华《机器学习》中的例子,以西瓜问题为例。 错误率:有多少...
准确率查准率查全率、f-score、auc、roc、p-r曲线
lilong_csdn的博客
01-10 4958
安利一个贼方便的编辑数学公式的工具 分类 accuracy_score 准确率 在样本处于均衡状态下该指标比较有参考意义 代码 from sklearn.metrics import accuracy_score y = [1, 1, 2, 2, 0, 0] y_pred = [0, 1, 2, 2, 0, 0] print(accuracy_score(y, y_pred)) 输出 F:\...
二分类模型评价指标详解:准确率查准率与ROC曲线
F1分数是查准率查全率的调和平均数,当两者权重相等时,公式为 `2 * Precision * Recall / (Precision + Recall)`。它综合考虑了查准率查全率,尤其适用于两类样本数量不均衡的情况。 3. **ROC曲线**...
机器学习:性能度量指标之查准率查全率
beautyz的博客
09-11 1455
    在很多实际应用中,我们知道仅仅关心正确分类的结果是不够的,并且,在数据偏斜比较严重的情况下,模型准确率可能具有相当程度的误导性,我们也需要知道数据被错误分类的情况,以确认为此需要承担的分类错误的代价。(False Positive假阳性和False Negative假阴性,这两种情况) 查准率(Precision精度):用于描述所有被正确分类的样本中真阳性的比值。 查全率(Recall...
机器学习-Precision(查准率)、Recall(查全率)、P-R曲线
m0_52053228的博客
10-19 4750
我们经常会关心“检索出的信息中有多少比例是用户感兴趣的”“用户感兴趣的信息中有多少被检索出来了”。“查准率”(precision)与“查全率”(recall)是更为适用于此类需求的性能度量。一、查准率P、查全率R与P-R曲线P-R图直观地显示出学习器在样本总体上的查全率查准率。本文章仅简单概述了Precision、Recall以及P-R曲线的概念以及如何用Python绘制P-R曲线,作者目前也是机器学习小白,希望可以同大家一起进步!
查全率查准率代码
06-08
文档聚类评估程序,计算查全率查准率以、F值,matlab编程实现-Document Clustering assessment procedures, calculation, recall and precision rate, the value of F, C Programming
查准率(precision,也叫精确率)和查全率(recall,也叫召回率)
npk191954的专栏
09-25 3729
比如极端情况下,我们只搜索出了一个结果,且是精确的,那么Precision就是100%,但是Recall就很低;一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少是精确的,Recall就是所有精确的条目有多少被检索出来了。3. F值 = 精确率 * 召回率 * 2 / (精确率 + 召回率) (F 值即为精确率和召回率的调和平均值)精确率、召回率和 F 值是在鱼龙混杂的环境中,选出目标的重要评价指标。召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的。
评价指标之一:错误率、精度、查准率查全率和F1度量
csdnforyou的博客
06-04 1万+
目录: (1)错误率(Error rate)和精度(Accuracy) (2)查准率(准确率-Precision)、查全率(召回率-Recall) (3)P-R曲线、平衡点和F1衡量 一、错误率、精度 错误率(Error Rate):是分类错误的样本数占样本总数的比例。对样例集D,分类错误率计算公式如1所示。 (1) 对公式(1)解释:统计分类器预测出来的结...
机器学习随笔二--查准率查全率
jimei2011的博客
10-19 1755
机器学习
查准率查全率_浅谈查全率(Recall)和查准率(Precision)及准确率(Accuracy)及TPR....
weixin_39819393的博客
11-21 1868
最近在学习ES的时候,偶然听到了两个词汇,分别是 查全率查准率,对应的场景是在ES检索时的IK分词器力度上;简单了解了一下,发现是一个比较有意思的概念,遂记录于此,加深印象;为了方便理解,我们通过一个混淆矩阵来描述这种关系,其矩阵如下:通过上述矩阵,我们可以通过一些维度,获取到我们想要的指标,比如TPR:意为正样本中预测为正的样本比例,其公式为:FNR:意为正样本中预测为负的样本比例,其公式...
查全率查准率有什么区别?
Garson的博客
11-28 2295
查全率查准率
性能度量 3 Recall Score 查全率、召回率
xllzuibangla的博客
05-26 706
1、定义 查全率=TP/(TP+FN) 2、代码 from sklearn.metrics import accuracy_score,precision_score,recall_score y_true=[1,1,1,1,1,0,0,0,0,0] y_pred=[0,0,1,1,0,0,0,0,0,0] print('准确率Accuracy Score:',accuracy_score(y_true,y_pred,normalize=True)) print('查准率Precision Sc
人工智能】NLP的Precision(查准率,精确率),Recall(查全率,召回率),Accuracy(准确率)以及综合评价指标(F1-Measure)
沙师弟专栏
10-29 9975
目录简述准确率、召回率、F1AP和mAP(mean Average Precision)ROC和AUC 简述 机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的 工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。(注: 相对来说,IR 的 ground t...
机器学习#5查准率查全率
womystery的博客
10-05 758
什么是查准率查全率? 设查准率P与查全率R分别定义了为: P=TP/(TP+FP),R=TP/(TP+FN) 在查全率R和查准率P这两个变量之间,他们之间的差异由 FP(假正例)和FN(假反例)来决定 在图表中可以明确看出 不同点:查准率P 是在 真+假 的集合中来判定,查全率R 是在 真+真 的集合中来判定(只用真实情况为参考依据) 相同点:查准率p 和 查全率R ...
写文章

热门文章

  • 【log4j2漏洞复现与利用】 42831
  • 直流电机控制系统 12904
  • 深入理解卷积(卷积核到底要不要翻卷) 10883
  • 【技术分享】密码爆破学习实践 7366
  • 【机器学习】一文搞懂标准化,归一化,正则化 5978

分类专栏

  • 计算机安全 20篇
  • 技术分享 3篇
  • 开发环境 2篇
  • 嵌入式系统 1篇
  • 计算理论
  • 图像处理
  • 深度学习 11篇

最新评论

  • 【算法与数据结构】Python遍历时删除元素问题总结

    Coder_preston: 谢谢评论,不过我没有明白, 代码复制运行的结果就是{1, 2, 4, 5}呀,有啥问题

  • 【算法与数据结构】Python遍历时删除元素问题总结

    vv587: 关于set的那个实例,代码正确。 但是如果从set开始复制到小结,就会把 pint的结果也复制到 结果显示为 1 2 3 4 5 不正确,应该是 {1, 2, 4, 5} 如果您是特意如此,请忽略!表情包

  • 深入理解卷积(卷积核到底要不要翻卷)

    努力coding的笨鸟: 讲得太好了,大赞

  • 深入理解卷积(卷积核到底要不要翻卷)

    m0_52848925: 解决了我很久的疑惑,给力!

  • 【案例分享】clickhouse无认证kafka迁移到有认证kafka方案

    Coder_preston: 很高兴能帮助到你。

最新文章

  • CISSP考试分享
  • 【数据结构与算法】并查集
  • 【案例分享】clickhouse无认证kafka迁移到有认证kafka方案
2024年1篇
2023年14篇
2022年19篇
2021年3篇
2020年1篇
2019年3篇
2017年1篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家上海玻璃钢花盆设计企业阜阳玻璃钢雕塑订做价格玻璃钢景观雕塑6我想学玻璃钢防铜雕塑蚌埠抽象玻璃钢雕塑价位郑州附近玻璃钢彩绘雕塑加工宁夏玻璃钢雕塑背景商场春季美陈海报开封玻璃钢彩绘雕塑价格常见玻璃钢花盆供应云浮市玻璃钢雕塑质量曲阳玻璃钢雕塑定制价格石家庄玻璃钢雕塑定制玻璃钢雕塑技巧甘南动物玻璃钢雕塑厂家长春人物玻璃钢雕塑定做玻璃钢艺术品雕塑摆件抚顺商场美陈搭建玻璃钢卡通雕塑阿狸厂家四川季节性商场美陈采购河南常见商场美陈研发山西动物玻璃钢雕塑优势泡沫玻璃钢雕塑定做安徽城市雕塑玻璃钢优惠的玻璃钢迎宾雕塑端州玻璃钢造型雕塑价格江苏公园玻璃钢雕塑公司玻璃钢生态园雕塑安顺商场美陈装饰红塔区玻璃钢雕塑如何香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化