注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Zachary LIU

不以物喜,不以己悲

 
 
 

日志

 
 

confusion matrix 混淆矩阵[转]  

2014-08-22 01:56:18|  分类: 算法技术 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

     一个完美的分类模型是,将实际上是good的实例预测成good,将bad的实例预测称bad。对于实际应用中的分类模型,可能预测错误实例类型,因此我们需要知道到底预测对了多少实例,预测错了多少实例。混淆矩阵就是将这些信息放在一个表中,便于直观的观测和分析。

      在分类问题中,预测的情形存在如下四种:

1. good—》good: true positive类型, 设数目为a;

2. good-》bad:   false negative类型,设数目为b;

3. bad-》bad:    true negative类型, 设数目为c;

4. bad-》good:   false positive类型,设数目为d;

      因此   实际的good实例数目为:a+b       实际的bad数目为:c+d

             预测的good实例数目为:a+d       预测的bad数目为:b+c

几组常用的评估指标:

    1. 准确率accuracy: 针对整个预测情况。预测正确的/总实例数 = (a+c)/(a+b+c+d)

    2. 误分类率error rate: 针对整个情况。预测错误的/总实例数 = (b+d)/(a+b+c+d)

    3. 召回率recall/敏感性sensitivity: 针对good的正确覆盖了。预测对的good实例/实际good的实例 = a/(a+b)

    4. 特异性specificity: 针对bad的预测正确率。预测对的bad实例/实际的bad实例数 = c/(c+d)

    5. 命中率precision: 针对good的预测正确率。预测对的good实例/预测的good实例数 = a/(a+d)

    6. Type I errorFalse Discovery Rate(FDR, false alarm) = 1- precision

    7. Type II error: miss rate = 1- sensitivity

注:

1. sensitivity vs. specificity

2. recall vs. precision

3. accuracy vs. error rate

4. type I error vs. type II error

5. 针对precision和recall有F1指标,用于实现两者之间的tradeoff。

  评论这张
 
阅读(136)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017