scikit-learn 1.3.X 版本 bug – F1 分数计算错误

互联网 11 月前 0 5

本文介绍: 检测这个错误的方法：如果想要确定某个 F1 分数计算是否受到这个错误的影响，可以先使用 classification_report() 函数进行 F1 分数的计算。如果存在任何一个类别的查准率和召回率都为 0，而对应的 F1 分数为 1.0 或 nan，那么这个 F1 分数的计算就是错误的。两者的分母不同，查准率的分母是预测结果的样本数，召回率的分母是样本标签的样本数。，那么根据 zero_division 参数的设定，F1 分数可能被赋值为 1.0 或 np.nan，而非正确的 0.0。

如果您正在使用 scikit-learn 1.3.X 版本，在使用 f1_score() 或 classification_report() 函数时，如果参数设置为 zero_division=1.0 或 zero_division=np.nan，那么函数的输出结果可能会出错。错误的范围可能高达 100%，具体取决于数据集中的类别数量。这个错误可能会显著地影响到多分类问题中常用的宏平均 F1 指标，从而可能导致对分类器性能的误判，甚至可能带来一些安全风险。

scikit-learn releases 页面：https://github.com/scikit-learn/scikit-learn/releases

在这里插入图片描述

F1 分数的定义：查准率是指预测结果中，每个类别预测正确的比例。召回率则是指样本标签中，每个类别被正确预测的比例。两者的分母不同，查准率的分母是预测结果的样本数，召回率的分母是样本标签的样本数。F1 分数是查准率和召回率的调和平均值。

问题原因：在计算 F1 分数时，如果某个类别的查准率和召回率都为 0，那么根据 zero_division 参数的设定，F1 分数可能被赋值为 1.0 或 np.nan，而非正确的 0.0。

检测这个错误的方法：如果想要确定某个 F1 分数计算是否受到这个错误的影响，可以先使用 classification_report() 函数进行 F1 分数的计算。如果存在任何一个类别的查准率和召回率都为 0，而对应的 F1 分数为 1.0 或 nan，那么这个 F1 分数的计算就是错误的。

解决办法：

请升级到已发布的 scikit-learn 1.4.0 或更高版本，该版本已修复了这个 bug。
另一种解决方案是降级到 scikit-learn 1.2.2 版本，或者设置 zero_division 参数为 0.0。但要注意了解这一参数变化将如何影响查准率吧、召回率和 F1 分数！

在这里插入图片描述

📚️ 参考链接：

原文地址:https://blog.csdn.net/fyfugoyfa/article/details/136020854

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_67847.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

L1-088 静静的推荐

互联网 11 月前 2

蓝桥杯官网填空题（奇怪的分式）

蓝桥杯官网填空题（奇怪的分式）

互联网 11 月前 2

NLP NER 任务中的精确度（Precision）、召回率（Recall）和F1值

NLP NER 任务中的精确度（Precision）、召回率（Recall）和F1值

互联网 11 月前 5

Visual Studio常用快捷键及调试操作

Visual Studio常用快捷键及调试操作

互联网 11 月前 6

Redis的实现三：c语言实现平衡二叉树，通过平衡二叉树实现排序集

Redis的实现三：c语言实现平衡二叉树，通过平衡二叉树实现排序集

redis 11 月前 1

FinGPT——金融领域开源大模型

FinGPT——金融领域开源大模型

互联网 12 月前 3

JVM之GC垃圾回收

互联网 11 月前 3

行为型设计模式—中介者模式

互联网 11 月前 4

发表回复取消回复