如何找到BlackBox模型的特征重要性？

新知榜官方账号

2023-08-21 16:28:43

数据科学家Rahul Agarwal介绍特征选择方法——排列重要性

数据科学是对算法进行的研究。每天我们都要处理很多的算法，因此需要列出一些最常见和最常用的算法，这些算法将会在新的DS算法系列中使用。

当我们创建了很多特征的时候，我们常常需要想尽方法减少特征的数量。上次我写了一篇名为“每个数据科学家都应该知道的5种特征选择算法”的文章，其中谈到了使用相关性或基于树类结构的方法，并在特征选择的过程中添加了一些结构。最近我接触了另一种新颖的特征选择方法，叫做排列重要性。这篇文章将介绍排列重要性是如何起作用的以及如何使用ELI5对其进行编码。

什么是排列重要性

简单地说，如果我们从数据集中删除一个特定的特征，我们可以根据我们的评估指标(F1、精度AUC等)的变化来给这个特征赋予重要性。要做到这一点可就太简单了，我们从数据集中删除了一个特征，然后训练分类器，接着查看评估指标是如何变化的。我们要对所有的特征都这样操作。所以我们至少要拟合n次模型，其中n是模型中的特征的数量。这意味着非常多的计算和工作量。我们是否能在这样的条件下做到更好呢？

为了计算排列的重要性，我们对单个特征的值进行改组、排列，并使用所得的数据集进行预测。然后将这些预测用于计算我们的评估指标。直观地讲，如果我们的准确性或任何评估指标都没有受到影响，那我们就可以说这个特征并不重要。但如果我们的准确性受到了影响，那我们也得承认该特征确实很重要。

如何使用排列重要性

我们使用更新的数据集对特征进行排序和预测。直观地讲，如果我们的准确性或任何评估指标都没有受到影响，那我们就可以说这个特征并不重要。但如果我们的准确性受到了影响，那我们也得承认该特征确实很重要。

我们可以将排列重要性应用于sklearn模型。首先，我们要开始训练模型。然后使用eli5sklearn模块中的PermutationImportance函数。我们还可以使用eli5来计算非机器学习模型的特征重要性。在这里我们训练了一个LightGBM模型。我们需要为评分函数创建一个包装器，以计算我们的评估指标。现在我们可以使用eli5.permutation_importance中的get_score_importances函数以获得最终的特征函数。

特征工程和特征选择是任何机器学习通道的关键部分。我们追求模型的准确性，如果不反复查看这些模型，就不可能获得良好的准确性。在这篇文章中，我试图将排列重要性解释为一种特征选择方法。它可以帮助我们找到任何BlackBox模型的特性重要性，这与我之前关于特征选择的文章中的技术表达不同。

本页网址：https://www.xinzhibang.net/article_detail-10155.html

寻求报道，请

关键词

分享至微信：

相关工具

Fig

下一代命令行工具（内置AI终端命令自动补全）

Warp

21世纪的终端工具（内置AI命令搜索）

Codiga

AI代码实时分析

Boxy

CodeSandbox推出的AI编程助手

Cody

Sourcegraph推出的免费AI编程工具

CodiumAI

AI代码测试工具

曾熙博士在香港设计营商周上分享AI设计三大原则

曾熙博士在香港设计营商周上分享AI设计三大原则2023年香港设计营商周BoDW开幕式，日本设计协会董事长兼MUJI艺术总监原研哉、MVRDV事务所创始人WinyMass等在台上发言。此活动集结了众多领域的杰出演讲者，如日本设计协会董事长与MUJI艺术总监原研哉、UNStudio创始人BenvanBe

分类标签香港设计营商周AI设计曾熙博士

12-10 02:15

人工智能诊断COVID-19肺炎的可解释性

在COVID-19大流行的早期，人们竞相构建工具，尤其是AI工具来提供帮助。但研究人员并没有注意到许多人工智能模型已经决定走一些捷径。AI通过分析被标记为COVID-19阳性和阴性的X射线图片来训练模型，然后利用它们在图像之间发现的差异性来进行推断，但是在当时面临着一个问题，“可用的训练数据并不多。

分类标签人工智能COVID-19肺炎

12-06 16:14

视频翻译工具MyHeyGen简介与使用教程

视频翻译工具MyHeyGen简介近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟产品，例如我之前

分类标签视频翻译MyHeyGen免费工具

11-28 10:01

科学家创造出新方法解决人工智能歧视问题

背景人们开发人工智能的初衷是希望计算机能够模仿人类,但是，一旦以人类作为计算机学习的模板,人工智能不可避免地会“学习”到人类的某些缺陷，比如说歧视和偏见。现在，哥伦比亚大学和理海大学（LehighUniversities）的科学家们已经创造出新方法，可以避免歧视出现的情况。解决方案利用这种纠正深度学

分类标签人工智能歧视深度学习

10-20 10:30

人工智能会取代哪些工作岗位？专家：AI将刺激更多初创企业进入游戏行业

“记住我的话，人工智能远比核弹更加恐怖！”这是最近大火的人工智能聊天机器人模型ChatGPT的母公司——OpenAI的联合创始人埃隆·马斯克此前对于人工智能发出的“危险警告”。ChatGPT上线数月以来，来自全球的试用者们惊奇地发现，它表现出了可以部分代替人工完成创作剧本、撰写研报、应用编程等复杂工

分类标签人工智能工作岗位ChatGPTAIGC游戏行业初创企业

10-20 10:28

Python之父Guido van Rossum加入微软开发部门

Python之父Guido van Rossum加入微软开发部门64岁的Python之父Guido van Rossum在官方宣布：由于退休生活太无聊，决定加入微软的开发部门。微软方面确认了他的加入，并表示将为Python社区做出贡献，与之一起成长。Guido van Rossum在上世纪80年代末

分类标签 PythonGuidovanRossum微软开发部门

10-20 10:26

GPT-2逆天语言模型补全代码，DeepTabNine实现23种编程语言代码补全

GPT-2逆天语言模型补全代码，DeepTabNine实现23种编程语言代码补全DeepTabNine是一款支持23种编程语言的代码补全工具，基于GPT-2逆天语言模型，能够根据程序员过去的习惯自动补全，并在后面给出几种选项的概率。TabNine支持VSCode、SublimeText、Atom、E

分类标签 GPT-2DeepTabNine代码补全编程语言机器学习TabNine

10-20 10:24

金山毒霸青春版的Chat毒霸姬AI编程，智能编程学习神器

金山毒霸青春版的Chat毒霸姬AI编程，智能编程学习神器如果问近几年哪个行业最吃香，相信绝大多数的朋友都是第一个想到IT行业。在互联网时代，计算机等相关行业可以说是二十一世纪炙手可热的行业，每年高考招生，IT计算机行业也成为的考生们炙手可热的专业之一。不过，对于部分人群来说，学习编程听起来是一件很难

分类标签编程学习AI编程金山毒霸青春版

10-20 10:02

推荐配色大神们私藏的在线自动配色网站

推荐配色大神们私藏的在线自动配色网站在生活中我们要学会衣服的色彩搭配，让人赏心悦目。工作中无论是平面设计，还是制作PPT，好的配色方案，能够锦上添花。本期给大家推荐配色大神们私藏的在线自动配色网站，非常全面。01综合全面配色这些网站的配色方案比较全面，可以直接拿来就用。http://colorhun

分类标签配色方案在线工具渐变色中国风数据可视化SEO

10-10 22:36

分享3款适合设计新手的平面设计软件和教程

分享3款适合设计新手的平面设计软件和教程大家好，我是谢振。作为设计新手的你是不是还在了解平面设计都需要学习什么软件？或者百度上到处搜索找人问？接下来我分享平面设计3款常用也是必备的软件，每款软件都有自己的特长，我们看看是哪3款。1.CorelDRAWCorelDRAW简称CDR，是加拿大Corel公

分类标签平面设计软件教程

09-28 10:20

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway