Python数据分析新利器：Modin

新知榜官方账号

2023-08-22 11:37:16

Python数据分析新利器：Modin

Modin是一个Python第三方库，可以通过并行来处理大数据集。它的语法和pandas非常相似，因其出色的性能，能弥补Pandas在处理大数据上的缺陷。本文会解释何时该用Modin处理数据，并给出Modin的一些真实案例。

为什么需要Modin？

Pandas是python数据分析最常用的工具库，数据科学领域的大明星。Pandas受欢迎的原因在于它简洁易用的API，并且集成了Numpy、Matplotlib、Scipy等众多数据科学库，堪称Python+SQL+Excel的结合体。但Pandas并不是完美的，大数据是它的软肋。由于设计原因，Pandas只能在单核上运行，数据处理能力有限。目前大部分计算机虽都是多核CPU，Pandas却心有余而力不足，无法用到多核。

正因为大多人都熟悉了Pandas的语法结构，所以想换一种新的数据分析库并不容易，会增加很多的学习成本。如果在保留Pandas语法和API的前提下，又能增加大数据处理能力，这将会一个完美的解决方案。Modin就是这样一个存在。只要你有使用Pandas的经验，就可以轻松上手Modin。

Modin厉害在哪里？

Modin是一个Python第三方库，可以弥补Pandas在大数据处理上的不足，同时能将代码速度提高4倍左右。Modin以Ray或Dask作为后端运行。Ray是基于python的并行计算和分布式执行引擎。Dask是一个高性能并行分析库，帮助Pandas、Numpy处理大规模数据。与pandas不同，Modin能使用计算机中所有的CPU内核，让代码并行计算。当用4个进程而不是一个进程（如pandas）运行相同的代码时，所花费的时间会显著减少。

Modin的主要特点：使用DataFrame作为基本数据类型；与Pandas高度兼容，语法相似，几乎不需要额外学习；能处理1MB到1TB+的数据；使用者不需要知道系统有多少内核，也不需要指定如何分配数据。

Modin使用方法

首先要安装Modin，使用pip安装即可。前面说过，Modin使用Ray或Dask作为后端，在这里我们使用dask，命令行输入以下代码同时安装Modin和Dask：

pip install modin[dask]

接下来是导入Modin，这是重点。Modin宣称改一行代码就可以加速pandas，只需将：

import pandas as pd

改为

import modin.pandas as pd

除了速度更快外，其他要用的的语法、api和Pandas一模一样。我们来试试分别用Modin和pandas读取200MB的CSV文件，看哪个速度更快。

# 使用pandas读取数据
import pandas as pd
import time
times = time.time()
df = pd.read_csv("test.csv")
e = time.time()
print("Pandas读取时间 = {}".format(e-s))

# 使用Modin读取数据
import modin.pandas as pd
s = time.time()
df = pd.read_csv("test.csv")
e = time.time()
print("Modin读取时间 = {}".format(e-s))

返回：Pandas是3.3秒，Modin是1.9秒，速度快了接近1倍。我的电脑是4核CPU，Modin加载过程中所有内核都被用上了。如果用8核来跑，加载时间更少。

对比Modin和Pandas

简单对比了Modin和Pandas读取200M文件后，我们再试下读取1GB的CSV文件有多大差异。

# 使用pandas读取数据
import pandas as pd
import time
df_pandas = pd.read_csv("test1.csv")
s = time.time()
result = df_pandas.append(df_pandas)
e = time.time()
print("Pandas append时间 = {}".format(e-s))

# 使用Modin读取数据
import modin.pandas as pd
df_modin = pd.read_csv("test1.csv")
s = time.time()
result = df_modin.append(df_modin)
e = time.time()
print("Modin append时间 = {}".format(e-s))

输出：Pandas用时11.3秒，Modin用时7.6秒。

# 使用pandas读取数据
import pandas as pd
import time
df_pandas = pd.read_csv("test.csv")
s = time.time()
result = pd.concat([df_pandas]*5)
e = time.time()
print("Pandas concat时间 = {}".format(e-s))

# 使用Modin读取数据
import modin.pandas as pd
df_modin = pd.read_csv("test.csv")
s = time.time()
result = pd.concat([df_modin]*5)
e = time.time()
print("Modin concat时间 = {}".format(e-s))

输出：Pandas用时3.7秒，Modin用时0.5秒。

通过上面三个函数的比较，Modin在使用append、concat等方法上要比Pandas快5倍以上。

Modin和其他加速库有何不同？

现在有很多库可以实现对Pandas的加速，比如Dask、Vaex、Ray、CuDF等，Modin和这些库对比有什么样的优势呢？

Modin Vs Vaex

Modin可以说是Pandas的加速版本，几乎所有功能通用。Vaex的核心在于惰性加载，类似spark，但它有独立的一套语法，使用起来和Pandas差异很大。如果你已经写好基于pandas的脚本，只是想加速运行代码，那么Modin是最佳选择。如果你只是想简单统计或可视化大数据集，可以考虑Vaex。

Modin Vs Dask

Dask既可以作为Modin的后端引擎，也能单独并行处理DataFrame，提高数据处理速度。但Dask对Pandas并没有很好的兼容性，没办法像Modin那样，只需改变一行代码，就可以轻松使用Pandas处理大数据集。

Modin Vs RAPIDS(cuDF)

RAPIDS加速效果非常好，但它需要有GPU的加持，没有Modin那么便捷。

感谢大家的支持和喜欢，小编会每天分享更多Python学习的干货知识给大家，所以大家别忘了关注小编哦。更多Python爬虫、数据分析、办公自动化、全栈开发、人工智能学习资料关键字：Modin、Python、数据分析、Pandas、大数据处理、并行计算

本页网址：https://www.xinzhibang.net/article_detail-10221.html

寻求报道，请

关键词

Modin Python 数据分析 Pandas 大数据处理并行计算

分享至微信：

相关工具

AI Content Detector

Writer推出的AI内容检测工具

Writecream AI Content Detector

Writecream推出的AI内容检测工具

Winston AI

强大的AI内容检测解决方案

CheckforAI

免费在线检测AI内容

Originality.AI

原创度和AI内容检测

GPTZero

超过百万人都在用的免费AI内容检测工具

未来速度完成数百万美元天使轮融资，旗下产品Xorbits将加速Python生态下大规模数据的处理

未来速度完成数百万美元天使轮融资，旗下产品Xorbits加速Python生态下大规模数据的处理未来速度成立于2022年，旗下产品Xorbits为分布式数据科学计算框架，旨在加速Python生态下大规模数据的处理。Python作为一门容易上手的编程语言，具有较高的开发效率，同时有Pandas、Nump

分类标签未来速度XorbitsPython分布式数据科学计算框架大规模数据处理并行计算

12-06 00:15

数字贸易与AI的碰撞：2023第二届全球数字贸易博览会在杭州开幕

数字贸易与AI的碰撞：2023第二届全球数字贸易博览会在杭州开幕数字经济发展让新时代的贸易不再单一。吃的水果，喝的乳品，“看得见”的商品通过跨境电商漂洋过海，出现在异国的餐桌；玩的游戏，听的音乐，“摸不着”的商品也能借助互联网翻山越岭，影响另一个国度的人。这也是AI的时代。今年以来，ChatGPT横

分类标签数字贸易AI全球数字贸易博览会

11-25 10:22

初识CRM

初识CRMCRM（Customer Relationship Management），即客户关系管理。是指企业通过对客户信息的收集、分析和运用，以提高客户满意度、保持客户忠诚度、增加销售和利润等目的的一种管理方式。CRM的主要功能包括客户信息管理、销售管理、市场营销管理和客户服务管理等。其中客户信息

分类标签 CRM客户关系管理市场

11-24 08:02

阿里版的ChatGPT语言大模型来了

阿里巴巴所有产品未来将接入“通义千问”大模型，进行全面改造。他认为，面向AI时代，所有产品都值得用大模型重新升级。现在，钉钉、天猫精灵等产品已接入通义千问测试，将在评估认证后正式发布新功能。生成式AI又可称为AIGC（ArtificialIntelligenceGeneratedContext，即可

分类标签阿里巴巴通义千问AI功能

11-13 18:10

Clarifai宣布推出端到端的AI审核解决方案

背景将互联网上的色情、毒品、暴力和其它不适当的内容过滤并不是一件容易的事。Facebook在全球的内容审核员从2017年的4500名增长至现在的7500名。而且在今年4月份，谷歌YouTube表示，在去年的10月份到12月份之间，他们已经下架了超过800万个与其政策相违背的视频，其中20%的视频是由

分类标签 Clarifai审核解决方案AI

11-11 16:35

互联网强国的意义及AI在互联网中的应用

互联网强国是指在互联网领域具有强大实力和影响力的国家。互联网强国可以从多个方面来理解：经济发展：互联网强国意味着该国在数字经济领域具有竞争力和创新能力，能够推动经济的快速发展。互联网技术的广泛应用和数字化转型可以促进各行各业的创新和提升效率，推动产业升级和经济结构优化。科技创新：互联网强国需要具备自

分类标签互联网强国经济发展科技创新

11-10 22:29

AI技术的五种新应用

AI技术的五种新应用人工智能作为一项迅速兴起的技术，在各个领域都引起了不小的轰动。不知从何时起，我们的生活、娱乐、生活的方方面面都有了AI的身影。在今年，这5个人工智能全新应用，或许应该被给予更多关注。AI检测COVID-19新冠病毒快速席卷全球，给世界带来了难以估量的损失。有研究人员根据现有的数据

分类标签人工智能COVID-19交通领域电话客服餐饮业

11-04 22:42

智能制造中的AOI瑕疵检测智能化发展

智能制造中的AOI瑕疵检测智能化发展从设备联网、可视化管理等的基础应用，进展到以AI达到生产设备预知维护保养等，智能制造应用现今可说是百花齐放，而产业端的实际需求，更是促进智慧应用成熟发展的动力。但同时，质量与良率仍然是目前国内制造业者最重视的议题。在此需求下，近期智能制造相关应用中最受广大讨论的则

分类标签智能制造AOI瑕疵检测AI技术

11-04 22:39

智能制造市场中最受讨论的瑕疵检测智能化发展

智能制造市场中最受讨论的瑕疵检测智能化发展从设备联网、可视化管理等的基础应用，进展到以AI达到生产设备预知维护保养等，智能制造应用现今可说是百花齐放，而产业端的实际需求，更是促进智慧应用成熟发展的动力。但同时，质量与良率仍然是目前国内制造业者最重视的议题。在此需求下，近期智能制造相关应用中最受广大讨

分类标签智能制造瑕疵检测AOI

11-04 22:39

Buzzfeed引入AI技术的测试栏目quizzes，旨在用新技术赚取更多利润

Buzzfeed引入AI技术的测试栏目quizzes，旨在用新技术赚取更多利润据报道，Buzzfeed发布了引入AI技术的测试栏目quizzes，旨在用新技术赚取更多利润。quizzes栏目有一系列测试问题，比如性格测试、兴趣爱好测试等等。现在quizzes多出一些问题，它引入了AI，比如其中一个与

分类标签 BuzzfeedAI技术quizzes

11-04 22:36

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway