
原文towardsdatascience.com/the-power-of-pandas-plots-backends-6a08d52071d2?sourcecollection_archive---------9-----------------------#2024-08-30从 Pandas 中轻松创建交互式图形https://medium.com/petoulemonde?sourcepost_page---byline--6a08d52071d2--------------------------------https://towardsdatascience.com/?sourcepost_page---byline--6a08d52071d2-------------------------------- Pierre-Etienne Toulemonde·发布于Towards Data Science ·5 分钟阅读·2024 年 8 月 30 日–https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d5b796700b79a971847f9d847e9373d9.png图片由Lukas Blazek提供来源于Unsplash索引上下文后端2.1. Matplotlib2.2. Plotly2.3. Hvplot讨论离开之前的一句话1.上下文Python 有许多可视化包其中三个最著名的是Matplotlib以及 seaborn、Plotly 和 Hvplot。这三种包各有其优点但都需要付出学习成本甚至有时相当可观。本文的灵感来源于我发现的《Pandas 方法思维导图》该导图由Daily Dose of Data science newsletter提供这是我强烈推荐的一个通讯。当时我正好在探索 Hvplot 可视化包。我认为像 Hvplot 这样轻松切换不同可视化后端的想法非常棒这里有一个示例展示如何从 Hvplot 切换到 Plotly。看到我们也可以用 pandas 实现这一点我觉得这个想法太有趣不能不分享出来。Pandas 是 Python 数据科学的核心我们都知道如何使用它。但集成到 Pandas 中的 Matplotlib 已经显得有些老旧并且在易用性和展示效果上被其他包超越。Pandas 可视化后端的强大之处在于它让你能够利用最新的可视化包进行数据探索和结果呈现而无需花时间学习这些包尽管这些包非常强大2. 后端Pandas 是基于两个包构建的Numpy 和 Matplotlib。这也解释了为什么我们使用 Matplotlib 脚本来生成图表因此生成的图表是 Matplotlib 图表。自从 Pandas 创建以来它不断发展并提供了用户修改 Pandas 使用的可视化后端的可能性。我在研究过程中找到的 6 个可用的后端是Plotnineggplot2PlotlyAltairHoloviewsHvplotPandas_bokehMatplotlib默认后端有几种方法可以更改后端2 个全局方法pd.set_option(plotting.backend,name of backend)# ORpd.options.plotting.backendname of backend1 个本地方法df.plot(backendname of backend,x...)注意更改后端需要 Pandas 0.25有时还需要一些特定的依赖项例如下面的 Hvplot。这里有 2 个示例使用 Plotlyimportpandasaspd# Basic packagespd.options.plotting.backendplotlydfpd.DataFrame(dict(a[1,3,2],b[3,2,1]))figdf.plot()fig.show()使用 Hvplotimportnumpyasnpimportpandasaspd# Basic packagesimporthvplotimporthvplot.pandas# ! Specific dependency to installpd.options.plotting.backendhvplot# Backend modificationdatanp.random.normal(size[50,2])dfpd.DataFrame(data,columns[x,y])df.plot(kindscatter,xx,yy)# Plotting2.1. MatplotlibMatplotlib 是 Pandas 的默认可视化后端。换句话说如果不指定后端将使用 Matplotlib。它是一个高效的包可以快速可视化数据以进行探索或提取结果但它已经老化并且在易用性和渲染能力上被其他包赶超。Matplotlib 的优势在于由于 Pandas 从创建之初就基于 Matplotlib因此 Matplotlib 与 Pandas 的集成非常完美所有 Matplotlib 函数都可以在 Pandas 中使用。提醒一下这里是集成到 Pandas 中的 11 个 Matplotlib 显示方法“area” 用于区域图“bar” 用于垂直条形图“barh” 用于水平条形图“box” 用于箱形图“hexbin” 用于 hexbin 图“hist” 用于直方图“kde” 用于核密度估计图“density” 是 “kde” 的别名“line” 用于折线图“pie” 用于饼图“scatter” 用于散点图。2.2. PlotlyPlotly 是由 Plotly 公司开发的可视化包。该公司开发了框架 Plotly.js用于在 Python 中进行交互式数据可视化。Plotly 公司还提供了 Python 仪表板包 Dash。要在 Pandas 中使用 Plotly只需导入Plotly express并更改后端importpandasaspdimportplotly.expressaspx# Import packagesdfpd.read_csv(iris.csv)# Modifying locally Pandas backenddf.plot.scatter(backendplotly,xsepal.length,ysepal.width)Pandas 返回一个与 Plotly 相同类型的对象df.plot.scatter(backendplotly,xsepal.length,ysepal.width)# → class plotly.graph_objs._figure.Figurepx.scatter(xdf[sepal.length],ydf[sepal.width])# → class plotly.graph_objs._figure.Figure其优势在于你可以将 Pandas 中创建的图形直接集成到 Plotly 宇宙中尤其是 Dash一个限制是Plotly 与 Pandas 的集成尚不完美详细信息请参见 Plotly 网站Plotly 网站详情。2.3. HvplotHvplot 是一个基于 bokeh 的交互式可视化包。这是一个令人兴奋的包我是前些时候发现的至今仍令我着迷既因为 Hvplot 集成了类似于 Pandas 的后端概念也因为 Holoviz 套件 以及相关包如 Panel 用于创建动态客户端网站。即使没有 Pandas 后端的概念Hvplot 也不需要过多的学习就能开始使用只需将 Pandas 的.plot()替换为.hvplot()importpandasaspdimporthvplot dfpd.read_csv(iris.csv)# Plot with Pandasdf.plot.scatter(backendhvplot,xsepal.length,ysepal.width)# Same plot with hvplotdf.hvplot.scatter(backendhvplot,xsepal.length,ysepal.width)使用 Hvplot 后端的方式与使用 Plotly 后端相同只需要导入 Hvplot 包的依赖项importnumpyasnpimportpandasaspd# Basic packagesimporthvplotimporthvplot.pandas# Specific dependency to installpd.options.plotting.backendhvplot# Backend modificationdatanp.random.normal(size[50,2])dfpd.DataFrame(data,columns[x,y])df.plot(kindscatter,xx,yy)# Plotting与 Plotly 类似通过 hvplot 后端从 Pandas 生成的图表是 Hvplot 类型的df.plot.scatter(backendhvplot,xsepal.length,ysepal.width)# → class holoviews.element.chart.Curvedf.hvplot.scatter(backendhvplot,xsepal.length,ysepal.width)# → class holoviews.element.chart.CurveHvplot 是强大的 Holoviz 套件的一部分套件中还有许多其他相关工具可以推动数据分析的深度例如 Panel、geoviews、datashader 等等。这种一致性使得我们可以从 pandas 创建图表同时仍然能够利用 Holoviz 套件的优势。3. 结论Pandas 后端是一个非常高效的解决方案可以发现并利用最新的 Python 可视化包而无需投入太多时间只需 18 个字符包括空格就可以将一个标准的 matplotlib 图表本地转化为交互式的 Plotly 图表从而享受这种可视化类型的所有好处。然而这种解决方案也有一定的局限性它不适用于那些需要大量定制化的高级可视化目标比如数据新闻中的高级可视化因为 Pandas 中的包集成尚不完善。此外这个解决方案仅涵盖了基于 Pandas 构建的可视化包排除了像 D3.js 这样的其他可视化解决方案。Hvplot 目前是我最喜欢的可视化包它一开始非常容易上手能与所有主要的数据处理包如 Polars、Dask、Xray 等兼容并且是一个持续应用的部分可以让你从图表扩展到动态的全客户端网站。4. 离开前的一句话在我的研究过程中我没有找到预期的那么多文档。我认为这个概念很棒所以我本以为会有很多相关文章。如果你觉得这个解决方案真的有用或者只是一个看起来很酷但没有实际用途的东西欢迎在评论中告诉我。感谢阅读