Pandas 是Python中最常用的数据分析包,不论是在学校完成课程作业与项目,还是在职场数据相关工作中,都大概率会有所接触 Pandas。绝大部分人学习接触Pandas时以及后续使用Pandas所用的命令都是 inplace 类型的计算,例如添加列使用 df['new_col'] = df['old_col'] + 1
,排序使用 df.sort_values('sort_by_col', inplace=True)
,这些计算直接在原表上操作,代码书写起来比较符合直觉。但在一些链路较长、逻辑复杂、分支较多的数据清洗/分析任务上,这种写法可能出现一些潜在的问题,加大我们代码书写的难度。除了inplace的操作,Pandas所提供的api支持链式代码书写,可以大大增加我们的代码质量,帮助分析师从代码实现的难度中解放出来。本文后面的内容对Pandas链式书写的优势以及相关写法进行一些介绍。