深入理解和运用Pandas的GroupBy机制——理解篇
GroupBy是Pandas提供的强大的数据聚合处理机制,可以对大量级的多维数据进行透视,同时GroupBy还提供强大的apply函数,使得在多维数据中应用复杂函数得到复杂结果成为可能(这也是个人认为在实际业务分析中,数据量没那么大的情况下,Pandas相较于Excel透视表最有优势的一点)。
也正是因为它如此强大,所以对于很多初涉猎这部分内容的学习者来说,深入理解并熟练掌握GroupBy机制的运用有些困难,这篇文章力求基于我对“老鼠书”的理解,对GroupBy机制做一个初步的梳理。
本文是机制上的理解篇,代码层面的运用会在运用篇中涉及。
# GroupBy使用的三种基本形式,先看看,结合后面的梳理一起有助于理解 #1 data.groupby([分组键1,分组键2……]).函数 #2 data.groupby([分组键1,分组键2……]).agg(参数) #3 data.groupby([分组键1,分组键2……]).apply(参数)