python多维数组分位数的求取方式

上传:qqarmor37980 浏览: 24 推荐: 0 文件:pdf 大小:446.17 KB 上传时间:2022-03-30 10:49:42 版权申诉

在python中计算一个多维数组的任意百分比分位数,只需用np.percentile即可,十分方便众所周知,原生hive没有计算中位数的函数,只有计算分位数的函数percentile在数据量不大的时候,速度尚可。但是数据量一上来之后,完全计算不出来。那么如何解决这个问题呢,我们可以使用 row_number() over()通过两次排序来解决同时计算多个分位数,速度飞快。比如我们需要计算mkt_mcc_storeidx表下以mkt_label,mccgroup,month分组,value_mccgroup的分位数后来查看了下SQL代码的执行树,发现percentile利用了map来存数据,怪不得这么耗内存,其实时间久并不是算的时间久,是因为内存不够了,系统一直在回收内存而rank over 仅仅就是个排序而已

上传资源
用户评论