Flink基于两阶段聚合及Roaringbitmap的实时去重方案 大数据

Flink基于两阶段聚合及Roaringbitmap的实时去重方案

去重是大数据计算中的常见场景,本文介绍了Flink结合数据倾斜问题的一般性解决方案——两阶段聚合,以及位图(Bitmap)的优化版数据结构——Roaringbitmap给出的一种实时去重解决方案,并在最后与其他方案进行了对比。 大数据去重的两种思路 我们知道,离线大数据计算有很多框架,如hive、spark-sql、clickhouse、impala、kylin、presto等等,各个框架在处...
阅读全文
千万用户的人群过滤,做好这几个点,竟然支持亿级流量 Java

千万用户的人群过滤,做好这几个点,竟然支持亿级流量

Hi,大家好,我是东东拿铁,一名95后奶爸程序员。 背景 一天,产品来到我的面前,对我说,“拿铁啊,你给我实现一个功能,在亿级用户情况下,根据用户id,过滤出这个人是否在我们的指定人群下面,不同人群组合,有大概1000个左右,并且性能一定要够好哦。”   what???亿级?过滤?这么大的数据,怎么存,存了,怎么用,你倒是提完需求,拍拍屁股走人了,留下我自己在电脑...
阅读全文
Loading...