hive里如何高效生成唯一ID

本文介绍: 常见的方式：hive里最常用的方式生成唯一 id，就是直接使用 row_num ber() 来进行，这个对于小数据量是ok的，但是当数据量大的时候会导致，数据倾斜，因为最后生成全局唯一 id的时候，这个任务是放在一个 reduce里进行的，数据量过大会有很大的瓶颈。优化的方式：主体的思想就是先分再合，参考下一个思路：这个思路是借鉴了一篇文章的思路：附上链接：bitmap 用户分群方法在贝壳DMP的实践和应用_架构_侯学博_InfoQ精选文章我是只想用sql来做具体的实现，如何实现最好

hive里最常用的方式生成唯一 id，就是直接使用 row_number() 来进行，这个对于小数据量是ok的，但是当数据量大的时候会导致，数据倾斜，因为最后生成全局唯一 id的时候，这个任务是放在一个reduce里进行的，数据量过大会有很大的瓶颈。

主体的思想就是先分再合，参考下一个思路：

这个思路是借鉴了一篇文章的思路：附上链接：bitmap用户分群方法在贝壳DMP的实践和应用_架构_侯学博_InfoQ精选文章

with temp01 as (
    select
        iccid,
        imsi,
        cast(rand() * 200 as bigint) num
    from
        原始表
    where
        date_id = '20231123';

)
select
    a.iccid,
    a.imsi,
    a.num as a_num,
    a.rn,
    b.num as b_num,
    b.cnt,
    b.amt,
    nvl(b.amt, 0) + rn as final_num
from
    (
        select
            iccid,
            imsi,
            num,
            ROW_NUMBER() OVER(PARTITION BY num) AS rn
        from
            temp01
    ) a
    left outer JOIN (
        select
            num,
            cnt,
            sum(cnt) over(
                order by
                    num
            ) amt
        from
            (
                select
                    num,
                    count(*) cnt
                from
                    temp01
                group by
                    num
            ) a
    ) b on a.num -1 = b.num;