本文介绍: 2023年12月,由阿里云主办的实时计算闭门会在北京举行,阿里云实时数仓Hologres研发负责人姜伟华现场分享Hologres+Flink构建的企业级实时数仓,实现全链路的数据实时计算、实时写入、实时更新、实时查询。同时,随着流式湖仓的兴起,Hologres除了支持Delta、Hudi等通用湖格式,在今年新增了对Paimon的深度集成,不断拓展湖仓一体能力。

2023年12月,由阿里云主办的实时计算闭门会在北京举行,阿里云实时数仓Hologres研发负责人姜伟华现场分享Hologres+Flink构建的企业级实时数仓,实现全链路的数据实时计算、实时写入、实时更新、实时查询。同时,随着流式湖仓的兴起,Hologres除了支持Delta、Hudi等通用湖格式,在今年新增了对Paimon的深度集成,不断拓展湖仓一体能力。

随着大数据从规模化走向实时化,实时数据的需求覆盖互联网、交通、传媒、金融、政府等各个领域。实时计算在企业大数据平台的比重也在不断提高,部分行业已经达到了50%。Hologres+Flink通过众多的丰富企业级能力,替换开源复杂的各类技术组件,减少多种技术栈学习、多种集群运维、多处数据一致性维护等成本,让企业专注于业务,实现降本增效。

  • 小红书OLAP场景通过Hologres替换Clickhouse,查询性能大幅提升,在推荐场景下基于Hologres+Flink实时分析用户A/B分组测试结果,实时调整推荐策略,更新推荐模型。
  • 小迈科技通过Hologres+Flink构建百亿级广告实时数仓,满足高性能写入、极速复杂查询、高可用隔离等需求,在让用户行为分析实现秒级响应,快速响应业务需求。
  • 金蝶管易云升级实时数仓到Hologres+Flink,数据延迟从30S+降低到秒级,借助 Hologres 强大的实时分析聚合能力,解决数据统计延迟问题,并且整体资源成本降低 50%。
  • 好未来原先将Kudu作为OLAP引擎,使用Impala进行数据加载、运算,通过Hologres同时替换Kudu/Impala实现百万级写入和毫秒级查询能力,降低成本近百万/年。
  • 乐元素通过测试发现对比Presto性能提升了5~10倍,64核Holgores可直接替换96核Presto集群,于是升级数仓架构,让业务运营效率提升10倍+。

Hologres 是阿里云自研一站式实时数仓,以分析服务一体化架构,统一数据平台架构,实现一份数据,同时支持支持多维分析、在线服务、湖仓一体、向量计算多个场景,其中包含了:

  • 多维分析(实现同CK、Doris等查询场景)

数据高性能实时写入、更新与查询,实现写入即可查,支持列存、内置索引加速

  • 在线服务(实现同Hbase、Redis等点查场景)

超高QPS下KV与SQL点查、非主键点查,支持行存、具备高可用能力

  • 湖仓分析(实现同Presto等交互式分析场景)

无需数据搬迁,对MaxCompute、数据湖中的表进行秒级交互式查询,元数据自动发现

  • 向量计算(实现同Faiss等向量查询场景)
  • 负载隔离
  • 企业级运维
  • 数据安全
  • 数据治理
  • 维表百万RPS查询。支持非常高RPS的查询,更容易达到百每秒百万单次查询,我们内部存在一些业务甚至可以到达几千万和上亿次的查询。
  • 维表实时可更新。可以更新维表及其中的一部分字段,降低运维难度,提升效率。
  • 支持1对N点查(prefix scan)。不仅支持一对一查询,更支持一对多查询。例如我们在保险客户里面,需要根据身份证查询有哪些保单。那一个人可能会对应多张保单,这种一对N的查询Hologres也可以支持。
  • 支持InsertIfNotExist。这是一个非常特别的能力,在一般维表进行查询,查到就返回,查不到就返回空,但Hologres在查询不到时插入一则数值,再把插入值返回。这个主要用法是用来解决玩转流量中精确UV场景,通过RoaringBitmap画像方案,让千亿级别的画像分析从分钟级缩减到秒级。
  • 解决传统中间层Kafka数据不易查、不易更新、不易修正的问题,每一层都可查、可修正。
  • 中间层数据不仅供Flink消费,所有人都可查其数据,甚至同时可以直接对外提供服务,对接OLAP/在线服务等消费。
  • 架构统一,减少运维成本,增加业务效率,并且模型统一。
  • Binlog,支持表更新事件的Binlog透出能力,通过Flink消费Hologres Binlog,实现数仓层次间全链路实时开发,满足分层治理的前提下,缩短数据加工端到端延迟。
  • 行列共存,实现了数据在Flink和Hologres之间的传输,并使每一层的数据可以被查询和修改。
  • 资源强隔离,在多种计算之间资源隔离,实现写入和读取隔离,查询和服务隔离。
  • 实时播报。实时播报入仓、出仓和交付等内容有关,需要有很高的保障
  • 有大量实时的仓库作业存在,需要高性能和持续的服务
  • 对于各种常见的指标中心&自助分析,需要多维的OLAP分析和灵活性

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注