背景

传统数仓一般都是Hive+SparkSql作为代表,不过也包括Kylin等,而clickhouse实时OLAP的代表我们简单看下他们的对比

传统数仓clickhouse对比

Hive+SparkSQL的传统数仓
1.数据更新速度慢,由于传统数仓一般都是基于HDFS构建的,数据更新也就意味着把数据写入HDFS文件中,由于大部分数据结构化做的比较差,比如都是基于String表示,所以写入性能很差,意味着数更新速度非常慢
2.数据查询速度基于SparkSql进行数查询虽然可以利用spark基于内存的特点提高查询速度,但是总体上说这个查询速度还是太慢,不能支持实时查询的要求,为了支持实时查询的需求,一般会引入Kylin,也就是提前预计算,但是提前预计算问题在于维度爆炸导致的数据膨胀问题,而这些数据会导致存储的大量占用或者浪费

基于clickhouse实时分析

1.数据更新速度中等,在ck我们可以通过批量插入数据方式来达到比较好的数据插入速度,当然比起OLTP来说,更新速度还是不足,但是通过分批的方式,达到每秒几万的数据插入速度还是可以做到的。
2.数据查询速度很快,这是ck最擅长的地方,可以在秒级别计算出各种维度的数据聚合分析结果,而不需要进行预计算,自然也不需要浪费存储

原文地址:https://blog.csdn.net/lixia0417mul2/article/details/134625598

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_33790.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注