- StarRocks
- 产品简介
- 快速开始
- 部署 StarRocks
- 表设计
- 导入数据
- 导出数据
- 查询数据源
- 查询加速
- 管理手册
- 参考手册
- SQL参考
- 用户账户管理
- 集群管理
- ADD SQLBLACKLIST
- ADMIN CANCEL REPAIR TABLE
- ADMIN CHECK TABLET
- ADMIN REPAIR TABLE
- ADMIN SET CONFIG
- ADMIN SET REPLICA STATUS
- ADMIN SHOW CONFIG
- ADMIN SHOW REPLICA DISTRIBUTION
- ADMIN SHOW REPLICA STATUS
- ALTER RESOURCE GROUP
- ALTER SYSTEM
- CANCEL DECOMMISSION
- CREATE RESOURCE GROUP
- CREATE FILE
- DELETE SQLBLACKLIST
- DROP FILE
- DROP RESOURCE GROUP
- EXPLAIN
- INSTALL PLUGIN
- KILL
- SET
- SHOW BACKENDS
- SHOW BROKER
- SHOW COMPUTE NODES
- SHOW FILE
- SHOW FRONTENDS
- SHOW FULL COLUMNS
- SHOW INDEX
- SHOW PLUGINS
- SHOW PROC
- SHOW PROCESSLIST
- SHOW RESOURCE GROUP
- SHOW SQLBLACKLIST
- SHOW TABLE STATUS
- SHOW VARIABLES
- UNINSTALL PLUGIN
- DDL
- ALTER DATABASE
- ALTER MATERIALIZED VIEW
- ALTER TABLE
- ALTER VIEW
- ALTER RESOURCE
- ANALYZE TABLE
- BACKUP
- CANCEL ALTER TABLE
- CANCEL BACKUP
- CANCEL RESTORE
- CREATE ANALYZE
- CREATE DATABASE
- CREATE EXTERNAL CATALOG
- CREATE INDEX
- CREATE MATERIALIZED VIEW
- CREATE REPOSITORY
- CREATE RESOURCE
- CREATE TABLE AS SELECT
- CREATE TABLE LIKE
- CREATE TABLE
- CREATE VIEW
- CREATE FUNCTION
- DROP ANALYZE
- DROP STATS
- DROP CATALOG
- DROP DATABASE
- DROP INDEX
- DROP MATERIALIZED VIEW
- DROP REPOSITORY
- DROP RESOURCE
- DROP TABLE
- DROP VIEW
- DROP FUNCTION
- HLL
- KILL ANALYZE
- RECOVER
- REFRESH EXTERNAL TABLE
- RESTORE
- SET CATALOG
- SHOW ANALYZE JOB
- SHOW ANALYZE STATUS
- SHOW META
- SHOW RESOURCES
- SHOW FUNCTION
- TRUNCATE TABLE
- USE
- DML
- ALTER LOAD
- ALTER ROUTINE LOAD
- BROKER LOAD
- CANCEL LOAD
- CANCEL REFRESH MATERIALIZED VIEW
- CANCEL EXPORT
- CREATE ROUTINE LOAD
- DELETE
- EXPORT
- GROUP BY
- INSERT
- PAUSE ROUTINE LOAD
- REFRESH MATERIALIZED VIEW
- RESUME ROUTINE LOAD
- SELECT
- SHOW ALTER TABLE
- SHOW ALTER MATERIALIZED VIEW
- SHOW BACKUP
- SHOW CATALOGS
- SHOW CREATE CATALOG
- SHOW CREATE MATERIALIZED VIEW
- SHOW CREATE TABLE
- SHOW CREATE VIEW
- SHOW DATA
- SHOW DATABASES
- SHOW DELETE
- SHOW DYNAMIC PARTITION TABLES
- SHOW EXPORT
- SHOW LOAD
- SHOW MATERIALIZED VIEWS
- SHOW PARTITIONS
- SHOW PROPERTY
- SHOW REPOSITORIES
- SHOW RESTORE
- SHOW ROUTINE LOAD
- SHOW ROUTINE LOAD TASK
- SHOW SNAPSHOT
- SHOW TABLES
- SHOW TABLET
- SHOW TRANSACTION
- SPARK LOAD
- STOP ROUTINE LOAD
- STREAM LOAD
- SUBMIT TASK
- UPDATE
- 辅助命令
- 数据类型
- 关键字
- AUTO_INCREMENT
- 函数参考
- Java UDF
- 窗口函数
- Lambda 表达式
- 日期函数
- add_months
- adddate
- convert_tz
- current_date
- current_time
- current_timestamp
- date
- date_add
- date_format
- date_slice
- date_sub, subdate
- date_trunc
- datediff
- day
- dayname
- dayofmonth
- dayofweek
- dayofyear
- days_add
- days_diff
- days_sub
- from_days
- from_unixtime
- hour
- hours_add
- hours_diff
- hours_sub
- microseconds_add
- microseconds_sub
- minute
- minutes_add
- minutes_diff
- minutes_sub
- month
- monthname
- months_add
- months_diff
- months_sub
- now
- quarter
- second
- seconds_add
- seconds_diff
- seconds_sub
- str_to_date
- str2date
- time_slice
- time_to_sec
- timediff
- timestamp
- timestampadd
- timestampdiff
- to_days
- to_date
- unix_timestamp
- utc_timestamp
- week
- weekofyear
- weeks_add
- weeks_diff
- weeks_sub
- year
- years_add
- years_diff
- years_sub
- 字符串函数
- append_trailing_char_if_absent
- ascii
- char
- char_length
- character_length
- concat
- concat_ws
- ends_with
- find_in_set
- group_concat
- hex_decode_binary
- hex_decode_string
- hex
- instr
- lcase
- left
- length
- locate
- lower
- lpad
- ltrim
- money_format
- null_or_empty
- parse_url
- repeat
- replace
- reverse
- right
- rpad
- rtrim
- space
- split
- split_part
- starts_with
- strleft
- strright
- substring
- trim
- ucase
- unhex
- upper
- 聚合函数
- array_agg
- avg
- approx_count_distinct
- any_value
- bitmap
- bitmap_agg
- count
- grouping
- grouping_id
- hll_empty
- hll_hash
- hll_raw_agg
- hll_union
- hll_union_agg
- max
- max_by
- min
- multi_distinct_count
- multi_distinct_sum
- percentile_approx
- percentile_cont
- percentile_disc
- retention
- sum
- std
- stddev
- stddev_samp
- variance, variance_pop, var_pop
- var_samp
- window_funnel
- Array 函数
- array_agg
- array_append
- array_avg
- array_concat
- array_contains
- array_contains_all
- array_cum_sum
- array_difference
- array_distinct
- array_filter
- array_intersect
- array_join
- array_length
- array_map
- array_max
- array_min
- arrays_overlap
- array_position
- array_remove
- array_slice
- array_sort
- array_sortby
- array_sum
- array_to_bitmap
- reverse
- unnest
- Bitmap 函数
- bitmap_agg
- bitmap_and
- bitmap_andnot
- bitmap_contains
- bitmap_count
- bitmap_empty
- bitmap_from_string
- bitmap_hash
- bitmap_has_any
- bitmap_intersect
- bitmap_max
- bitmap_min
- bitmap_or
- bitmap_remove
- bitmap_to_array
- bitmap_to_base64
- base64_to_bitmap
- bitmap_to_string
- bitmap_union
- bitmap_union_count
- bitmap_union_int
- bitmap_xor
- intersect_count
- sub_bitmap
- to_bitmap
- JSON 函数
- Map 函数
- Bit 函数
- Binary 函数
- 加密函数
- 模糊/正则匹配函数
- 条件函数
- 百分位函数
- 标量函数
- 工具函数
- 地理位置函数
- cast 函数
- hash 函数
- 数学函数
- 系统变量
- 用户自定义变量
- 错误码
- 系统限制
- SQL参考
- 常见问题解答
- 性能测试
使用 HyperLogLog 实现近似去重
本文介绍如何通过 HLL(HyperLogLog)在 StarRocks 中实现近似去重。
HLL 是一种近似去重算法,在部分对去重精度要求不高的场景下,您可以选择使用 HLL 算法减轻数据去重分析的计算压力。根据数据集大小以及所采用的哈希函数的类型,HLL 算法的误差可控制在 1% 至 10% 左右。
创建包含 HLL 列的表
使用 HLL 去重,需要在建表语句中,将目标指标列的类型设置为 HLL,聚合函数设置为 HLL_UNION。只有聚合模型表 (Aggregate Key) 支持 HLL 类型列。
说明
您无需向 HLL 列导入数据。HLL 列的数据将根据您指定的
HLL_HASH
函数基于导入的数据自动生成。导入数据时,该函数将自动根据指定的列生成 HLL 列。HLL 算法常用于替代count distinct
,通过结合物化视图在业务上用于快速计算 uv。
以下示例创建 test
表,其中包含 DATE 数据类型列 dt
,INT 数据类型列 id
,以及 HLL 类型列 uv
,其使用的 HLL_HASH
函数为 HLL_UNION
。
CREATE TABLE test(
dt DATE,
id INT,
uv HLL HLL_UNION
)
DISTRIBUTED BY HASH(ID) BUCKETS 32;
注意
- 当前版本中, 仅聚合表支持 HLL 类型的指标列。
- 当数据量较大时,建议为高频率的 HLL 查询建立对应的物化视图。
导入数据
创建数据文件 test.csv 并将其导入先前创建的表 test
。
当前示例使用以下原始数据,其 10 行数据中有 3 行数据重复。
2022-03-10,0
2022-03-11,1
2022-03-12,2
2022-03-13,3
2022-03-14,4
2022-03-15,5
2022-03-16,6
2022-03-14,4
2022-03-15,5
2022-03-16,6
您可以通过 Stream Load 或者 Broker Load 模式导入 test.csv。
- Stream Load 模式:
curl --location-trusted -u <username>:<password> -H "label:987654321" -H "column_separator:," -H "columns:dt,id,uv=hll_hash(id)" -T test.csv http://fe_host:http_port/api/db_name/test/_stream_load
- Broker Load 模式:
LOAD LABEL test_db.label
(
DATA INFILE("hdfs://hdfs_host:hdfs_port/user/starRocks/data/input/file")
INTO TABLE `test`
COLUMNS TERMINATED BY ","
(dt, id, uv)
SET (
uv = HLL_HASH(id)
)
);
通过 HLL 聚合数据
您可以通过以下三种方式聚合数据加速查询。
- 基于示例表创建物化视图,使 HLL 列产生聚合。
ALTER TABLE test ADD ROLLUP test_rollup(dt, uv);
- 创建针对 HLL 列计算的新表,并插入原示例表中的相关数据。
create table test_uv1(
id int,
uv_set hll hll_union)
distributed by hash(id) buckets 32;
insert into test_uv1 select id, uv from test;
- 创建针对 HLL 列计算的新表,并插入通过
HLL_HASH
基于原示例表中相关数据生成的 HLL 列。
create table test_uv2(
id int,
uv_set hll hll_union)
distributed by hash(id) buckets 32;
insert into test_uv2 select id, hll_hash(id) from test;
查询数据
HLL 列不支持直接查询原始值。您可以通过函数 HLL_UNION_AGG
进行查询。
SELECT HLL_UNION_AGG(uv) FROM test;
返回如下:
+---------------------+
| hll_union_agg(`uv`) |
+---------------------+
| 7 |
+---------------------+
当在 HLL 类型列上使用 count distinct
时,StarRocks 会自动将其转化为 HLL_UNION_AGG(hll) 计算。所以以上查询等价于以下查询。
SELECT COUNT(DISTINCT uv) FROM test;
返回如下:
+----------------------+
| count(DISTINCT `uv`) |
+----------------------+
| 7 |
+----------------------+
选择去重方案
如果您的数据集基数在百万、千万量级,并拥有几十台机器,那么您可以直接使用 count distinct
方式。如果您的数据集基数在亿级以上,并且需要精确去重,那么您需要使用 Bitmap 去重。如果您选择近似去重,那么可以使用 HLL 类型去重。
Bitmap 类型仅支持 TINYINT,SMALLINT,INT,BIGINT(注意不支持 LARGEINT)去重。对于其他类型数据集去重,您需要构建词典,将原类型映射到整数类型。HLL 去重方式则无需构建词典,仅要求对应的数据类型支持哈希函数。
对于普通列,您还可以使用 NDV
函数进行近似去重计算。NDV
函数返回值是 COUNT(DISTINCT col)
结果的近似值聚合函数,底层实现将数据存储类型转为 HLL 类型进行计算。但 NDV
函数在计算的时候消耗资源较大,不适合于并发高的场景。
如果您的应用场景为用户行为分析,建议使用 INTERSECT_COUNT
或者自定义 UDAF 去重。
相关函数
- HLL_UNION_AGG(hll):此函数为聚合函数,用于计算满足条件的所有数据的基数估算。此函数还可用于分析函数,只支持默认窗口,不支持窗口子句。
- HLL_RAW_AGG(hll):此函数为聚合函数,用于聚合 HLL 类型字段,返回 HLL 类型。
- HLL_CARDINALITY(hll):此函数用于估算单条 HLL 列的基数。
- HLL_HASH(column_name:生成 HLL 列类型,用于
insert
或导入 HLL 类型。 - HLL_EMPTY():生成空 HLL 列,用于
insert
或导入数据时补充默认值。