聚合函数 | StarRocks

📄️ any_value

any_value 在 GROUP BY 聚合中从每个分组中随机选择一行返回。

📄️ approx_count_distinct

approx_count_distinct 返回类似 COUNT(DISTINCT col) 的近似值，速度更快且使用固定大小内存。

📄️ approx_top_k

approx_top_k 返回表达式中最常出现的 k 个项目及其近似出现次数。

📄️ avg

avg 返回选中字段的平均值。

📄️ bitmap

bitmap 聚合函数用于 Bitmap 数据类型，需要建立聚合表并使用 bitmap_union 聚合函数。

📄️ bool_or

bool_or 如果任意行的表达式结果为 true 则返回 true，否则返回 false。

📄️ corr

corr 返回两个表达式的皮尔逊相关系数，支持作为窗口函数使用。

📄️ count

count 计算行数，支持 COUNT(*)、COUNT(expr) 和 COUNT(DISTINCT expr) 三种形式。

📄️ count_if

count_if 计算满足指定条件的记录数，内部转化为 COUNT 和 IF 的组合。

📄️ covar_pop

covar_pop 返回两个表达式的总体协方差，支持作为窗口函数使用。

📄️ covar_samp

covar_samp 返回两个表达式的样本协方差，支持作为窗口函数使用。

📄️ ds_hll_accumulate

将值累积到 HyperLogLog 草图中，并返回序列化的草图作为 VARBINARY。此函数是 DataSketches HLL 近似去重计数函数族的一部分。

📄️ ds_hll_combine

将多个序列化的 HyperLogLog 草图合并为单个序列化草图。此函数是 DataSketches HLL 近似去重计数函数族的一部分。

📄️ ds_hll_count_distinct

返回聚合函数的近似值，结果类似于 COUNT(DISTINCT col)。相似函数为 APPROXCOUNTDISTINCT(expr)。

📄️ ds_hll_estimate

从序列化的 HyperLogLog 草图估算近似去重计数。此函数是 DataSketches HLL 近似去重计数函数族的一部分。

📄️ ds_theta_count_distinct

返回类似于 COUNT(DISTINCT col) 结果的聚合函数的近似值。dsthetacount_distinct 比 COUNT(DISTINCT col) 更快，并且在处理高基数列时使用更少的内存。

📄️ group_concat

group_concat 将分组中的多个非 NULL 值连接成字符串，支持 DISTINCT、ORDER BY 和自定义分隔符。

📄️ grouping

grouping 判断列是否为聚合列，是则返回 0，否则返回 1。

📄️ grouping_id

grouping_id 用于区分相同分组标准的分组统计结果。

📄️ hll_raw_agg

hll_raw_agg 聚合 HLL 类型字段，返回 HLL 类型用于近似 COUNT(DISTINCT)。

📄️ hll_union

hll_union 返回一组 HLL 值的并集。

📄️ hll_union_agg

hll_union_agg 将多个 HLL 类型数据合并成一个 HLL，基于 HyperLogLog 算法实现。

📄️ mann_whitney_u_test

mann_whitney_u_test 对来自两个总体的样本执行 Mann-Whitney 非参数检验。

📄️ max

max 返回表达式的最大值。

📄️ max_by

max_by 返回与 y 的最大值关联的 x 值。

📄️ min

min 返回表达式的最小值。

📄️ min_by

min_by 返回与 y 的最小值关联的 x 值。

📄️ MIN_N, MAX_N

Returns the n smallest or largest values from an expression as an array.

📄️ multi_distinct_count

multi_distinct_count 返回表达式中去除重复值后的行数，等同于 COUNT(DISTINCT expr)。

📄️ multi_distinct_sum

multi_distinct_sum 返回表达式中去除重复值后的总和，等同于 SUM(DISTINCT expr)。

📄️ percentile_approx

percentile_approx 计算百分位数的近似值，支持单个或多个百分位，使用固定大小内存。

📄️ percentile_approx_weight

计算指定百分位数的加权近似值。百分位数参数 p 可以是一个值或一个数组。percentileapproxweight 是 PERCENTILE_APPROX 的加权版本，允许用户为每个输入值指定一个权重（一个常量值或数值列）。

📄️ percentile_cont

percentile_cont 计算精确百分位数，使用连续分布模型进行线性插值。

📄️ percentile_disc

percentile_disc 计算百分位数，未找到匹配值时返回较大的相邻值。

📄️ percentile_disc_lc

percentile_disc_lc 计算百分位数，使用 hash 表实现，低基数输入时内存占用少。

📄️ retention

计算一段时间内用户的留存率，接收1到31个条件并返回由0和1组成的数组。

📄️ std

返回表达式的标准差，支持作为窗口函数使用。

📄️ stddev, stddev_pop, std

返回表达式的总体标准差，支持作为窗口函数使用。

📄️ stddev_samp

返回表达式的样本标准差，支持作为窗口函数使用。

📄️ sum

返回指定列所有值的总和，忽略NULL值并支持DISTINCT运算符。

📄️ sum_map

Aggregates MAP values by summing numeric values for matching keys across multiple rows.

📄️ var_samp, variance_samp

返回表达式的样本方差，支持作为窗口函数使用。

📄️ variance, var_pop, variance_pop

返回表达式的总体方差，支持作为窗口函数使用。

📄️ window_funnel

在滑动时间窗口内搜索事件链并计算最大连续事件数的漏斗函数。