检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CREATE CATALOG语句 功能描述 根据给定的属性创建catalog。如果已经存在同名catalog会抛出异常。 语法定义 CREATE CATALOG catalog_name WITH (key1=val1, key2=val2, ...) 语法说明 WITH OPTIONS
其他函数 数组函数 表1 数组函数表 函数 返回值类型 描述 CARDINALITY(ARRAY) INT 返回数组的元素个数。 ELEMENT(ARRAY) - 使用单个元素返回数组的唯一元素。 如果数组为空,则返回null。如果数组有多个元素,则抛出异常。 示例: 返回数组的元素个数为3。
窗口 GROUP WINDOW 语法说明 Group Window定义在GROUP BY里,每个分组只输出一条记录,包括以下几种: time_attr可以设置processing-time或者event-time。 time_attr设置为event-time时参数类型为bigint或者timestamp类型。
MySink", type_class_parameter = "" ); 自定义sink类实现,需要将该类打在jar包中,通过sql编辑页上传udf函数按钮上传。 父主题: 自拓展生态
集合运算SELECT UNION INTERSECT EXCEPT 父主题: Spark SQL语法参考(即将下线)
自定义函数 创建函数 删除函数 显示函数详情 显示所有函数 父主题: Spark SQL语法参考(即将下线)
创建OBS表 使用DataSource语法创建OBS表 使用Hive语法创建OBS表 父主题: Spark SQL语法参考(即将下线)
函数 自定义函数 自定义函数类型推导 自定义函数参数传递 内置函数 父主题: Flink Opensource SQL1.12语法参考
函数 自定义函数 自定义函数类型推导 自定义函数参数传递 内置函数 父主题: Flink Opensource SQL1.15语法参考
TIMESTAMP BY car_timestamp.rowtime; 自定义source类实现,需要将该类打在jar包中,通过sql编辑页上传udf函数按钮上传。 父主题: 自拓展生态
如何合并小文件 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 设置配置项。 spark.sql.shuffle.partitions = 分区数量(即此场景下最终生成的文件数量) 执行SQL。 INSERT OVERWRITE
只支持清除DLI表或者OBS表的数据。 示例 1 truncate table test PARTITION (class = 'test'); 父主题: Spark SQL语法参考(即将下线)
udaf_test(attr2) FROM source_stream GROUP BY attr1; 父主题: Flink SQL语法参考(不再演进,推荐使用Flink OpenSource SQL)
Postgres的CDC源表,即Postgres的流式源表,用于依次读取PostgreSQL数据库全量快照数据和变更数据,保证不多读一条也不少读一条数据。即使发生故障,也能采用Exactly Once方式处理。 前提条件 PostgreSQL CDC要求Postgre版本为9.6或者10,11,12。
maxwell-json.timestamp-format.standard 否 'SQL' String 指定输入和输出时间戳格式。当前支持的值为“SQL”和“ISO-8601”: 'SQL'将以“yyyy-MM-dd HH:mm:ss.s{precision}”格式解析输入时间戳,例如'2020-12-30
(select_statement) sql_containing_cte_name; 关键字 cte_name:公共表达式的名字,不允许重名。 select_statement:完整的SELECT语句。 sql_containing_cte_name:包含了刚刚定义的公共表达式的SQL语句 注意事项
跨源连接HBase表 创建DLI表关联HBase 插入数据至HBase表 查询HBase表 父主题: Spark SQL语法参考(即将下线)
视图 创建视图 删除视图 父主题: Spark SQL语法参考(即将下线)
异常检测 异常检测应用场景相当广泛,包括了入侵检测,金融诈骗检测,传感器数据监控,医疗诊断和自然数据检测等。异常检测经典算法包括统计建模方法,基于距离计算方法,线性模型和非线性模型等。 我们采用一种基于随机森林的异常检测方法: One-pass算法,O(1)均摊时空复杂度。 随机
实时聚类 聚类算法是非监督算法中非常典型的一类算法,经典的K-Means算法通过提前确定类别数目,计算数据点之间的距离来分类。对于离线静态数据集,我们可以依赖领域中知识来确定类别数目,运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据,数据是在不断变化和演进,