检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当编码格式为json(append为false)、avro_merge和parquet时,可通过配置该参数指定真正需要编码的数据,格式为${field_name},表示直接将该流字段的内容作为一个完整的记录进行编码。 注意事项 当配置项支持参数化时,表示将记录中的一列或者多列作为该配置项的一部分
与数据治理中心(DataArts Studio)的关系 在数据治理中心DataArts Studio中,数据开发是一个一站式的大数据协同开发平台,提供全托管的大数据调度能力。它可管理多种大数据服务,极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。 通过数据治理中心的DLI SQL节点传递SQL语句到DLI中执行,请参考《DLI
当编码格式为json(append为false)、avro_merge和parquet时,可通过配置该参数指定真正需要编码的数据,格式为${field_name},表示直接将该流字段的内容作为一个完整的记录进行编码。 注意事项 当配置项支持参数化时,表示将记录中的一列或者多列作为该配置项的一部分
在实际作业运行中,由于作业的数据流量变化,导致所需计算资源不同,造成流量较小时计算资源浪费,流量较大时计算资源不足以满足计算所需。 DLI提供的动态扩缩容功能可以根据当前作业的负载情况,例如:数据输入输出量、数据输入输出速率、反压等情况,动态的调整当前作业所用的计算资源,提升资源利用率。
DLI将边缘作业分析处理过的数据,写入到EdgeHub中,便于后续进行处理。 适用于物联网IOT场景,将实时流计算能力从云端延伸到边缘,在边缘快速实现对流数据实时、快速、准确地分析处理,增加数据处理计算的速度和效率。同时将数据在边缘预处理,可以有效减少无效的数据上云,减少资源消耗,提升
函数通过时间属性字段为每一行数据分配了一个窗口。 在流计算模式,这个时间属性字段必须被指定为事件或处理时间属性。在批计算模式,这个窗口表函数的时间属性字段必须是 TIMESTAMP 或 TIMESTAMP_LTZ 的类型。 HOP 的返回值包括原始表的所有列和附加的三个用于指定窗口的列,分别是:
数据保护技术 数据存储安全 为了确保您的个人敏感数据(例如用户名、密码、手机号码等)不被未经过认证、授权的实体或者个人获取,DLI对用户数据的存储和传输进行加密保护,以防止个人数据泄露,保证您的个人数据安全。 数据销毁机制 用户删除DLI队列后,存储在集群上的用户个人敏感数据会随之删除。
Process,简称CEP)用来检测无尽数据流中的复杂模式,拥有从不同的数据行中辨识查找模式的能力。模式匹配是复杂事件处理的一个强大援助。 例子包括受一系列事件驱动的各种业务流程,例如在安全应用中侦测异常行为;在金融应用中查找价格、交易量和其他行为的模式。其他常见的用途如欺诈检测应用和传感器数据的分析等。 语法格式
同时根据读取的数据生成新的数据或对数据进行修改。 使用Hive和Datasource(除Hudi外)表在执行数据修改类命令(例如insert into,load data)时由于数据源不支持事务性,在系统故障或队列资源重启后,可能会导致数据重复或数据不一致等问题。 为了避免这种情
怎样查看DLI的数据扫描量? 登录DLI管理控制台。 选择“作业管理 > SQL作业”。 筛选执行队列为default队列,查看相应的作业。 单击展开作业,查看已扫描的数据。如图1所示。 图1 查看作业扫描量 父主题: 计费相关问题
行,即为数据倾斜的情况。 图1 数据倾斜样例 常见数据倾斜场景 Group By聚合倾斜 在执行Group By聚合操作时,如果某些分组键对应的数据量特别大,而其他分组键对应的数据量很小,在聚合过程中,数据量大的分组会占用更多的计算资源和时间,导致处理速度变慢,出现数据倾斜。 JOIN
需要执行Truncate命令的DLI表或者OBS表的名称。 partcol1 需要删除的DLI表或者OBS表的分区名称。 注意事项 只支持清除DLI表或者OBS表的数据。 示例 1 truncate table test PARTITION (class = 'test'); 父主题:
1996; 96 M 月份 July; Jul; 07 w 年中的周数 27(该年的第27周) W 月中的周数 2(该月的第2周) D 年中的天数 189(该年的第189天) d 月中的天数 10(该月的第10天) u 星期中的天数 1 = 星期一, ..., 7 = 星期日 a am/pm
Process,简称CEP)用来检测无尽数据流中的复杂模式,拥有从不同的数据行中辨识查找模式的能力。模式匹配是复杂事件处理的一个强大援助。 例子包括受一系列事件驱动的各种业务流程,例如在安全应用中侦测异常行为;在金融应用中查找价格、交易量和其他行为的模式。其他常见的用途如欺诈检测应用和传感器数据的分析等。 语法格式
一个CU为1核4G的资源量。CU数量范围为2~10000个。 管理单元 设置管理单元的CU数。 并行数 作业的并行数是指作业中各个算子的并行执行的子任务的数量,即算子子任务数就是其对应算子的并行度。 说明: 并行数不能大于计算单元(CU数量-管理单元CU数量)的4倍。 并行数应大
随机森林结构仅构造一次,模型更新仅仅是节点数据分布值的更新。 节点存储多个窗口的数据分布信息,能够检测数据分布变化。 异常检测和模型更新在同一个代码框架中完成。 语法格式 1 SRF_UNSUP(ARRAY[字段1, 字段2, ...], '可选参数列表') 函数输出为[0, 1]区间的DOUBLE值,表示数据的异常打分。
DLI分区内表导入的文件不包含分区列的数据,导致数据导入完成后查询表数据失败怎么办? 问题现象 DLI分区内表导入了CSV文件数据,导入的文件数据没有包含对应分区列的字段数据。分区表查询时需要指定分区字段,导致查询不到表数据。 问题根因 DLI分区内表在导入数据时,如果文件数据没有包含分
怎样升级DLI作业的引擎版本 DLI提供了Spark和Flink计算引擎,为用户提供了一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务,当前,Flink计算引擎推荐版本:Flink 1.15,Spark计算引擎推荐版本: Spark 3.3.1。 本节操作介绍如何升级作业的引擎版本。
expression) DOUBLE 返回所有输入值之间的数字字段的样本方差 FIRST_VALUE(expression) 数据实际类型 返回有序数据中的第一个数据 LAST_VALUE(expression) 数据实际类型 返回有序数据中的最后一个数据 父主题: 内置函数
随机森林结构仅构造一次,模型更新仅仅是节点数据分布值的更新。 节点存储多个窗口的数据分布信息,能够检测数据分布变化。 异常检测和模型更新在同一个代码框架中完成。 语法格式 1 SRF_UNSUP(ARRAY[字段1, 字段2, ...], '可选参数列表') 函数输出为[0, 1]区间的DOUBLE值,表示数据的异常打分。