检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
长后也不会超过10G)需要针对具体场景来进行例外处理: 持续大量新增数据的维度表 方法一:预留桶数,如使用非分区表则需通过预估较长一段时间内的数据增量来预先增加桶数,缺点是随着数据的增长,文件依然会持续膨胀; 方法二:大粒度分区(推荐),如果使用分区表则需要根据数据增长情况来计算
根据kafka和ecs所在的虚拟私有云和子网创建相应的跨源,并绑定所要使用的队列。然后设置安全组,入向规则,使其对当前将要使用的队列放开,并根据kafka和ecs的地址测试队列连通性(通用队列-->找到作业的所属队列-->更多-->测试地址连通性-->输入kafka或ecs的地址-->
授权DLI读写OBS的权限并不包含在的DLI委托dli_management_agency中。需要您创建自定义委托,并将委托配置在作业中(使用Flink 1.15和Spark 3.3及以上版本的引擎执行作业时需要配置)。 了解dli_management_agency请参考DLI委托概述。 创
在“作业管理”>“Flink作业”页面找到对应的作业。 在对应作业的“操作”栏中选择“更多”>“权限管理”。 图1 Flink作业权限管理 在“授权”页面输入需要授权的用户名,勾选需要的权限。确认后,被授权用户就可以查看该作业,并且执行对应操作。 图2 授权 IAM授权管理 登录统一身份认证IAM控制台,在“权限”页面,单击“创建自定义权限”。
参数描述 参数 描述 table_name 需要清理无效数据文件的Hudi表的表名,必选。 op_type 命令运行模式,可选,默认值为dry_run,取值:dry_run、repair、undo、query。 dry_run:显示需要清理的无效数据文件。 repair:显示并清理无效的数据文件。
在自定义模板列表中,选择一个需要修改的模板,单击模板名称或该模板“操作”列中的“编辑”,进入“编辑”页面。 在SQL语句编辑区,根据需要修改SQL语句。 “保存方式”选择“修改”。 单击右上角“保存”,保存当前模板修改的内容。 删除模板 用户可以根据需求删除不需要的自定义模板,不支持删
Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。 Token可通过调用获取用户Token接口获取,调用本服务API需要project级别的Token,即调用获取用户Token接口时,请求body中auth.scope的取值需要选择project,如下所示。
date 是 DATE 或 STRING 代表需要判断的字符串。 如果输入为BIGINT、DOUBLE、DECIMAL或DATETIME类型,会隐式转换为STRING类型后参与运算 格式为任意字符串。 format 是 STRING 代表需要转换的目标日期格式。 STRING类型常量,不支持日期扩展格式。
说明 a 是 DOUBLE、BIGINT、DECIMAL、STRING类型。 代表需要被四舍五入的值。 参数a的格式包括浮点数格式、整数格式、字符串格式。 d 否 INT类型。 默认值:0。 代表需要四舍五入到的位数。 参数d非INT类型时,会隐式转换为INT类型后参与运算。 返回值说明
default队列适用小规模或临时的数据处理需求。对于重要的或需要保证资源的作业,建议购买弹性资源池并在弹性资源池中创建队列来执行作业。 SQL队列: SQL队列是用于执行SQL作业的队列,支持指定引擎类型包括Spark和HetuEngine。 SQL队列适用于需要快速数据查询和分析,以及需要定期清理缓存或重置环境的业务。
在DLI管理控制台左侧,选择“资源管理 > 队列管理”。 选择待修改的队列,单击“操作”列“更多”中的“修改网段”。 图1 修改网段 填写需要的网段后,单击“确定”。队列修改网段成功后,需要等待5~10分钟,待队列所属集群资源重新拉起后再运行作业。 建议使用网段: 10.0.0.0~10.255.0.0/8~24
依赖版本变化,有影响,需要排查是否涉及。 PySpark-pandas支持版本变更 说明: Spark2.4.x:在Spark 2.4.x版本中,PySpark并没有要求指定Pandas的版本。 Spark3.3.x:从Spark 3.3.x版本开始,PySpark需要0.23.2或更
格优惠且在周期内独享计算资源。 按需计费以小时为单位进行扣费。按需计费又分为按CU时计费和按扫描数据量计费,这两种计费方式是互斥的,可根据需要选择其中一种。建议优先选择按CU时计费,可资源独享,且成本核算清晰。同时,按CU时计费还提供套餐包的购买和使用。 CU时资费=CU数*使用
者执行已经生成的compaction计划(op指定为“run”) 是 table 需要查询表的表名,支持database.tablename格式 table,path须选填其中之一 path 需要查询表的路径 table,path须选填其中之一 timestamp 在op指定为“
参数类型 说明 date 是 DATE或STRING 需要处理的日期。 格式: yyyy-mm-dd yyyy-mm-dd hh:mi:ss yyyy-mm-dd hh:mi:ss.ff3 format 是 STRING 代表需要转换的目标日期格式。 format:格式为代表年月日
DLI可以通过增强型跨源连接功能将Flink作业的输出数据写入到OpenTSDB中。 前提条件 确保已经开启OpenTSDB服务。 该场景作业需要运行在DLI的独享队列上,因此在DLI上要与OpenTSDB建立增强型跨源连接,且用户可以根据实际所需设置相应的安全组规则。 如何建立增强
使用Hive语法创建OBS表 defalut方言: with 属性中需要设置hive.is-external为true。 使用hive 方言:建表语句需要使用EXTERNAL关键字。 使用hive语法的DLI Lakehouse表 使用hive 方言:表属性中需要添加'is_lakehouse'='true'。
处,“Flink版本”需要选择“1.12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 若未在创建Redis结果表的语句中定义Redis key的字段,则会使用生成的uuid作为key。 若需要指定Redis中的key,则需要在flink的Redis
单数据等结构化、半结构化的KeyValue数据存储。 利用DLI,用户可方便地将海量数据高速、低时延写入HBase。 前提条件 该场景作业需要运行在DLI的独享队列上,因此要与HBase建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考
要操作。 表1 使用DLI提交SQL作业查询RDS MySQL数据的操作流程 操作步骤 说明 步骤1:创建RDS MySQL实例 样例场景需要创建RDS MySQL实例。 步骤2:创建RDS数据库表 登录RDS实例创建数据库和表。 步骤3:创建弹性资源池并添加队列 创建提交作业所需的计算资源。