检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
支持统计SQL作业的CPU消耗 支持在控制台查看“CPU累计使用量”。 支持容器集群Spark日志跳转查看 需要在容器查看日志。 支持动态加载UDF(公测) 无需重启队列UDF即可生效。 Spark UI支持火焰图 Spark UI支持绘制火焰图。 优化SQL作业NOT IN语句查询性能 NOT IN语句查询性能提升。
创建DLI自定义委托权限 使用Flink 1.15和Spark 3.3及以上版本的引擎执行作业时,当您所需的委托没有包含在DLI系统委托dli_management_agency时,您需要在IAM页面创建相关委托,并在作业配置中添加新建的委托信息。dli_management_a
典型场景DLI委托权限配置示例 表1 DLI委托权限配置场景开发指南 类型 操作指导 说明 Flink作业场景 Flink Opensource SQL使用DEW管理访问凭据 Flink Opensource SQL场景使用DEW管理和访问凭据的操作指导,将Flink作业的输出数
min(),否则提示异常。 dli.jobs.sql.resubmit.enable null 通过设置该参数可以控制在driver故障、队列重启时Spark SQL作业是否重新提交。 false:禁用作业重试,所有类型的命令都不重新提交,一旦driver故障,作业将标记为失败(FAILED)。
'price') Hudi表必须配置precombine字段。 在数据同步过程中不可避免会出现数据重复写入、数据乱序问题,例如:异常数据恢复、写入程序异常重启等场景。通过设置合理precombine字段值可以保证数据的准确性,老数据不会覆盖新数据,也就是幂等写入能力。该字段可用选择的类型包括:业
double, map<string, string>, timestamp(3), time。 为了避免数据丢失或者数据被覆盖,开启作业异常自动重启,需要配置为“从checkpoint恢复”。 checkpoint间隔设置需在输出文件实时性、文件大小和恢复时长之间进行权衡,比如10分钟。
”,保存作业的状态信息。 权限管理:查看作业对应的用户权限信息以及对其他用户授权。 运行时配置:支持作业在运行时配置作业异常告警和异常自动重启。 查看Flink作业详情 用户作业创建完成并保存后,用户可以单击作业名查看作业的详细信息,包括作业的SQL语句和参数设置信息,如果是 jar作业只可以看到参数设置信息。
entrypoint_args 否 String 作业入口类参数,多个参数之间空格分隔。 restart_when_exception 否 Boolean 是否开启异常重启功能,默认值为“false”。 entrypoint 否 String 用户已上传到DLI资源管理系统的程序包名,用户自定义作业主类所在的jar包。
例如:obs://rest-authinfo/tools/oracle/driver/ojdbc6.jar resource中定义的driver jar包如果被更新,需要重启队列,才会生效。 示例 创建Oracle跨源表 1 2 3 4 5 6 7 8 9 CREATE TABLE IF NOT EXISTS oracleTest
于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对DLI服务,管理员能够控制IAM用户仅能对某一类云服务器资源进行指定的管理操作。 了解DLI SQL常用操作与系统策略的授权关系,请参考常用操作与系统权限关系。 表1 DLI系统权限 系统角色/策略名称
MRS集群请开启Kerberos认证。 在”组件管理 > Kafka > 服务配置”中查找配置项“ssl.mode.enable”,并设置为“true”,并重启kafka。 登录MRS集群的Manager,下载用户凭据:“系统设置 > 用户管理” ,单击用户名后的“更多 > 下载认证凭据”。 根据用户凭据生成相应的truststore
String 当作业异常时,向该SMN主题推送告警信息。 restart_when_exception 否 Boolean 是否开启作业异常自动重启。默认为“false”。 idle_state_retention 否 Integer 空闲状态过期周期,单位为秒,默认值为“3600”。
entrypoint_args 否 String 作业入口类参数,多个参数之间空格分隔。 restart_when_exception 否 Boolean 是否开启异常重启功能,默认值为“false”。 entrypoint 否 String 用户已上传到DLI资源管理系统的程序包名,用户自定义作业主类所在的jar包。
HTTP方法 方法 说明 GET 请求服务器返回指定资源。 PUT 请求服务器更新指定资源。 POST 请求服务器新增资源或执行特殊操作。 DELETE 请求服务器删除指定资源,如删除对象等。 HEAD 请求服务器资源头部。 PATCH 请求服务器更新资源的部分内容。 当资源不存在的
数据库时区。 这里它指向 'SYSTEM',也就是数据库服务器的系统时间('system_time_zone')。而这个系统时间在这里指向 CST,所以,最终数据库时区才是 CST。 time_zone 数据库所在服务器的时区,服务器是台主机。 如本地数据库所在计算机的默认时区是中国标准时间,则查出来
目录”。 说明: 如果同时勾选了“开启Checkpoint”和“保存作业日志”,OBS授权一次即可。 异常自动重启 设置是否启动异常自动重启功能,当作业异常时将自动重启并恢复作业。 勾选后需配置下列参数: “异常重试最大次数”:配置异常重试最大次数。单位为“次/小时”。 无限:无限次重试。
edge_group_ids 否 Array of Strings 边缘计算组ID列表。多个ID以逗号分隔。 restart_times 否 Integer 重启次数。 savepoint_path 否 String 手动产生的Checkpoint的保存路径。 表6 job_config参数说明 参数名称
删除队列 √ × √ √ SUBMIT_JOB 提交作业 √ × √ √ CANCEL_JOB 终止作业 √ × √ √ RESTART 重启队列 √ × √ √ GRANT_PRIVILEGE 队列的赋权 √ × √ √ REVOKE_PRIVILEGE 队列权限的回收 √ ×
SMN主题名。当作业异常时,向该SMN主题推送告警信息。 restart_when_exception 否 Boolean 是否开启异常重启功能。 resume_checkpoint 否 Boolean 异常自动重启时,是否从最新checkpoint恢复。默认值为“false”。 resume_max_num 否 Integer
流读,可以按照业务需要保留小时级的历史版本,这样的话近几个小时之内的增量数据可以通过log文件读出,如果保留时长过短,下游flink作业在重启或者异常中断阻塞的情况下,上游增量数据已经Clean掉了,flink需要从parquet文件读增量数据,性能会有下降;如果保留时间过长,会导致log里面的历史数据冗余存储。