检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
file_format 写入的文件格式,支持按CSV、Parquet、ORC、JSON、Avro格式。 file_format为csv时,options参数可以参考表3。 注意事项 通过配置“spark.sql.shuffle.partitions”参数可以设置非DLI表在OBS桶中插入的文件个数,同
参数 描述 是否必填 table 需要查询表的表名,支持database.tablename格式 是 clean_policy 清理老版本数据文件的策略,默认KEEP_LATEST_COMMITS 否 retain_commits 仅对KEEP_LATEST_COMMITS策略有效 否
ID。 请求消息 表2 请求参数说明 参数名称 是否必选 参数类型 说明 obs_dir 是 String OBS路径,用于保存导出的作业文件。 is_selected 是 Boolean 是否导出指定的作业。 job_selected 否 Array of Longs 当“is
Jar作业,在应用程序、其他依赖文件选择步骤3导入Flink Jar,并指定主类。 主要参数的填写说明: 所属队列:选择Flink Jar作业运行的队列。 应用程序:自定义的程序包 主类:指定 类名:输入类名并确定类参数列表(参数间用空格分隔)。 其他依赖文件:自定义的依赖文件。选择2和4导入的jks和properties文件。
Access Key sk:账号 Secret Access Key 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放, 使用时解密, 确保安全。 本示例以ak和sk保存在环境变量中为例,运行本示例前请先在本地环境中设置环境变量xxx_SDK_AK和xxx_SDK_SK。
应jar包文件的OBS路径,格式为:obs://桶名/文件夹路径名/包名。 依赖python文件(--py-files) 运行spark作业依赖的py-files。可以输入Python文件名称,也可以输入Python文件对应的OBS路径,格式为:obs://桶名/文件夹路径名/文件名。
内置依赖包请参考DLI内置依赖包。 其他依赖文件 用户自定义的依赖文件。其他依赖文件需要自行在代码中引用。 依赖文件的管理方式: 上传OBS管理程序包:提前将对应的依赖文件上传至OBS桶中。并在此处选择对应的OBS路径。 上传DLI管理程序包:提前将对应的依赖文件上传至OBS桶中,并在DLI管
登录MRS Manager界面。 选择“系统 > 权限 > 用户”。 单击“更多 > 下载认证凭据”,保存后解压得到用户的keytab文件与krb5.conf文件。 上传认证凭证到OBS桶。 关于如何创建OBS桶并上传数据,请参考《对象存储服务快速入门》。 创建跨源认证。 登录DLI管理控制台。
字符码不一致导致数据乱码怎么办? 删除表后再重新创建同名的表,需要对操作该表的用户和项目重新赋权吗? DLI分区内表导入的文件不包含分区列的数据,导致数据导入完成后查询表数据失败怎么办? 创建OBS外表,由于OBS文件中的某字段存在换行符导致表字段数据错误怎么办? join表时没有添加on条件,造成笛卡尔积查
module_name 否 String 资源模块名 module_type 否 String 资源模块类型。 jar:用户jar文件; pyFile:用户python文件; file:用户文件。 表4 details参数说明 参数名称 是否必选 参数类型 说明 create_time 否 Long
/opt/livy/repl_2.11-jars/livy-repl_2.11-0.7.2.0107.jar 修改DLI Livy工具配置文件。 编辑修改配置文件“ /opt/livy/conf/livy-client.conf”。 vi /opt/livy/conf/livy-client
Access Key sk:账号 Secret Access Key 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放, 使用时解密, 确保安全。 本示例以ak和sk保存在环境变量中为例,运行本示例前请先在本地环境中设置环境变量xxx_SDK_AK和xxx_SDK_SK。
目录已经存在,系统将返回错误信息,无法执行导出操作。 “Overwrite”:覆盖。在指定目录下新建文件,会删除已有文件。 data_path 是 String 导入或导出的文件路径。 data_type 是 String 导入或导出的数据类型(当前支持csv和json格式)。 database_name
单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager.out文件查看结果日志。 数据结果参考如下: +I(fz-source-json,0,{}
单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager.out文件查看结果日志。 父主题: Hudi
(可选)配置主机的host文件提高Kyuubi的访问效率 为了提高Kyuubi的访问效率,建议在主机的/etc/hosts 配置Kyuubi主机IP的映射关系。 执行ifconfig查看主机IP地址。 图2 查看主机IP地址 将该IP配置在/etc/hosts文件中。 图3 在/etc/hosts文件中配置IP地址
获取委托的临时AKSK、Flink SQL UDF 获取委托的临时AKSK场景。请参考Flink作业委托场景开发指导。 Flink 1.15 Jar 读取用户自定义配置文件的方式相比Flink 1.12存在差异。详细操作说明请参考使用Flink Jar写入数据到OBS开发指南。 Flink 1.15 Jar
用户已上传到DLI资源管理系统的资源包名,用户自定义作业的依赖文件。 示例:"myGroup/test.cvs,myGroup/test1.csv"。 通过在应用程序中添加以下内容可访问对应的依赖文件。其中,“fileName”为需要访问的文件名,“ClassName”为需要访问该文件的类名。 ClassName
原因分析 Flink jar包冲突。用户提交的flink jar 与 DLI 集群中的hdfs jar包存在冲突。 处理步骤 1. 将用户pom文件中的的hadoop-hdfs设置为: <dependency> <groupId>org.apache.hadoop</groupId>
按照如下操作查看taskmanager.out文件中的数据结果。 登录DLI管理控制台,选择“作业管理 > Flink作业”。 单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager