检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Spark Jar作业读取和查询OBS数据 操作场景 DLI完全兼容开源的Apache Spark,支持用户开发应用程序代码来进行作业数据的导入、查询以及分析处理。本示例从编写Spark程序代码读取和查询OBS数据、编译打包到提交Spark Jar作业等完整的操作步骤说明来帮助您在DLI上进行作业开发。
hoodie.datasource.hive_sync.partition_extractor_class 用于提取hudi分区列值,将其转换成hive分区列。 org.apache.hudi.hive.SlashEncodedDayPartitionValueExtractor
Jar作业时,可以在作业编辑页面,勾选“保存作业日志”参数,将作业运行时的日志信息保存到OBS。 勾选“保存作业日志”参数后,需配置“OBS桶”参数,选择OBS桶用于保存用户作业日志信息。如果选择的OBS桶是未授权状态,需要单击“OBS授权”。 日志信息的保存路径为:“桶名/jobs/logs/作业id开头的目
Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。 Token可通过调用获取用户Token接口获取,调用本服务API需要project级别的Token,即调用获取用户Token接口时,请求body中auth.scope的取值需要选择project,如下所示。 {
该场景作业需要运行在DLI的独享队列上,因此要与DWS集群建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 Flink跨源开发场景中直接配置跨
String 全局变量值。 project_id 否 String 项目ID。 user_id 否 String 用户ID。 user_name 否 String 用户名。 is_sensitive 否 Boolean 是否设置为敏感变量。 create_time 否 Long 创建时间。
强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 若使用MRS HBase,请在增强型跨源的主机信息中添加MRS集群所有节点的主机ip信息。 详细操作请参考《数据湖探索用户指南》中的“修改主机信息”章节描述。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。
该场景作业需要运行在DLI的独享队列上,因此要与DWS集群建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 Flink跨源开发场景中直接配置跨
DATE 将string2格式的日期字符串,转换为DATE类型 string2默认格式为 'yyyy-MM-dd' TO_TIMESTAMP(string1[, string2]) TIMESTAMP 将string2格式的日期时间字符串转换为TIMESTAMP类型 string2默认格式为'yyyy-MM-dd
该场景作业需要运行在DLI的独享队列上,因此要与DWS集群建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 Flink跨源开发场景中直接配置跨
FROM nation, region; INNER JOIN 两个表中至少存在一个相匹配的数据时才返回行,等价于JOIN。也可以转换为等价的WHERE语句,转换方式如下: SELECT * FROM nation (INNER) JOIN region ON nation.name=region
S),MapReduce服务MRS,云数据库RDS等。使用DLI的跨源能力,需要先创建跨源连接。 管理控制台界面具体操作请参考《数据湖探索用户指南》。 使用Spark作业跨源访问数据源支持使用scala,pyspark和java三种语言进行开发。 表格存储服务CloudTable
参数 是否必选 参数类型 说明 str 是 STRING 如果输入为BIGINT、DECIMAL、DOUBLE或DATETIME类型,则会隐式转换为STRING类型后参与运算。 start_position 是 BIGINT 表示起始位置。默认起始位置为1。 如果start_posi
yyyy-mm-dd yyyy-mm-dd hh:mi:ss yyyy-mm-dd hh:mi:ss.ff3 format 是 STRING 代表需要转换的目标日期格式。 format:格式为代表年月日时分秒的时间单位与任意字符的组合,其中: yyyy代表年份。 MM代表月份。 返回值说明
(property_name=property_value, property_name=property_value, ...)]可利用以下语句实现NULL值转换为空字符串。 ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
数据类型是数据的一个基本属性,用于区分不同类型的数据。不同的数据类型所占的存储空间不同,能够进行的操作也不相同。数据库中的数据存储在表中。表中的每一列都定义了数据类型,用户存储数据时,须遵从这些数据类型的属性,否则可能会出错。 DLI当前只支持原生数据类型。 父主题: 数据类型
账号状态,账号不能处于欠费或冻结状态。 配置DLI委托访问授权 DLI使用过程中涉及到OBS、VPC、SMN等服务交互,首次使用DLI需要用户配置委托授权,允许访问这些依赖服务。 使用华为云账号登录DLI管理控制台,在左侧导航栏单击“全局配置 > 服务授权”。 在委托设置页面,勾
强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 若使用MRS HBase,请在增强型跨源的主机信息中添加MRS集群所有节点的主机ip信息。 详细操作请参考《数据湖探索用户指南》中的“修改主机信息”章节描述。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。
特性,适合在大规模消息处理场景中使用。 前提条件 Kafka是线下集群,需要通过增强型跨源连接功能将Flink作业与Kafka进行对接。且用户可以根据实际所需设置相应安全组规则。 注意事项 对接的Kafka集群不支持开启SASL_SSL。 语法格式 1 2 3 4 5
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36" "2.75" 用户可按下述操作查看输出结果: 方法一:"更多" -> "FlinkUI" -> "Task Managers" -> "Stdout"。 方