检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。 表名 选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“testdlitable”。 导入前清空数据 选择导入前是否清空目的表的数据。当前示例选择为“否”。 如果设置为是,任务启动前会清除目标表中数据。
选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。 表名 选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“user_info”。 导入前清空数据 选择导入前是否清空目的表的数据。当前示例选择为“否”。 如果设置为是,任务启动前会清除目标表中数据。
请勿将该OBS桶用作其它用途,避免出现作业结果混乱等问题。 OBS桶需要由用户主账户统一设置及修改,子用户无权限。 不配置DLI作业桶无法查看作业日志。 您可以通过配置桶的生命周期规则,定时删除桶中的对象或者定时转换对象的存储类别。 DLI的作业桶设置后请谨慎修改,否则可能会造成历史数据无法查找。 操作步骤
使用跨源密码认证时配置为“true”。 partitionColumn 读取数据时,用于设置并发使用的数值型字段。 说明: “partitionColumn”、“lowerBound”、“upperBound”、“numPartitions”四个参数必须同时设置,不支持仅设置其中某一个或某几个。
SQL(set设置如下参数,写数据时触发) hoodie.archive.automatic=true hoodie.keep.max.commits=30 // 默认值为30,根据业务场景指定 hoodie.keep.min.commits=20 // 默认值为20,根据业务场景指定
PARTITIONS [catalog_name.][db_name.]table_name [PARTITION (partitionSpecs)]; 描述 这个表达式用于列出指定的的所有分区。 示例 SHOW PARTITIONS test PARTITION(hr = '12'
图6 新建Package和类文件 Package根据需要定义,本示例定义为:“com.huawei.demo”,完成后回车。 图7 自定义Package 在包路径下新建Java Class文件,本示例定义为:SumUdfDemo。 图8 新建Java Class文件 编写UDF函
管理队列 查看队列的基本信息 队列权限管理 分配队列至项目 创建消息通知主题 队列标签管理 队列属性设置 测试地址连通性 删除队列 变更普通队列规格 普通队列弹性扩缩容 设置普通队列的弹性扩缩容定时任务 修改普通队列的网段 父主题: 创建弹性资源池和队列
query参数说明 参数名称 是否必选 参数类型 说明 limit 否 Integer 每页显示的返回信息的个数,默认值为“100”。 offset 否 Integer 偏移量,默认值为“0”。 请求消息 无请求参数。 响应消息 表3 响应参数说明 参数名称 是否必选 参数类型 说明 is_success
创建Spark作业时选择的“所属队列”为创建跨源连接时所绑定的队列。 如果选择spark版本为2.3.2(即将下线)或2.4.5提交作业时,需要指定Module模块,名称为:sys.datasource.rds。 如果选择Spark版本为3.1.1及以上版本时,无需选择Module模块,
存储量套餐包 按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。 适用于在DLI 存储表数据的场景,例如时延敏感类的业务将表存储在DLI,使用存储量套餐包可以节省存储费用。 存储套餐的额度每个小时会重置。 按订购周期重置:如重置周期为月,且按订购周期重置,即如果用户1月5日订
// 设置两次checkpoint的最小间隔时间 streamEnv.getCheckpointConfig().setMinPauseBetweenCheckpoints(60000); // 设置checkpoint超时时间
通用队列操作OBS表如何设置AK/SK 如何查看DLI Spark作业的实际资源使用情况 将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库? 如何在DLI中运行复杂PySpark程序? 如何通过JDBC设置spark.sql
时间段的CU设置。 图3 队列test_a扩缩容策略结果图形化 参考创建弹性资源池并添加队列添加队列test_b,在添加队列扩缩容配置步骤里面添加扩缩容策略。 设置默认的时间段优先级为5,最小CU为32,最大CU为64。 单击“新增”,添加一个优先级为20,时间段为:10--23,最小CU为64,最大CU为128。
同一队列不同扩缩容策略的时间段区间不能有交集。 弹性资源池队列中的扩缩容策略时间段仅支持整点的时间段设置,并且包含设置的开启时间,不包含设置的结束时间,例如设置时间段00-09,则时间段范围为:[00:00,09:00)。默认的扩缩容策略不支持时间段配置修改。 弹性资源池扩缩容策略生效
enabled false 该参数设置为true: 当子查询中数据不重复的情况下,执行关联子查询,不需要对子查询的结果去重。 当子查询中数据重复的情况下,执行关联子查询,会提示异常,必须对子查询的结果做去重处理,比如max(),min()。 该参数设置为false: 不管子查询中数据
说明: 标签的键的最大长度为128个字符,标签的键可以包含任意语种字母、数字、空格和_ . : +-@ ,但首尾不能含有空格,不能以_sys_开头。 标签值 您可以选择: 在输入框的下拉列表中选择预定义标签值。 在输入框中输入标签值。 说明: 标签值的最大长度为255个字符,标签的值可以包含任意语种字母、数字、空格和_
单TM所占CU数 例如:CU数量为9CU,管理单元为1CU,最大并行数为16,则计算单元为8CU。 如果不手动配置TaskManager资源,则单TM所占CU数默认为1,单TM slot数显示值为0,但实际上,单TM slot数值依据上述公式计算结果为2。 如果手动配置TaskMa
csv 表头:无/有 当“文件格式”为“CSV”时该参数有效。设置导入数据源是否含表头。 选中“高级选项”,勾选“表头:无”前的方框,“表头:无”显示为“表头:有”,表示有表头;取消勾选即为“表头:无”,表示无表头。 - 自定义分隔符 当“文件格式”为“CSV”,勾选自定义分隔符前的方框时,该参数有效。
上述示例中,因为CSS安全集群关闭了https访问,所以“es.net.ssl”参数要设置为“false”。“es.net.http.auth.user”以及“es.net.http.auth.pass”为创建集群时设置的账号和密码。 插入数据 1 sparkSession.sql("insert