检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
优先推荐您使用控制台提供的“元数据来源”参数项进行配置。 Lakeformation 数据目录名称 配置Spark作业访问的数据目录名称。 此处选择的是在DLI管理控制台创建的数据目录,即DLI与Lakeformation默认实例下的数据目录的映射,该数据目录连接的是LakeForma
队列规格变更(扩容/缩容)。 状态 作业的状态信息,包括如下。 提交中 运行中 已成功 已取消 已失败 规格变更中 执行语句 作业的具体SQL语句以及导出、建表的操作,此处展示操作的描述。 单击可复制对应的语句。 运行时长 作业的运行时长。 创建时间 每个作业的创建时间,可按创建时间顺序或倒序显示作业列表。
b已创建的DLI数据源连接。 资源队列 选择已创建的DLI SQL类型的队列。 数据库名称 选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。 表名 选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“tablecss”。
输入便于记忆和区分的连接名称。 mysqllink 数据库服务器 MySQL数据库的IP地址或域名。 - 端口 MySQL数据库的端口。 3306 数据库名称 MySQL数据库的名称。 sqoop 用户名 拥有MySQL数据库的读、写和删除权限的用户。 admin 密码 用户的密码。 -
为每个Reader设置不同的Server ID 每个用于读取Binlog的MySQL客户端都应该有一个唯一的Server ID,确保MySQL服务器能够区分不同的客户端并维护各自的Binlog读取位置。 如果不同的作业共享相同的Server ID,可能会导致从错误的Binlog位置读取数据,从而引发数据不一致的问题。
已创建DLI的SQL队列。创建DLI队列的操作可以参考创建DLI队列。 创建DLI队列时队列类型需要选择为“SQL队列”。 已创建包含Kafka组件的MRS安全集群。具体创建MRS集群的操作可以参考创建MRS集群。 本示例创建的MRS集群版本为:MRS 3.1.0。 本示例创建的MRS集群开启了Kerberos认证。
b已创建的DLI数据源连接。 资源队列 选择已创建的DLI SQL类型的队列。 数据库名称 选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。 表名 选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“user_info”。
返回。比较器将使用两个可为空的参数,表示数组的两个可为空的元素。当第一个可为空的元素小于,等于或大于第二个可为空的元素时,它将返回-1、0或1。如果比较器函数返回其他值(包括NULL),则查询将失败并引发错误。 SELECT array_sort(ARRAY [3, 2, 5, 1
业,页面显示“批处理作业提交成功”说明Spark作业提交成功,可以在Spark作业管理页面查看提交的作业的状态和日志。 创建Spark作业时选择的“所属队列”为创建跨源连接时所绑定的队列。 如果选择spark版本为2.3.2(即将下线)或2.4.5提交作业时,需要指定Module模块,名称为:sys
您还可以通过自定义镜像增强DLI的计算环境,通过下载DLI提供的基础镜像再按需制作自定义镜像,将作业运行需要的依赖(文件、jar包或者软件)、私有能力等内置到自定义镜像中,可以改变Spark作业和Flink作业的容器运行环境,增强作业的功能、性能。 例如,在自定义镜像中加入机器学习相关的Python
仅在勾选该权限且更新DLI委托权限后的项目生效。未勾选该权限的项目不具备跨源场景所需权限、和SMN发送通知消息的权限。 示例1:在项目A配置DLI的基础使用、跨源场景、运维场景的权限和示例2:在项目B配置DLI的基础使用、跨源场景、运维场景的权限给出了同一个区域的不同项目更新DLI委托带来的委托权限差异。
描述:该函数返回类型为bigint,它提供了count(distinct x)的近似计数。如果所有输入都是null值,则返回0。 此函数所有可能的值相对于正确的值的误差服从近似正态分布,其标准差应小于e。它不保证任何特定输入集的误差的上限。 当前该函数的实现中,e的取值范围为[0.0040625,0.26000]。
供用户调用的方法,DLI只对这些方法的兼容性做出产品保证。 图4 配置参数 表3 参数说明 名称 描述 CU数量 一个CU为1核4G的资源量。CU数量范围为2~400个。 管理单元 设置管理单元的CU数,支持设置1~4个CU,默认值为1个CU。 并行数 作业中每个算子的最大并行数。
String 标签的键。 说明: 标签的键的最大长度为128个字符,标签的键可以包含任意语种字母、数字、空格和_ . : =+-@ ,但首尾不能含有空格,不能以_sys_开头。 value 是 String 标签的值。 说明: 标签值的最大长度为255个字符,标签的值可以包含任意语种字母、数字、空格和_
其他服务的操作权限。 CU数量 CU数量为DLI的计算单元数量和管理单元数量总和,CU也是DLI的计费单位,1CU=1核4G。 当前配置的CU数量为运行作业时所需的CU数,不能超过其绑定队列的CU数量。 说明: 当开启TaskManager配置时,为了优化弹性资源池队列的管理,在您设置“单TM
选择作业运行时使用的队列资源。 应用程序 选择Jar作业程序包。 Jar包的管理方式: 上传OBS管理程序包:提前将对应的jar包上传至OBS桶中。并在此处选择对应的OBS路径。 上传DLI管理程序包:提前将对应的jar包上传至OBS桶中,并在DLI管理控制台的“数据管理>程序包
这些函数假定输入字符串包含有效的UTF-8编码的Unicode代码点。不会显式检查UTF-8数据是否有效,对于无效的UTF-8数据,函数可能会返回错误的结果。可以使用from_utf8来更正无效的UTF-8数据。 此外,这些函数对Unicode代码点进行运算,而不是对用户可见的字符(或字形群集