检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
免空间占用。 不支持对象多版本的迁移。 增量迁移时,单个作业的源端目录下的文件数量或对象数量,根据CDM集群规格分别有如下限制:大规格集群30万、中规格集群20万、小规格集群10万。 如果单目录下文件或对象数量超过限制,需要按照子目录来拆分成多个迁移作业。 DLI数据源约束 使用
DDL配置 配置任务属性。 表10 任务配置参数说明 参数 说明 默认值 执行内存 作业执行分配内存,跟随处理器核数变化而自动变化。 8GB 处理器核数 范围:2-32。 每增加1处理核数,则自动增加4G执行内存和1并发数。 2 并发数 作业执行支持并发数。该参数无需配置,跟随处理器核数变化而自动变化。
配置节点属性 关键属性说明: DLI队列:DLI中创建的DLI队列。 作业运行资源:DLI Spark节点运行时,限制最大可以使用的CPU、内存资源。 作业主类:DLI Spark节点的主类,本例的主类是“org.apache.spark.examples.SparkPi”。 Spark程序资源包:3中创建的资源。
企业模式角色操作 企业模式业务流程 管理员操作 开发者操作 部署者操作 运维者操作 父主题: (可选)升级企业模式工作空间
分库分表场景下源表与目标表映射 配置任务属性。 表9 任务配置参数说明 参数 说明 默认值 执行内存 作业执行分配内存,跟随处理器核数变化而自动变化。 8GB 处理器核数 范围:2-32。 每增加1处理核数,则自动增加4G执行内存和1并发数。 2 并发数 作业执行支持并发数。该参数无需配置,跟随处理器核数变化而自动变化。
Spark作业的名称,只能包含英文字母、数字、“_”,且长度为1~64个字符。默认与节点的名称一致。 作业运行资源 否 选择作业运行的资源规格: 8核32G内存 16核64G内存 32核128G内存 作业主类 是 Spark作业的主类名称。当应用程序类型为“.jar”时,主类名称不能为空。 Spark程序资源包
在“空间管理”页面,找到需要升级模式的工作空间,单击其所在行的“编辑”,此时显示“空间信息”页面。 在“空间信息”页面,单击“空间模式”后的“升级”按钮,弹出确认界面后,单击“确认升级”您就可以将该工作空间升级为企业模式。 图5 升级企业模式 升级后操作 升级后需要管理员手工修改数据
n Language,简称EL),根据运行环境动态生成参数值。数据开发EL表达式包含简单的算术和逻辑计算,引用内嵌对象,包括作业对象和一些工具类对象。 环境变量:环境变量是在操作系统中一个具有特定名字的对象,它包含了一个或者多个应用程序所使用到的信息。 补数据:手工触发周期方式调度的作业任务,生成某时间段内的实例。
en进行安全认证。 API工具调用:需要调用IAM服务的获取用户Token接口获取Token,再使用API工具调用。 通过API工具调用IAM认证方式的API API工具调用场景可使用IAM认证方式。 无认证 低 无需授权,所有用户均可访问。 API工具调用:直接调用,无需认证信息。
部署者操作 部署者作为管理开发任务上线的人员,需要审批待发布任务,相关操作如下文所示。 部署者审批开发者提交的发布任务,审批通过后才能将修改后的作业同步到生产环境。 在企业模式中,开发者提交脚本或作业版本后,系统会对应产生发布任务。开发者确认发包后,需要部署者审批通过,才能将修改后的作业同步到生产环境。
SDK概述 DataArts Studio服务软件开发工具包(DataArts Studio SDK,DataArts Studio Service Software Development Kit),目前提供了REST API SDK包和数据服务SDK包两种开发包,功能和差异如
因此您需要准备两套数据湖服务(即两个集群),且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致。 例如,当您的数据湖服务为MRS集群时,需要准备两套MRS集群,且版本、规格、组件、区域、VPC、子网等保持一致。如果某个MRS集群修改了某些配置,也需要同步到另一套MRS集群上。
管理控制台,进入“集群管理”,在集群列表中找到所需要的集群。 按下F12,打开开发者调试工具,然后选择Network功能。 图1 选择Network 在DWS控制台中,单击待查看的DWS集群名称,进入集群“基本信息”页面。然后在开发者调试工具的Network请求中,寻找Name形如“clusters?ty
开发者操作 开发者作为任务开发与处理的人员,需要开发脚本、开发作业等,相关操作如下表所示。 表1 开发者操作 操作 说明 脚本开发 选择开发环境的数据湖引擎,在开发环境下的调测并发布数据开发脚本,发布到生产环境后系统会自动替换为对应生产环境引擎。 具体请参见脚本开发。 作业开发
运维者操作 运维者作为运维管理的负责人,需要对生产环境的作业、实例、通知、备份等进行统一管控,相关操作如下表所示。 表1 运维者操作 操作 说明 作业监控 包含对批作业、实时作业的监控。 具体请参见作业监控。 实例监控 对作业实例进行监控,作业每次运行,都会对应产生一次作业实例记录。
相对于直接查看SQL脚本的执行结果,通过下载和转储能够支持获取更多的执行结果。各类SQL脚本查看、下载、转储支持的规格如表4所示。 表4 SQL脚本支持查看/下载/转储规格 SQL类型 在线查看最大结果条数 下载最大结果 转储最大结果 DLI 10000 1000条且少于3MB 无限制
当选择“自定义镜像”时,请选择自定义的镜像名称,版本号系统自动展示。您可以前往容器镜像服务进行设置。 作业运行资源 否 8核32G内存 16核64G内存 32核128G内存 作业主类 否 该参数表示作业的Java/Scala主类。 Spark程序资源包 是 该参数表示Spark程序依赖的资源包。
跨空间进行作业调度 适用场景 当您已按照工作空间划分权限,不同空间用户只能操作本空间的作业。但是不同的工作空间之间的作业如果存在依赖关系,可参见本教程操作实现跨空间作业调度。 方案说明 DataArts Studio数据开发模块支持以事件触发的方式运行作业,因此通过DIS或者MRS
数据API调用;当使用其他认证方式时,可以通过API调用工具或浏览器调用。 APP认证:将APP认证方式的API授权给应用后,使用应用的密钥对(AppKey和AppSecret)进行安全认证,支持通过SDK或API调用工具调用,安全级别高,推荐使用。 IAM认证:将IAM认证方式
查看配额使用量:在“空间管理”页面,找到所需编辑的工作空间,单击其所在行的“配额使用量”,此时显示“配额使用量”页面。在“配额使用量”页面,您可以查看当前空间内,各配额规格的使用量。 置顶工作空间:在“空间管理”页面,找到所需置顶的工作空间,单击其所在行的“更多 > 置顶”,完成置顶。 删除工作空间:在“空间