华为云用户手册

  • 请求消息头 附加请求头字段,如指定的URI和HTTP方法所要求的字段。例如定义消息体类型的请求头“Content-Type”,请求鉴权信息等。 详细的公共请求消息头字段请参见表3。 表3 公共请求消息头 名称 描述 是否必选 示例 Host 请求的服务器信息,从服务API的URL中获取。值为hostname[:port]。端口缺省时使用默认的端口,https的默认端口为443。 否 使用AK/SK认证时该字段必选。 code.test.com or code.test.com:443 Content-Type 发送的实体的MIME类型。推荐用户默认使用application/json,如果API是对象、镜像上传等接口,媒体类型可按照流类型的不同进行确定。 是 application/json Content-Length 请求body长度,单位为Byte。 POST请求为可选,GET请求该字段值留空。 3495 X-Project-Id project id,项目编号。请参考获取项目ID章节获取项目编号。 否 如果是专属云场景采用AK/SK 认证方式的接口请求或者多project场景采用AK/SK认证的接口请求则该字段必选。 e9993fc787d94b6c886cbaa340f9c0f4 X-Auth-Token 用户Token。 请求响应成功后在响应消息头中包含的“X-Subject-Token”的值即为Token值。 否 使用Token认证时该字段必选。 注:以下仅为Token示例片段 MIIPAgYJKoZIhvcNAQcCo...ggg1BBIINPXsidG9rZ API同时支持使用AK/SK认证,AK/SK认证是使用SDK对请求进行签名,签名过程会自动往请求中添加Authorization(签名认证信息)和X-Sdk-Date(请求发送的时间)请求头。 AK/SK认证的详细说明请参见认证鉴权的“AK/SK认证”。 对于获取用户Token接口,由于不需要认证,所以只添加“Content-Type”即可,添加消息头后的请求如下所示。 POST https://iam.cn-north-1.myhuaweicloud.com/v3/auth/tokens Content-Type: application/json
  • 请求消息体(可选) 该部分可选。请求消息体通常以结构化格式(如JSON或XML)发出,与请求消息头中Content-Type对应,传递除请求消息头之外的内容。若请求消息体中的参数支持中文,则中文字符必须为UTF-8编码。 每个接口的请求消息体内容不同,也并不是每个接口都需要有请求消息体(或者说消息体为空),GET、DELETE操作类型的接口就不需要消息体,消息体具体内容需要根据具体接口而定。 对于获取用户Token接口,您可以从接口的请求部分看到所需的请求参数及参数说明。将消息体加入后的请求如下所示,加粗的斜体字段需要根据实际值填写,其中username为用户名,domianname为用户所属的账号名称,********为用户登录密码,xxxxxxxxxxxxxxxxxx为project的名称,如“cn-north-1”,您可以从地区和终端节点获取。 scope参数定义了Token的作用域,上面示例中获取的Token仅能访问project下的资源。您还可以设置Token的作用域为某个账号下所有资源或账号的某个project下的资源,详细定义请参见获取用户Token。 POST https://iam.cn-north-1.myhuaweicloud.com/v3/auth/tokens Content-Type: application/json { "auth": { "identity": { "methods": [ "password" ], "password": { "user": { "name": "username", "password": "********", "domain": { "name": "domianname" } } } }, "scope": { "project": { "name": "xxxxxxxxxxxxxxxxxx" } } } } 到这里为止这个请求需要的内容就具备齐全了,您可以使用curl、Postman或直接编写代码等方式发送请求调用API。对于获取用户Token接口,返回的响应消息头中“x-subject-token”就是需要获取的用户Token。有了Token之后,您就可以使用Token认证调用其他API。
  • API概览 文档数据库服务所提供的接口为扩展接口。通过使用文档数据库服务接口,您可以使用文档数据库服务的部分功能,具体如下表所示。 表1 接口说明 类型 描述 查询API版本 包括查询API版本信息列表、查询指定API版本信息接口。 查询数据库版本信息 查询指定实例类型的数据库版本信息。 查询数据库规格 查询指定条件下的所有实例规格信息。 查询数据库磁盘类型 查询当前区域下的数据库磁盘类型。 实例管理 包括创建实例、重启实例、删除实例、查询实例列表、扩容实例存储容量、扩容集群实例的节点数量、变更实例规格、切换副本集实例的主备节点、切换SSL开关、修改实例名称、修改数据库端口、变更实例安全组、绑定弹性公网IP、解绑弹性公网IP、修改实例内网地址、打开集群的Shard/Config IP开关接口、副本集跨网段访问配置、查询实例可迁移到的可用区、实例可用区迁移。 连接管理 包括查询实例节点会话、终结实例节点会话、查询实例节点连接数统计接口。 备份与恢复 包括创建手动备份、删除手动备份、查询备份列表、查询自动备份策略、设置自动备份策略、恢复到新实例、获取备份下载链接、查询可恢复的时间段、获取可恢复的数据库列表、获取可恢复的数据库集合列表、获取到当前实例、库表级时间点恢复接口。 参数配置 包括获取参数模板列表、创建参数模板、删除参数模板、获取参数模板的详情、修改参数模板、应用参数模板、获取指定实例的参数信息、修改指定实例的参数接口。 获取日志信息 包括查询数据库慢日志、获取慢日志下载链接、查询数据库错误日志、获取错误日志下载链接、设置审计日志策略、查询审计日志策略、获取审计日志列表、获取审计日志下载链接接口。 标签管理 包括查询资源实例、批量添加或删除资源标签、查询资源标签、查询项目标签接口。 管理数据库和用户 包括创建数据库用户、创建数据库角色、查询数据库用户列表、查询数据库角色列表、修改数据库用户密码、检查数据库密码接口、查询集群均衡设置、设置集群均衡开关、设置集群均衡活动时间窗、删除数据库用户、删除数据库角色。 配额管理 查询单租户在DDS服务下的资源配额,包括集群实例配额、单节点实例配额和副本集实例配额。 任务管理 获取DDS任务中心指定ID的任务信息。
  • 基本概念 账号 用户注册时的账号,账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用他们进行日常管理工作。 用户 由账号在 IAM 中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。 在我的凭证下,您可以查看账号ID和用户ID。通常在调用API的鉴权过程中,您需要用到账号、用户和密码等信息。 区域 指云资源所在的物理位置,同一区域内可用区间内网互通,不同区域间内网不互通。通过在不同地区创建云资源,可以将应用程序设计的更接近特定客户的要求,或满足不同地区的法律或其他要求。 可用区 一个可用区是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 项目 区域默认对应一个项目,这个项目由系统预置,用来隔离物理区域间的资源(计算资源、存储资源和网络资源),以默认项目为单位进行授权,用户可以访问您账号中该区域的所有资源。如果您希望进行更加精细的权限控制,可以在区域默认的项目中创建子项目,并在子项目中购买资源,然后以子项目为单位进行授权,使得用户仅能访问特定子项目中资源,使得资源的权限控制更加精确。 图1 项目隔离模型 企业项目 企业项目是项目的升级版,针对企业不同项目间资源的分组和管理,是逻辑隔离。企业项目中可以包含多个区域的资源,且项目中的资源可以迁入迁出。 关于企业项目ID的获取及企业项目特性的详细信息,请参见《企业管理服务用户指南》。 父主题: 使用前必读
  • 作业调优 默认场景下,给定的1U4G规格可满足绝大部分使用场景,但Migration服务也提供修改JobManager和TaskManager规格的能力以应对极端情况。例如最常见的作业内存溢出,可以在实时集成作业的“任务配置”中添加自定义属性,根据实际情况调整JobManager和TaskManager的各类内存来适应同步场景。 图1 添加自定义属性 表1 作业任务参数一览表 参数名 参数类型 默认值 参数说明 jobmanager.memory.process.size int 3586MB jobmanager的处理内存,直接影响堆内存大小。 说明: 该配置会占用总体资源,影响新增其他作业,非必要不配置。 taskmanager.memory.process.size int 3686MB taskmanager的处理内存,直接影响堆内存大小。 说明: 该配置会占用总体资源,影响新增其他作业,非必要不配置。 taskmanager.memory.managed.fraction int 0.2 taskmanager管理内存占比。 taskmanager.memory.network.max int 128MB 默认不需要配置,分库分表场景下如果实例数和表数过多,建议根据实际情况增加网络内存。 taskmanager.memory.network.fraction int 0.1 默认不需要配置,分库分表场景下如果实例数和表数过多,建议根据实际情况增加网络内存。 checkpoint.interval int 60000 Flink作业生成checkpoint的间隔,单位为毫秒。数据量大的作业建议调大,需要给更长时间进行数据Flush,但会增加时延。 checkpoint.timeout.ms int 600000 Flink作业生成checkpoint的超时时间,单位为毫秒。
  • 源端抽取慢 检查源端负载是否已到达源端数据源上限。优先查看源端数据源的监控指标,查看CPU、内存、IO等参数是否处于高负载状态。 在排除源端负载的情况下,如果源端是Mysql\Oracle\SqlServer\PostGres\OpenGauss等的全量+增量作业且作业处于全量抽取阶段,或者Kafka\hudi等数据源抽取速度慢,请优先尝试加大作业并发数,以提高作业的并发抽取速率。 Mysql\Oracle\SqlServer\PostGres\OpenGauss等关系型数据为保证事务有序,在增量阶段是单并发抽取,加大并发一般不会提升抽取性能。 如果第2步也无法有效提升性能,请参考对应链路性能调优文档尝试进行参数优化。 如果上述步骤仍然无法提升作业速度,请联系技术支持人员协助解决。
  • 目的端写入慢 检查目的端负载是否已达到目的端数据源上限。优先查看目的端数据源的监控指标,查看CPU、内存、IO等参数是否处于高负载状态。 在排除目的端负载的情况下,加大作业并发,以提高写入速度。 如果第2步也无法有效提升性能,请根据源端抽取慢排查源端的性能因素。 如果排除了源端问题的情况下,请参考对应链路性能调优文档尝试进行参数优化。 如果上述步骤仍然无法提升作业速度,请联系技术支持人员协助解决。
  • 操作步骤 暂停运行中的实时集成作业。 方式一: 登录 DataArts Studio 控制台实例,进行所用空间的数据开发界面,单击左侧导航栏的“作业监控”,进入“实时集成作业监控界面”,搜索对应的实时集成作业,单击右侧操作栏中的“暂停”按钮。 图1 暂停作业1 方式二: 登录DataArts Studio控制台实例,进行所用空间的数据开发的“作业开发”界面,搜索并双击进入对应的实时集成作业配置界面,单击作业导航栏中的“暂停”按钮。 图2 暂停作业2 修改任务配置 根据实际需求,在实时集成作业配置界面中修改对应参数,随后保存提交作业。 恢复实时集成作业。 方式一:登录DataArts Studio控制台实例,进行所用空间的数据开发界面,单击左侧导航栏的“作业监控”,进入“实时集成作业监控界面”,搜索对应的实时集成作业,单击右侧操作栏中的“恢复”按钮。 图3 恢复作业1 方式二:登录DataArts Studio控制台实例,进行所用空间的数据开发的“作业开发”界面,搜索并双击进入对应的实时集成作业配置界面,单击作业导航栏中的“恢复”按钮。 图4 恢复作业2 动态加减表对于不同的启动模式有不同的操作效果,具体如下: 对于初始启动模式为“增量同步”的作业,暂停加表后恢复作业,新增的表将从暂停前的位点或用户重置的位点开始进行增量同步。 对于初始启动模式为“全量+增量”的作业,暂停加表后恢复作业,将对新增的表先进行全量同步,再从暂停前的位点开始进行增量同步。
  • 准备工作 查询打通网络过程中所涉及到对象的网段(包含数据源、中转VPC、资源组),为便于理解,本章节将举例为您进行介绍。 表1 资源网段规划 资源名称 说明 私网网段示例 数据源VPC 华为云数据源所属的VPC,各数据源VPC查看方式不同,具体方法请参考数据源官方文档。 192.168.0.0/24 资源组VPC Migration实时计算资源组所属VPC,由于资源组创建在用户账户下属的资源租户,使用资源租户的VPC网段,因此不占用用户账户的VPC网段。 查看方式: 登录DataArts Studio控制台,进入实例,单击“资源管理”进入资源管理页面,在“实时资源管理”中单击指定资源组的下拉框,查看该资源组的VPC网段。 图2 查询资源组网段 172.16.0.0/19
  • 准备工作 查询打通网络过程中所涉及到对象的网段(包含数据源、中转VPC、资源组),为便于理解,本章节将举例为您进行介绍。 表1 资源网段规划 资源名称 说明 私网网段示例 数据源公网IP 其他云数据源的公网IP,请用户根据实际情况自行获取。 14.x.x.x/32 弹性公网IP 资源组不具有公网网段,只能通过公网NAT转换成固定的弹性公网IP以访问公网。若未开通弹性公网IP,请登录弹性公网IP控制台,单击“购买弹性公网IP”,参考通过VPC和EIP快速搭建可访问公网的网络进行配置。 100.x.x.x/32 中转VPC及其子网 用于连通数据源和资源组网络的中间桥梁,本方案中需要使用当前租户下的一个虚拟私有云。若未开通VPC请参考创建虚拟私有云进行配置。 VPC:10.186.0.0/19 子网:10.186.0.0/24 资源组VPC Migration实时计算资源组所属VPC,由于资源组创建在用户账户下属的资源租户,使用资源租户的VPC网段,因此不占用用户账户的VPC网段。 查看方式: 登录DataArts Studio控制台,进入实例,单击“资源管理”进入资源管理页面,在“实时资源管理”中单击指定资源组的下拉框,查看该资源组的VPC网段。 图2 查询资源组网段 172.16.0.0/19
  • 准备工作 查询打通网络过程中所涉及到对象的网段(包含数据源、中转VPC、资源组),为便于理解,本章节将举例为您进行介绍。 表1 资源网段规划 资源名称 说明 私网网段示例 数据源公网IP 本地IDC数据源的公网IP,请用户根据实际情况自行获取。 14.x.x.x/32 弹性公网IP 资源组不具有公网网段,只能通过公网NAT转换成固定的弹性公网IP以访问公网。若未开通弹性公网IP,请登录弹性公网IP控制台,单击“购买弹性公网IP”,参考通过VPC和EIP快速搭建可访问公网的网络进行配置。 100.x.x.x/32 中转VPC及其子网 用于连通数据源和资源组网络的中间桥梁,本方案中需要使用当前租户下的一个虚拟私有云。若未开通VPC请参考创建虚拟私有云进行配置。 VPC:10.186.0.0/19 子网:10.186.0.0/24 资源组VPC Migration实时计算资源组所属VPC,由于资源组创建在用户账户下属的资源租户,使用资源租户的VPC网段,因此不占用用户账户的VPC网段。 查看方式: 登录DataArts Studio控制台,进入实例,单击“资源管理”进入资源管理页面,在“实时资源管理”中单击指定资源组的下拉框,查看该资源组的VPC网段。 图2 查询资源组网段 172.16.0.0/19
  • 使用前自检概览 当您在使用Migration服务创建实时同步任务前,需要预先检查是否做好了准备工作,以满足实时同步任务的环境要求。 表1 自检项 自检项 说明 需要执行的准备工作 为云账号及权限准备 准备华为账号,创建用户并授权使用Migration。 参考 注册华为账号 并开通华为云。 参考授权使用实时数据集成。 实时计算资源组准备 购买实时集成任务使用的计算资源,并关联到要使用的DataArts Studio工作空间。 参考购买数据集成资源组增量包。 参考实时集成资源组关联工作空间。 数据库准备 连接源和目标数据库以及对应连接账号权限准备。 说明: 建议创建单独用于Migration任务连接的数据库账号,避免因为账号修改导致的任务连接失败。 连接源和目标数据库的账号密码修改后,请尽快修改Migration任务中的连接信息,避免任务连接失败后的自动重试导致数据库账号被锁定,影响使用。 不同链路、数据库、权限要求不同,可参考以下链接,选择对应链路查看使用须知:使用教程。 连接准备 准备DataArts Studio管理中心数据连接。 说明: 数据连接配置中必须勾选数据集成选项。 数据连接中使用的Agent代理实际为 CDM 集群,所用集群建议升级至较新版本(24.4.0B030版本以上),以满足功能特性需求,详情请联系客服或技术支持人员。 参考创建DataArts Studio数据连接。 网络准备 数据库部署在本地IDC 参考数据库部署在本地IDC进行网络准备。 数据库部署在其他云 参考数据库部署在其他云进行网络准备。 数据库部署在华为云 参考数据库部署在华为云进行网络准备。 父主题: 数据集成(实时作业)
  • 操作步骤 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择实例,单击“进入控制台”。 单击“资源管理”,进入资源管理页面。 在“实时资源管理”页签中,找到指定的数据集成资源组,单击右侧操作栏中的“关联工作空间”。 图1 关联工作空间入口 在弹出框中,搜索需要使用的DataArts Studio工作空间,单击“关联”按钮,即可在对应工作空间中选到该数据集成资源组。 一个数据集成资源组可以关联到多个DataArts Studio工作空间。 图2 关联工作空间
  • GBASE连接参数说明 连接GBASE连接时,相关参数如表1所示。 表1 GBASE连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 adb_link 连接器 默认为关系数据库,不可更改。 - 数据库服务器 配置为要连接的数据库的IP地址或 域名 ,多个值以;分隔。 192.168.0.1;192.168.0.2 端口 配置为要连接的数据库的端口。 3306 数据库名称 配置为要连接的数据库名称。 dbname 用户名 待连接数据库的用户。 数据库用户名。新建分库连接时,此配置对数据源列表中所有未配置用户名密码的后端连接生效;编辑分库连接时,如需修改已存在的后端连接,请在数据源列表中单独指定用户名密码。 cdm 密码 数据库密码。 - 使用Agent Agent功能待下线,无需配置。 GBASE为GBASE8A时显示该参数。 - Agent Agent功能待下线,无需配置。 GBASE为GBASE8A时显示该参数。 - 引用符号 可选参数,数据库包围标识符。对某些数据库意味着大小写敏感,如不需用请置空。 " 驱动版本 不同类型的关系数据库,需要适配不同的驱动,更多详情请参见如何获取驱动。 GBASE为GBASE8A时显示该参数。 - 单次请求行数 可选参数,单击“显示高级属性”后显示。 指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 10000 单次提交行数 可选参数,单击“显示高级属性”后显示。 指定每次批量提交的行数,根据数据目的端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 1000 连接属性 自定义连接属性。可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 常见配置举例如下: socketTimeout:配置JDBC连接超时时间,单位为毫秒。 mysql.bool.type.transform:配置mysql读取时,是否将tinyint(1)解析成boolean类型,默认为true。 - 父主题: 配置连接参数
  • 环境变量 环境变量中支持定义变量和常量,环境变量的作用范围为当前工作空间。 变量是指不同的空间下取值不同,需要重新配置值,比如“工作空间名称”变量,这个值在不同的空间下配置不一样,导出导入后需要重新进行配置。 常量是指在不同的空间下都是一样的,导入的时候,不需要重新配置值。 图1 环境变量 具体应用如下: 在环境变量中已新增一个变量,“参数名”为sdqw,“参数值”为wqewqewqe。 打开一个已创建好的作业,从左侧节点库中拖拽一个“Create OBS”节点。 在节点属性页签中配置属性。 图2 Create OBS 单击“保存”后,选择“前往监控”页面监控作业的运行情况。
  • 场景描述 在配置作业调度时,可以选择每个月的最后一天执行。如果您需要配置作业的调度时间为每月最后一天,请参考下面两种方法。 表1 配置每月最后一天进行调度 配置方法 优势 如何配置 调度周期配置为天,通过条件表达式进行判断是否为每月最后一天 可以灵活适用多种场景。只需要编写条件表达式就可以灵活调度作业去运行。例如,每月最后一天,每月七号等。 方法1 调度周期配置为月,勾选每月最后一天 通过配置调度周期来执行任务调度。不用编写开发语句,通过勾选需要调度的时间去执行任务。 方法2
  • 新建企业模式工作空间 如果您之前未使用过简单模式、无需继承业务数据,则可以直接新建新企业模式工作空间。 创建工作空间 使用具有 Administrator、Tenant Administrator权限的账号进入DataArts Studio控制台。 单击控制台的“空间管理”页签,进入工作空间页面。 单击“新建”,在空间信息页面请根据页面提示配置参数,参数说明如表1所示,配置完成后,单击“确定”完成工作空间的创建。 图6 空间信息 表1 新建空间参数说明 参数名 说明 空间名称 空间名称,只能包含字母、数字、下划线、中划线、中文字符,且长度不超过32个字符。在当前的DataArts Studio实例中,工作空间名称必须唯一。 空间描述 空间的描述信息。 空间模式 选择工作空间为简单模式还是企业模式。新建企业模式工作空间时,此处需配置为企业模式。 企业项目 DataArts Studio实例默认工作空间关联的企业项目。企业项目管理是一种按企业项目管理云资源的方式,具体请参见《企业管理用户指南》。 如果已经创建了企业项目,这里才可以选择。当DataArts Studio实例需连接云上服务(如DWS、 MRS 、RDS等),还必须确保DataArts Studio工作空间的企业项目与该云服务实例的企业项目相同。 一个企业项目下只能购买一个DataArts Studio实例。 需要与其他云服务互通时,需要确保与其他云服务的企业项目一致。 作业日志OBS路径 用于指定DataArts Studio数据开发作业的日志存储的OBS桶。工作空间成员如需使用DataArts Studio数据开发,必须具备“作业日志OBS桶”的读、写权限,否则,在使用过程中,系统将无法正常读、写数据开发的作业日志。 单击“请选择”按钮,您可以选择一个已创建的OBS桶和对象,系统将基于工作空间全局配置作业日志OBS桶。 如果不配置该参数,DataArts Studio数据开发的作业日志默认存储在以“dlf-log-{projectId}”命名的OBS桶中,{projectId}即项目ID。 DLI 脏数据OBS路径 用于指定DataArts Studio数据开发中DLI SQL执行过程中的脏数据存储的OBS桶。工作空间成员如需使用DataArts Studio数据开发执行DLI SQL,必须具备“DLI脏数据OBS桶”的读、写权限,否则,在使用过程中,系统将无法正常读、写DLI SQL执行过程中的脏数据。 单击“请选择”按钮,您可以选择一个已创建的OBS桶和对象,系统将基于工作空间全局配置DLI脏数据OBS桶。 如果不配置该参数,DataArts Studio数据开发的DLI SQL脏数据默认存储在以“dlf-log-{projectId}”命名的OBS桶中。 标签 通过为资源添加标签,可以对资源进行自定义标记,实现资源的分类。 说明: 如您的账号归属某个组织,且该组织已经设定DataArts Studio服务的相关标签策略,则需按照标签策略规则添加标签。标签如果不符合标签策略的规则,则可能会导致实例创建失败,请联系组织管理员了解标签策略详情。 当拥有多个工作空间时,您可以按使用者、维护者或用途等各类维度为各工作空间添加标签,然后在工作空间列表页面,可以通过标签搜索、识别不同类型的工作空间。 标签由标签键和标签值组成。在添加标签时,标签键和标签值可以选择在标签管理服务(简称TMS)中创建的预定义标签,也可以直接输入自定义的标签。然后单击输入框右侧的“添加”,即可成功添加一条标签。 说明: 预定义标签需要预先在标签管理服务中创建好,然后才能进行选择。您可以通过单击“查看预定义标签”进入标签管理服务的“预定义标签”页面,然后单击“创建标签”来创建新的预定义标签,具体请参见《标签管理服务用户指南》中的“创建预定义标签”章节。 另外,工作空间最多支持添加20个标签,标签的键名不能重复,一个“标签键”只能添加一个对应“标签值”。 创建后操作 创建后需要管理员手工新建数据连接、配置环境隔离,并按照组织分工在工作空间处定义管理员、开发者、部署者、运维者等角色。 新建数据连接:请参考创建DataArts Studio数据连接。 配置环境隔离:请参考配置DataArts Studio企业模式环境隔离。 为其他用户定义工作空间角色:请参见添加工作空间成员和角色章节添加工作空间成员和角色。 另外,新建企业模式工作空间,还需要您在数据开发中配置空间级别的公共委托或公共IAM账号。配置委托的操作详情可参见配置调度身份。 图7 配置工作空间委托
  • 前提条件 创建工作空间模式前,您需要先了解以下内容: 已了解简单模式与企业模式工作空间的区别,包括不同工作空间的开发流程等差异,详情请参见简单模式与企业模式介绍。 已配置空间级的身份调度,包含公共委托和公共IAM账号,详情请参见配置公共委托和配置公共IAM账号。 已准备好两套相互隔离的 数据湖 引擎,用于隔离开发和生产环境。 配置两套数据湖服务,进行开发与生产环境隔离。 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、E CS 等),DataArts Studio通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务,在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务,且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致,详细操作请参见创建DataArts Studio数据连接。 创建数据连接时,通过不同的集群来进行开发与生产环境的隔离,如图1所示。 图1 创建数据连接时选择不同集群 配置DLI环境隔离。 配置企业模式环境隔离,包含DLI队列配置和DB配置。 对于Serverless服务(例如DLI),DataArts Studio通过管理中心的环境隔离来配置生产环境和开发环境数据湖服务的对应关系,在开发和生产流程中自动切换对应的数据湖。因此您需要在Serverless数据湖服务中准备两套队列、两套数据库资源,建议通过名称后缀进行区分,详细操作请参见配置DataArts Studio企业模式环境隔离。 配置DB,在同一个数据湖服务下配置两套数据库,进行开发与生产环境隔离。 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,如图2所示,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,如图3所示。详细操作请参见DB配置。 图2 创建数据连接时选择同一个集群 图3 DB配置 数据准备与同步 数据湖服务创建完成后,您需要按照项目规划(例如数据开发需要操作的库表等),分别在开发和生产环境的数据湖服务中,新建数据库、数据库模式(仅DWS需要)、数据表等。 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS),使用两套集群资源,两套环境中的数据库、数据库模式(仅DWS需要)和数据表必须保持同名。 对于Serverless服务(例如DLI),两套队列和两套数据库建议通过名称和后缀(开发环境添加后缀“_dev”,生产环境无后缀)进行关联与区分,数据表必须保持同名。 对于DWS、MRS Hive和MRS Spark数据源,如果使用一套相同的集群资源,通过两个数据库(开发环境添加后缀“_dev”,生产环境无后缀)进行开发生产环境隔离,两套环境中数据库模式(仅DWS需要)和数据表必须保持同名。 数据库、数据库模式(仅DWS需要)、数据表等新建完成后,如果涉及原始数据表等,您还需要将两套数据湖服务之间的数据进行同步: 数据湖中已有数据:通过CDM或DRS等数据迁移服务,在数据湖间批量同步数据。 数据源待迁移数据:通过对等的CDM或DRS等数据迁移服务作业进行同步,保证生产环境和开发环境的数据湖服务数据一致。
  • 简单模式升级企业模式 对于简单模式的工作空间,DAYU Administrator、Tenant Administrator可以直接将其升级为企业模式。 升级前操作 如果您需要升级工作空间模式,需要在数据开发中配置空间级别的公共委托或公共IAM账号,避免升级失败。 配置委托的操作详情可参见配置调度身份。 图4 配置工作空间委托 升级操作 登录DataArts Studio控制台。 找到所需要的DataArts Studio实例,在DataArts Studio实例上单击“进入控制台”。然后,选择“空间管理”页签。 在“空间管理”页面,找到需要升级模式的工作空间,单击其所在行的“编辑”,此时显示“空间信息”页面。 在“空间信息”页面,单击“空间模式”后的“升级”按钮,弹出确认界面后,单击“确认升级”您就可以将该工作空间升级为企业模式。 图5 升级企业模式 升级后操作 升级后需要管理员手工修改数据连接、配置环境隔离,并按照组织分工在工作空间处定义管理员、开发者、部署者、运维者等角色。 修改数据连接:请参考创建DataArts Studio数据连接。 配置环境隔离:请参考配置DataArts Studio企业模式环境隔离。 为其他用户定义工作空间角色:请参见添加工作空间成员和角色章节添加工作空间成员和角色。
  • (可选)创建DLI环境隔离 仅Serverless服务(当前即DLI)需要配置环境隔离。 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。 在管理中心页面,单击“数据源资源映射配置”,进入数据源资源映射配置页面。 图1 数据源资源映射配置 单击“DB配置”下的“添加”,然后分别配置开发环境数据库名和生产环境数据库名,完成后单击“保存”。通过和可以进行编辑和删除操作。 数据库名需配置为已创建完成的数据库名。建议在创建数据库时,开发环境数据库名和生产环境数据库名保持一致,开发环境数据库名带上“_dev”后缀,以与生产环境数据库名进行区分。 图2 DB配置 单击“DLI队列配置”下的“添加”,然后分别配置开发环境队列名和生产环境队列名,完成后单击“保存”。通过和可以进行编辑和删除操作。 队列名需配置为已在DLI创建完成的队列名。建议开发环境队列名和生产环境队列名保持一致,开发环境队列名带上“_dev”后缀,以与生产环境队列名进行区分。 图3 DLI队列配置 “DB配置”和“DLI队列配置”完成后,DLI环境隔离创建成功。
  • DB配置 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。 在管理中心页面,单击“数据源资源映射配置”,进入数据源资源映射配置页面。 单击“DB配置”下的“添加”,然后分别配置开发环境数据库名和生产环境数据库名,完成后单击“保存”。通过和可以进行编辑和删除操作。 数据库名需配置为已创建完成的数据库名。建议在创建数据库时,开发环境数据库名和生产环境数据库名保持一致,开发环境数据库名带上“_dev”后缀,以与生产环境数据库名进行区分。 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离。 图4 DB配置
  • 运维者操作 运维者作为运维管理的负责人,需要对生产环境的作业、实例、通知、备份等进行统一管控,相关操作如下表所示。 表1 运维者操作 操作 说明 作业监控 包含对批作业、实时作业的监控。 具体请参见作业监控。 实例监控 对作业实例进行监控,作业每次运行,都会对应产生一次作业实例记录。 具体请参见实例监控。 补数据监控 对补数据作业运行情况进行监控。可以通过补数据,修正历史中出现数据错误的作业实例,或者构建更多的作业记录以便调试程序等。 具体请参见补数据监控。 通知管理 配置在作业运行异常或成功时能接收到通知。 具体请参见通知管理。 备份管理 支持每日定时备份昨日系统中的所有作业、脚本、资源和环境变量。 具体请参见备份管理。 父主题: 企业模式角色操作
  • 开发者操作 开发者作为任务开发与处理的人员,需要开发脚本、开发作业等,相关操作如下表所示。 表1 开发者操作 操作 说明 脚本开发 选择开发环境的数据湖引擎,在开发环境下的调测并发布数据开发脚本,发布到生产环境后系统会自动替换为对应生产环境引擎。 具体请参见脚本开发。 作业开发 选择开发环境的数据湖引擎,在开发环境下的调测并发布数据开发作业,发布到生产环境后系统会自动替换为对应生产环境引擎。 具体请参见作业开发。 父主题: 企业模式角色操作
  • 管理员操作 管理员作为项目负责人或开发责任人,需要为企业模式的环境配置、人员角色等进行统一管控,相关操作如下表所示。 表1 管理员操作 操作 说明 准备工作 包含数据湖准备以及数据准备与同步。 数据湖准备: 由于企业模式下需要区分开发环境和生产环境,因此您需要分别准备对应生产环境和开发环境的两套数据湖服务,用于隔离开发和生产环境: 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS),DataArts Studio通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务,在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务(即两个集群),且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致。 例如,当您的数据湖服务为MRS集群时,需要准备两套MRS集群,且版本、规格、组件、区域、VPC、子网等保持一致。如果某个MRS集群修改了某些配置,也需要同步到另一套MRS集群上。 对于Serverless服务(例如DLI),DataArts Studio通过管理中心的环境隔离来配置生产环境和开发环境数据湖服务的对应关系,在开发和生产流程中自动切换对应的数据湖。因此您需要在Serverless数据湖服务中准备两套队列、数据库资源,建议通过名称后缀进行区分。 特别的,对于DWS、MRS Hive和MRS Spark数据源,如果使用一套相同的集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离。 数据准备与同步: 数据湖服务创建完成后,您需要按照项目规划(例如数据开发需要操作的库表等),分别在开发和生产环境的数据湖服务中,新建数据库、数据库模式(仅DWS需要)、数据表等。 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS),使用两套集群资源,两套环境中的数据库、数据库模式(仅DWS需要)和数据表必须保持同名。 对于Serverless服务(例如DLI),两套队列和数据库建议通过名称和后缀(开发环境添加后缀“_dev”,生产环境无后缀)进行关联与区分,数据表必须保持同名。 对于DWS、MRS Hive和MRS Spark数据源,使用一套集群资源,通过两个数据库(开发环境添加后缀“_dev”,生产环境无后缀)进行开发生产环境隔离,两套环境中的数据库模式(仅DWS需要)和数据表必须保持同名。 数据库、数据库模式(仅DWS需要)、数据表等新建完成后,如果涉及原始数据表等,您还需要将两套数据湖服务之间的数据进行同步: 数据湖中已有数据:通过CDM或DRS等数据迁移服务,在数据湖间批量同步数据。 数据源待迁移数据:通过对等的CDM或DRS等数据迁移服务作业进行同步,保证生产环境和开发环境的数据湖服务数据一致。 创建企业模式数据连接 对于所有的数据湖引擎,都需要创建数据连接。 对于集群化的数据源,如果使用不同的集群,支持同时创建DataArts Studio与开发环境数据湖、DataArts Studio与生产环境数据湖之间的数据连接。 具体请参见创建DataArts Studio数据连接。 配置企业模式环境隔离 配置开发、生产环境的DLI队列和DB映射配置的环境隔离。 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群资源,则需要在同一个数据湖服务下配置两套数据库,进行开发与生产环境隔离,具体请参见DB配置。 对于数据源为DLI时,可以通过企业模式环境隔离配置两套DLI队列和DB数据库进行生产与开发环境的隔离。具体请参见配置DataArts Studio企业模式环境隔离。 授权用户使用DataArts Studio 为协同使用DataArts Studio的项目成员创建具备“DAYU User”权限的IAM账号,并匹配对应的工作空间角色。 具体请参见授权用户使用DataArts Studio章节创建用户并授予权限。 父主题: 企业模式角色操作
  • 企业模式业务流程 当前DataArts Studio企业模式,主要涉及管理中心和数据开发组件,业务流程由管理员、开发者、部署者、运维者等角色共同完成。 图1 企业模式架构 管理员:管理员需要进行准备数据湖、配置数据连接和环境隔离、数据的导入导出、配置项目用户权限等操作。 开发者:开发者需要在数据开发的开发环境,进行脚本、作业开发等操作,开发完成后进行测试运行、提交版本,最终提交发布任务。 部署者:部署者需要在数据开发的开发环境,查看待审批任务,并进行发布审批操作。 运维者:部署者需要在数据开发的生产环境,基于开发者发布的资源,进行作业监控、通知管理、备份等操作。 自定义角色:用户可以对需要的操作权限进行自定义设置,来满足实际业务的需要。 访客:具备DataArts Studio只读权限,只允许对DataArts Studio进行数据读取,无法操作、更改工作项及配置,建议将只查看空间内容、不进行操作的用户设置为访客。 表1 企业模式内的权限 - 简单空间 企业空间 管理者 拥有生产环境管理中心的所有权限,包含连接配置、数据导入导出等。 增加了部署相关的新操作 进行管理中心的连接配置、环境隔离配置,数据导入导出等 进行数据开发配置,比如环境配置、调度身份配置、配置默认项等 开发者 拥有生产环境的作业及脚本开发的所有权限。 开发环境:所有操作 生产环境:只读操作 部署:增加了打包、查看发布项、查看发布项列表、查看发布包内容 环境信息配置:只读操作 部署者 无 查看发布包 查看发布项列表 发布包:只有部署者和管理者可以操作 撤销发布:只有部署者和管理者可以操作 运维者 拥有生产环境的作业及脚本实例的运行监控、运维调度等权限。 开发环境:只读操作 生产环境:所有操作 部署:查看发布包内容 环境信息配置:只读操作 访客 仅只读 仅只读 父主题: 企业模式角色操作
  • 企业模式对使用流程的影响 简单模式工作空间下,DataArts Studio数据开发组件以及对应管理中心组件无法设置开发环境和生产环境,只能进行简单的数据开发,无法对数据开发流程和表权限进行强管控。提交脚本或作业后,您无需发布,脚本或作业即可进入调度系统周期性执行,产出结果数据。 图7 简单模式流程 企业模式下,DataArts Studio数据开发组件以及对应管理中心组件的数据连接支持设置开发环境和生产环境,有效隔离开发者对生产环境业务的影响。其中:开发环境只针对开发人员开放,只用于脚本或作业开发,开发完后发布到生产环境中。生产环境内不能做任何修改,只对最终用户开放,任何修改必须回退到开发环境中重新修改发布。 图8 企业模式流程
  • 注意事项 不同工作空间模式对于数据湖引擎存在一定的要求,企业模式工作空间需要分别为开发环境和生产环境进行数据湖引擎配置,才可以实现开发生产环境隔离。配置开发生产环境隔离包含以下三种方式: 图1 配置开发生产环境隔离 配置两套数据湖服务,进行开发与生产环境隔离。 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS等),DataArts Studio通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务,在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务,且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致,详细操作请参见创建DataArts Studio数据连接。 创建数据连接时,通过不同的集群来进行开发与生产环境的隔离,如图2所示。 图2 创建数据连接时选择不同集群 配置DLI环境隔离。 配置企业模式环境隔离,包含DLI队列配置和DB配置。 对于Serverless服务(例如DLI),DataArts Studio通过管理中心的环境隔离来配置生产环境和开发环境数据湖服务的对应关系,在开发和生产流程中自动切换对应的数据湖。因此您需要在Serverless数据湖服务中准备两套队列、两套数据库资源,建议通过名称后缀进行区分,详细操作请参见配置DataArts Studio企业模式环境隔离。 配置DB,在同一个数据湖服务下配置两套数据库,进行开发与生产环境隔离。 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,如图3所示,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,如图4所示。详细操作请参见DB配置。 图3 创建数据连接时选择同一个集群 图4 DB配置 企业模式工作空间下,开发环境的数据开发作业默认不进行调度,仅发布至生产环境后可进行调度。
  • 简单模式与企业模式介绍 简单模式:传统的DataArts Studio工作空间模式。简单模式工作空间下,DataArts Studio数据开发组件以及对应管理中心组件无法设置开发环境和生产环境,只能进行简单的数据开发,无法对数据开发流程和表权限进行强管控。一个数据湖作为DataArts Studio的生产环境。 图5 简单模式工作空间 企业模式:为解决简单模式存在的风险,DataArts Studio工作空间新增支持企业模式。企业模式下,DataArts Studio数据开发组件以及对应管理中心组件的数据连接支持设置开发环境和生产环境,有效隔离开发者对生产环境业务的影响。需要两个数据湖中,其中一个数据湖作为DataArts Studio开发环境,另一个作为DataArts Studio生产环境。其中: 开发环境只针对开发人员开放,只用于脚本或作业开发,开发完后发布到生产环境中。 生产环境内不能做任何修改,只对最终用户开放,任何修改必须回退到开发环境中重新修改发布。 图6 企业模式工作空间 您可选择创建任意模式工作空间体验DataArts Studio,使用企业模式工作空间实现DataArts Studio开发环境与生产环境代码隔离、不同环境计算资源隔离、权限隔离、任务发布流程管控等需求。 若您已在使用简单模式工作空间,并且希望保留当前简单模式工作空间的代码时,可选择工作空间模式升级,详情请参见创建企业模式工作空间。
  • 不同模式工作空间的优劣势对比 表3 不同模式工作空间的优劣势对比 对比 简单模式 企业模式 优势 简单、方便、易用。 仅需要授权数据开发人员“开发者”角色即可完成所有数据开发工作。 提交脚本或作业后,您无需发布,脚本或作业即可进入调度系统周期性执行,产出结果数据。 安全、规范。 具备安全、规范的代码发布管控流程(包含代码评审、代码DIFF查看等功能),保障生产环境稳定性,避免不必要的因代码逻辑引起的脏数据蔓延或任务报错等非预期情况。 数据访问得到有效管控,数据安全得以保障。 所有脚本或作业仅支持在开发环境编辑,开发者无法修改生产环境的脚本或作业。 开发环境和生产环境的数据隔离,开发者无法影响生产环境的数据。 开发环境下,脚本、作业以当前开发者的身份执行;生产环境下,脚本、作业则使用空间级的公共IAM账号或公共委托执行。 如果需要对生产环境进行变更,必须在开发环境通过开发者的发布操作才能将变更提交到生产环境,需要管理者或部署者审批通过,才能发布成功。 劣势 存在不稳定、不安全的风险。 无法设置开发环境和生产环境隔离,只能进行简单的数据开发。 无法对生产表权限进行控制。 说明: 开发调测阶段,开发者可直接访问生产数据湖的数据,随意对表进行增加、删除和修改等操作,存在数据安全风险。 无法对数据开发流程进行管控。 说明: 开发者可以不经过任何人审批,随时新增、修改脚本或作业并提交至调度系统,给业务带来不稳定因素。 流程相对复杂,一般情况下无法一人完成所有数据开发、生产流程。
  • 背景信息 本文内容由以下几部分构成,从不同角度分别为您解决企业模式不同的问题。 表1 了解企业模式 分类 说明 简单模式与企业模式介绍 不同工作空间模式的介绍。 不同模式工作空间对生产任务开发与运维的影响 DataArts Studio建立于对应工作空间物理属性之上的任务开发与运维机制介绍。 不同模式工作空间的优劣势对比 不同工作空间模式的优劣势对比。 企业模式对使用流程的影响 介绍企业模式工作空间下的流程管控。 不同工作空间模式下,DataArts Studio模块对应操作 简单模式仅有生产环境,企业模式有开发环境和生产环境,此部分为您介绍各个环境与DataArts Studio模块的对应关系。
共100000条