华为云用户手册

  • DWS数据连接参数说明 表1 DWS数据连接 参数 是否必选 说明 数据连接类型 是 DWS连接固定选择为 数据仓库 服务(DWS)。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启离线数据集成或实时数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 SSL加密 是 DWS支持SSL通道加密和证书认证两种方式进行客户端与服务器端的通信。您可以通过服务器端是否强制使用SSL连接进行设置。 开关打开,即只能通过SSL方式进行通信。 开关关闭,SSL通道加密和证书认证两种方式均可进行通信。 手动 是 选择连接模式。 使用集群名模式时,通过选择已有集群名称进行连接配置。 使用连接串模式时,手动填写对应集群的IP或 域名 、端口进行连接配置,且需打通本连接Agent(即 CDM 集群)和DWS集群之间的网络。 说明: 数据安全组件不支持连接串模式的DWS连接。 DWS集群名 是 “手动”选择为“集群名模式”时需要配置本参数。 选择DWS集群,系统会显示所有项目ID和企业项目相同的DWS集群。 IP或域名 是 “手动”选择为“连接串模式”时需要配置本参数。 表示通过内部网络访问集群数据库的访问地址,可填写为IP或域名。内网访问IP或域名地址在创建集群时自动生成,您可以通过管理控制台获取访问地址: 根据注册的账号登录DWS云服务管理控制台。 从左侧列表选择实例管理。 单击某一个实例名称,进入实例基本信息页面。在连接信息标签中可以获取到内网IP、域名和端口等信息。 端口 是 “手动”选择为“连接串模式”时需要配置本参数。 表示创建DWS集群时指定的数据库端口号。请确保您已在安全组规则中开放此端口,以便 DataArts Studio 实例可以通过该端口连接DWS集群数据库。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 绑定Agent 是 DWS为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建DWS的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请参考创建CDM集群进行创建。 CDM集群作为网络代理,必须和DWS集群网络互通才可以成功创建DWS连接,为确保两者网络互通,CDM集群必须和DWS集群处于相同的区域、可用区,且使用同一个VPC和子网,安全组规则需允许两者网络互通。 说明: CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 数据源认证及其他功能配置 用户名 是 数据库的用户名,创建DWS集群时指定的用户名。 密码 是 数据库的访问密码,创建DWS集群时指定的密码。 数据集成配置 数据库名称 是 适用组件勾选数据集成后,呈现此参数。 配置为要连接的数据库名称。 单次请求行数 否 适用组件勾选数据集成后,呈现此参数。 指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 连接属性 否 适用组件勾选数据集成后,呈现此参数。 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 常见配置举例如下: connectTimeout=360000与socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。 useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关;开源MySQL数据库支持useCursorFetch参数,无需对此参数进行设置。 引用符号 否 适用组件勾选数据集成后,呈现此参数。 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。 父主题: 配置DataArts Studio数据连接参数
  • 更多操作 修改:单击操作列的“修改”,可以修改已配置的日历。 快选:快速选中本月的周一到周五 反选:对已选择的工作日进行反选 清除:对已选择的工作日进行清除 图2 修改调度日历 删除:单击操作列的“删除”,自动弹出的删除提示框,单击“确定”,可以删除已配置好的日历。 如果日历被作业引用,则不能删除。如果要强制删除被作业引用的日历,可能会影响作业调度,请谨慎操作。 引用作业列表:单击操作列的“引用作业列表”,可以查看该日历被哪些作业所引用。可以下载引用作业列表。
  • 约束限制 该功能适用于以下场景: Flink SQL脚本可以引用脚本模板。 在pipeline作业开发中, MRS Flink Job节点可以使用引入了脚本模板的Flink SQL脚本,同时在MRS Flink Job节点的“运行程序参数”里面可以引用参数模板。 在Flink SQL单任务作业中引用脚本模板。 在Flink Jar单任务作业中使用参数模板。 Spark SQL和Hive SQL脚本及单任务作业支持引用参数模板。模板配置好之后,请到配置默认项去使用该模板。
  • 配置分库源端参数 作业中源连接为分库连接,源端作业参数如表1所示。 表1 分库作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 模式或表空间 表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,分库连接时此处默认展示对应第一个后端连接的表空间。用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。例如:表名配置为user_[0-9]{1,2},会匹配 user_0 到 user_9,user_00 到 user_99 的表。 SCHEMA_E 表名 表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的账号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 table 高级属性 Where子句 表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 DS='${dateformat(yyyy-MM-dd,-1,DAY)}' 选择源连接名称为分库连接对应的后端连接时,此作业即为普通的MySQL作业。 新建源端为分库连接的作业时,在字段映射阶段,可以在源字段新增样值为“${custom(host)}”样式的自定义字段,用于在多个数据库中的多张表迁移到同一张表后,查看表的数据来源。支持的样值包括: ${custom(host)} ${custom(database)} ${custom(fromLinkName)} ${custom(schemaName)} ${custom(tableName)} 父主题: 配置CDM作业源端参数
  • 配置Oracle源端参数 作业中源连接为Oracle数据库连接,源端作业参数如表1所示。 表1 Oracle作为源端时的作业参数 参数名 说明 取值样例 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明: SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如 select * from table a; select * from table b。 不支持with语句。 不支持注释 ,比如 "--" ,“/*”。 不支持增删改操作,包括但不限于以下操作: load data delete from alter table create table drop table into outfile 如果SQL语句过长,会导致请求过长下发失败,继续创建作业系统会报错“错误请求”,此时您需要简化或清空SQL语句,再次尝试继续创建作业。 select id,name from sqoop.user; 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 说明: 该参数支持配置通配符(*),实现导出以某一前缀开头或者以某一后缀结尾的所有数据库。例如: SCHEMA*表示导出所有以“SCHEMA”开头的数据库。 *SCHEMA表示导出所有以“SCHEMA”结尾的数据库。 *SCHEMA*表示数据库名称中只要有“SCHEMA”字符串,就全部导出。 SCHEMA_E 表名 “使用SQL语句”选择“否”时,显示该参数,表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的账号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。例如:表名配置为user_[0-9]{1,2},会匹配 user_0 到 user_9,user_00 到 user_99 的表。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 table 抽取分区字段 “按表分区抽取”选择“否”时,显示该参数,表示抽取数据时使用该字段进行数据切分,CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段,例如以自然增长的序号字段作为分区字段。 单击输入框后面的按钮可进入字段选择界面,用户也可以直接输入抽取分区字段名。 说明: 抽取分区字段支持TINYINT、SMALLINT、INTEGER、BIGINT、REAL、FLOAT、DOUBLE、NUMERIC、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型,建议该字段带有索引。 id Where子句 “使用SQL语句”选择“否”时,显示该参数,表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 DS='${dateformat(yyyy-MM-dd,-1,DAY)}' 分区字段含有空值 “按表分区抽取”选择“否”时,显示该参数,表示是否允许分区字段包含空值。 是 按表分区抽取 从Oracle导出数据时,支持从分区表的各个分区并行抽取数据。启用该功能时,可以通过下面的“表分区”参数指定具体的Oracle表分区。 该功能不支持非分区表。 数据库用户需要具有系统视图dba_tab_partitions和dba_tab_subpartitions的SELECT权限。 否 表分区 输入需要迁移数据的Oracle表分区,多个分区以&分隔,不填则迁移所有分区。 如果有子分区,以“分区.子分区”的格式填写,例如“P2.SUBP1”。 P0&P1&P2.SUBP1&P2.SUBP3 拆分作业 选择“是”,会根据“作业拆分字段”值,将作业拆分为多个子作业并发执行。 说明: 仅支持目的端为 DLI 和Hive时配置该参数及作业拆分字段、拆分字段最小值、拆分字段最大值、子作业个数参数。 是 作业拆分字段 “拆分作业”选择“是”时,显示该参数,使用该字段将作业拆分为多个子作业并发执行。 - 拆分字段最小值 “拆分作业”选择“是”时,显示该参数,表示抽取数据时“作业拆分字段”的最小值。 - 拆分字段最大值 “拆分作业”选择“是”时,显示该参数,表示抽取数据时“作业拆分字段”的最大值。 - 子作业个数 “拆分作业”选择“是”时,显示该参数,根据“作业拆分字段”的最小值和最大值限定的数据范围,将作业拆分为多少个子作业执行。 - Oracle作为源端时,如果未配置“抽取分区字段”或者“按表分区抽取”这2个参数,CDM自动使用ROWID进行数据分区。 父主题: 配置CDM作业源端参数
  • 配置MySQL源端参数 作业中源连接为 云数据库MySQL /MySQL数据库连接时,源端作业参数如表1所示。 表1 MySQL作为源端时的作业参数 参数名 说明 取值样例 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明: SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如 select * from table a; select * from table b。 不支持with语句。 不支持注释 ,比如 "--" ,“/*”。 不支持增删改操作,包括但不限于以下操作: load data delete from alter table create table drop table into outfile 如果SQL语句过长,会导致请求过长下发失败,继续创建作业系统会报错“错误请求”,此时您需要简化或清空SQL语句,再次尝试继续创建作业。 select id,name from sqoop.user; 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。 SCHEMA_E 表名 “使用SQL语句”选择“否”时,显示该参数,表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的账号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。例如:表名配置为user_[0-9]{1,2},会匹配 user_0 到 user_9,user_00 到 user_99 的表。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 table 抽取分区字段 “使用SQL语句”选择“否”时,显示该参数,表示抽取数据时使用该字段进行数据切分,CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段,例如以自然增长的序号字段作为分区字段。 单击输入框后面的按钮可进入字段选择界面,用户也可以直接输入抽取分区字段名。 说明: 抽取分区字段支持TINYINT、SMALLINT、INTEGER、BIGINT、REAL、FLOAT、DOUBLE、NUMERIC、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型,建议该字段带有索引。 id Where子句 “使用SQL语句”选择“否”时,显示该参数,表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 DS='${dateformat(yyyy-MM-dd,-1,DAY)}' date类型值是否保留一位精度 date类型值是否保留一位精度。 是 分区字段含有空值 是否允许分区字段包含空值。 是 拆分作业 选择“是”,会根据“作业拆分字段”值,将作业拆分为多个子作业并发执行。 说明: 仅支持目的端为DLI和Hive时配置该参数及作业拆分字段、拆分字段最小值、拆分字段最大值、子作业个数参数。 是 作业拆分字段 “拆分作业”选择“是”时,显示该参数,使用该字段将作业拆分为多个子作业并发执行。 - 拆分字段最小值 “拆分作业”选择“是”时,显示该参数,表示抽取数据时“作业拆分字段”的最小值。 - 拆分字段最大值 “拆分作业”选择“是”时,显示该参数,表示抽取数据时“作业拆分字段”的最大值。 - 子作业个数 “拆分作业”选择“是”时,显示该参数,根据“作业拆分字段”的最小值和最大值限定的数据范围,将作业拆分为多少个子作业执行。 - 按表分区抽取 从MySQL导出数据时,支持从分区表的各个分区并行抽取数据。启用该功能时,可以通过下面的“表分区”参数指定具体的MySQL表分区。 该功能不支持非分区表。 数据库用户需要具有系统视图dba_tab_partitions和dba_tab_subpartitions的SELECT权限。 否 父主题: 配置CDM作业源端参数
  • 将Notebook任务上传到OBS桶 方式一:将Notebook任务先下载到本地,然后上传到OBS桶(OBS桶必须是并行文件桶)。 在JupyterLab文件列表中,选择需要下载的文件,单击右键,在操作菜单中选择“Download”下载至本地。 下载的目的路径,为您本地浏览器设置的下载目录。 图1 下载文件 将本地文件上传到OBS桶。上传的详细操作,请参见上传对象。 方式二:将Notebook任务直接上传到OBS桶(OBS桶必须是并行文件桶)。 使用ModelArts SDK接口将目标文件从Notebook上传到OBS。 使用ModelArts SDK接口将Notebook中的文件上传到OBS后进行操作。 示例代码:将Notebook中的file1.txt文件上传到OBS桶路径obs://bucket-name/dir1/中。其中,桶名称、文件夹和文件的名称均可以按照业务需求自定义。 from modelarts.session import Session session = Session() session.obs.upload_file(src_local_file='/home/ma-user/work/file1.txt', dst_obs_dir='obs://bucket-name/dir1/') 使用ModelArts SDK接口将Notebook中的文件夹上传到OBS。 示例代码:将Notebook中的文件夹“/work/”上传至“bucket-name”桶的“dir1”文件夹下,路径为“obs://bucket-name/dir1/work/”。其中,桶名称和文件夹的名称均可以按照业务需求自定义。 from modelarts.session import Session session = Session() session.obs.upload_dir(src_local_dir='/home/ma-user/work/', dst_obs_dir='obs://bucket-name/dir1/')
  • 在Notebook中通过SDK上传下载OBS文件 使用ModelArts SDK接口将OBS中的文件下载到Notebook后进行操作。 示例代码:将OBS中的文件file1.txt下载到Notebook的/home/ma-user/work/路径下。其中,桶名称、文件夹和文件的名称均可以按照业务需求自定义。 from modelarts.session import Session session = Session() session.obs.download_file(src_obs_file="obs://bucket-name/dir1/file1.txt", dst_local_dir="/home/ ma-user/work/") 使用ModelArts SDK接口将OBS中的文件夹下载到Notebook后进行操作。 示例代码:将OBS中的文件夹dir1下载到Notebook的/home/ma-user/work/路径下。其中,桶名称和文件夹的名称均可以按照业务需求自定义。 from modelarts.session import Session session = Session() session.obs.download_dir(src_obs_dir="obs://bucket-name/dir1/", dst_local_dir="/home/ma-user/work/") 使用ModelArts SDK接口将Notebook中的文件上传到OBS后进行操作。 示例代码:将Notebook中的file1.txt文件上传到OBS桶路径obs://bucket-name/dir1/中。其中,桶名称、文件夹和文件的名称均可以按照业务需求自定义。 from modelarts.session import Session session = Session() session.obs.upload_file(src_local_file='/home/ma-user/work/file1.txt', dst_obs_dir='obs://bucket-name/dir1/') 使用ModelArts SDK接口将Notebook中的文件夹上传到OBS。 示例代码:将Notebook中的文件夹“/work/”上传至“bucket-name”桶的“dir1”文件夹下,路径为“obs://bucket-name/dir1/work/”。其中,桶名称和文件夹的名称均可以按照业务需求自定义。 from modelarts.session import Session session = Session() session.obs.upload_dir(src_local_dir='/home/ma-user/work/', dst_obs_dir='obs://bucket-name/dir1/')
  • 在Notebook中安装外部库 DataArts Studio Notebook中已安装Jupyter、Python程序包等多种环境,包括MRS (PySpark)、DLI Spark (PySpark)、DLI Spark (Scala)、python等。您也可以使用pip install在Notobook中安装外部库。 在Notebook中安装 例如,通过JupyterLab在“python-3.7.10”的环境中安装Shapely。 打开一个Notebook实例,进入到Launcher界面。 在“Notebook”区域下,选择一个kernel进入,例如:python-3.7.10”,新建一个ipynb文件。 在新建的Notobook中,在代码输入栏输入如下命令。 !pip install Shapely 父主题: Notebook开发
  • JupyterLab常用快捷键和插件栏 图6 JupyterLab常用快捷键和插件栏 表1 快捷键说明 快捷键 说明 新增Notebook、Terminal、Launcher。 可以快速打开Notebook、Terminal。或打开Launcher页面,可以快速创建新的Notebook、Console或其他文件。 新建文件夹。 可以对文件夹进行删除、重命名等操作。 鼠标悬浮在文件夹名上右键选择New File可以创建.txt格式的任务。 鼠标悬浮在文件夹名上右键选择New Markdown File可以创建.md格式的任务。 上传文件。 刷新文件目录。 Git插件,可连接此Notebook实例关联的Github代码库。 表2 插件栏常用插件说明 插件 说明 File Browser(文件浏览器) 可以通过名称过滤文件。支持通过模糊搜索查找文件。 可以对文件进行删除、重命名等操作。 单击此处,将展示此Notebook实例下的所有文件列表。 Running Terminals and Kernels,当前实例中正在运行的Terminal和Kernel。 会展示Open Tabs、Kernels、Terminals。Open Tabs表示当前正在打开的文件。 Git插件,可以方便快捷地使用Github代码库。 说明: You are not currently in a Git repository. To use Git, navigate to a local repository, initialize a repository here, or clone an existing repository. Open the FileBrowser,单击该按钮后,自动跳转到File Browser页面。 Initialize a Repository Clone a Repository Table of Contents(文档结构图) DataSource(数据源)表示Data Connections。当前仅支持MRS Spark代理连接方式。 From DataArts Management Center,数据连接是来自管理中心创建的MRS Spark代理连接方式。 说明: 管理中心创建连接时,不论是否勾选数据开发组件,在使用Notebook功能时,MRS数据源均能选到该连接。 图7 导航栏按钮 表3 导航栏按钮介绍 按钮 说明 File 新建、关闭、保存、重新加载、重命名、导出、打印Notebook等功能。 Edit 编辑ipynb文件中代码块的相关操作,包括撤销、重做、剪切、复制、粘贴、选择、移动、合并、清除、查找代码块等。 View 查看视图相关操作。 Run 运行代码块相关操作,例如:运行选中代码块、一键运行所有代码块等。 Kernel 中断、重启、关闭、改变Kernel相关操作。 Git Git插件相关操作,可以方便快捷地使用Github代码库。 Tabs 同时打开多个ipynb文件时,通过Tabs激活或选择文件。 Settings JupyterLab工具系统设置。 Help JupyterLab工具自带的帮助参考。 图8 ipynb文件菜单栏中的快捷键 表4 表4 ipynb文件菜单栏中的快捷键 快捷键 说明 保存文件。 添加新代码块。 剪切选中的代码块。 复制选中的代码块。 粘贴选中的代码块。 执行选中的代码块。 终止kernel。 重启kernel。 重启kernel,然后重新运行当前Notebook的所有代码。 此处下拉框有4个选项,分别是: Code(写python代码),Markdown(写Markdown代码,通常用于注释),Raw(一个转换工具),-(不修改)。 查看代码历史版本。 git插件,图标显示灰色表示当前Region不支持。 表示数据连接。 表示代码运行状态,变为实心圆时,表示代码在运行中。 当前的资源规格。 单击可以选择Kernel。
  • 代码化参数插件的使用 代码参数化插件可以降低Notebook案例的复杂度,用户无需感知复杂的源码,按需调整参数快速进行案例复现、模型训练等。该插件可用于定制Notebook案例,适用于比赛、教学等场景。 仅对Code cell类型新增了Edit Form和Add Form功能,如果cell类型是Markdown或者Raw类型则不支持。如下图所示: 图9 查看Code cell 打开新的代码后,需先Add Form,再Edit Form。 图10 Code类型的cell右键选项 “Add Form”会将Code cell水平拆分为两种编辑区域,左侧为代码区域,右侧为表单区域。单击表单右侧的“Edit”可修改默认标题。 “Edit Form”按钮有四个子选项,分别是“Add new form field”、“Hide code”、“Hide form”和“show all”四个按钮,下文介绍这四个选项的功能。 表5 表5 “Edit Form”子选项介绍 “Edit Form”子选项 功能说明 Add new form field 支持新增“dropdown”、“input”和“slider”类型的表单。每新增一个字段,会分别在代码和表单区域中增加对应的变量,修改表单区域的值也会同时修改代码变量值。 说明: 创建dropdown类型的表单时,“ADD Item”至少创建2项。 表单字段类型为“dropdown”时,支持的变量类型为“raw”和“string”。 表单字段类型为“input”时,支持的变量类型有“boolean”、“date”、“integer”、“number” 、“raw”和“string”。 表单字段类型为“slider”时,支持输入滑动条的最小值、最大值和步长。 Hide code 隐藏代码区域。 Hide form 隐藏表单区域。 Show all 同时展示code和form区域。
  • 新建文件并打开Console Console的本质为Python终端,输入一条语句就会给出相应的输出,类似于Python原生的IDE。 进入JupyterLab主页后,可在“Console”区域下,选择适用的AI引擎,单击后将新建一个对应框架的Notebook文件。 由于每个Notebook实例选择的工作环境不同,其支持的AI框架也不同,下图仅为示例,请根据实际显示界面选择AI框架。 图3 选择AI引擎并新建一个Console 文件创建成功后,将直接呈现Console页面。 图4 新建文件(Console)
  • 更多操作 删除:创建好的Notebook实例可以进行删除。单击“删除”,在弹出的“删除Notebook”提示框中,单击“确定”,即可删除。 刷新授权:创建好的Notebook实例,若凭证过期,可以进行授权。单击“刷新授权”,可以重置Notebook内用户授权,有效期24h。 MRS连接超过24小时以后,由于token会过期,导致无法获取资源。可通过“授权”正常使用。 启动:用户只能手动启动已经停止运行的Notebook实例。单击“启动”,可以启动已经停止运行的notebook实例。 停止:用户只能手动停止当前正在运行的Notebook实例。单击“停止”,可以停止当前正在运行的notebook实例。 Notebook停止后,配置在Notebook Jobs中的任务将会丢失。 Notebook实例停止成功后,Notebook将停止使用,用户授权和ENI网卡被释放,资源会被释放。 共享:可以将该Notebook实例共享给该工作空间的其他成员。单击“共享”,添加被共享人的账号信息。 最多共享100个用户或者用户组。当前的规格配置建议不超过10人同时使用,如果超过10个人,会影响用户体验。 别人共享给你的,只能进行打开和查看详情的操作。不可以进行其他操作(删除、刷新授权、启动、停止等)。共享后,Notebook实例界面显示我创建的Notebook实例,共享给我的Notebook实例。 取消共享后,如果被共享人已打开notebook,24小时内有效。 详情:可以查看Notebook实例的基本信息。单击“详情”, 查看Notebook实例的创建人、创建时间、OBS以及网络信息等。
  • 准备工作 已启用Notebook。如果还未启用Notebook,启用Notebook的操作请参见Notebook管理。 已创建好OBS桶。 已创建好VPC、子网、和安全组。请提前做好网络规划: 如果仅对接MRS,则选择MRS集群所在的VPC、子网、和安全组。 如果仅对接DLI,则选择DLI增强型跨源所连接的用户的VPC、子网,安全组入方向规则需要放通DLI弹性资源池所在VPC的30000端口。 如果既对接MRS,又对接DLI,请确保MRS集群所在的VPC、子网和DLI增强型跨源所连接的用户的VPC、子网一致,安全组入方向规则需要放通DLI弹性资源池所在VPC的30000端口。 请确保上述VPC子网已避开172.30.0.0/16和172.31.0.0/16网段。
  • Notebook概述 该功能为白名单功能,如需使用Notebook功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 目前仅支持北京四局点申请开放使用。 DataArts Studio的Notebook是一个交互式开发环境,提供全托管式JupyterLab云化版本,即开即用。帮助数据工程师及数据科学家轻松完成开发、调试、调度集群作业,并支持实时探索、处理和 数据可视化 。 Notebook是基于开源JupyterLab进行了深度优化的交互式数据分析挖掘模块,提供在线的开发和调试能力,用于编写和调测模型训练代码。完成DataArts Studio对接Notebook实例后,您可以基于Notebook提供的Web交互的开发环境同时完成代码的编写与作业的开发,使用Notebook灵活地进行数据分析与探索。 关于Jupyter Notebook的详细操作指导,请参见Jupyter Notebook使用文档。 使用Notebook实例提交DataArts Studio作业适用于在线开发调试场景下的作业需求,无需准备开发环境,一站式完成数据分析与探索。 在使用该功能前,需要先启用Notebook。如果还未启用Notebook,页面会显示“未启用Notebook”。启用Notebook的操作请参见Notebook管理。 当前工作空间如果未启用Notebook,请联系管理员启用Notebook。或者,具有DAYU Administrator或者Tenant Administrator权限的用户也可以启用Notebook。 父主题: Notebook开发
  • 达梦数据库 DM连接参数说明 连接达梦数据库 DM时,相关参数如表1所示。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 表1 达梦数据库 DM连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 dm_link 数据库服务器 配置为要连接的数据库的IP地址或域名,多个值以;分隔。 192.168.0.1;192.168.0.2 端口 配置为要连接的数据库的端口。 不同的数据库端口不同,请根据具体情况配置。 数据库名称 配置为要连接的数据库名称。 dbname 用户名 待连接数据库的用户。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。 cdm 密码 用户名密码。 - 驱动版本 不同类型的关系数据库,需要适配不同的驱动。 - 单次请求行数 可选参数,单击“显示高级属性”后显示。 指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 1000 连接属性 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 sslmode=require 引用符号 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。 ' 父主题: 配置连接参数
  • 分库连接参数说明 分库指的是同时连接多个后端数据源,该连接可作为作业源端,将多个数据源的数据合一迁移到其他数据源上。连接参数如表1所示。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 表1 分库连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 my_link 用户名 待连接数据库的用户。 仅当“数据源列表”中某个后端数据库A未配置用户名密码时,该配置对A生效。如果后端数据库B已配置用户名密码,此处配置不对B生效。 cdm 密码 待连接数据库的用户密码。 仅当“数据源列表”中某个后端数据库A未配置用户名密码时,该配置对A生效。如果后端数据库B已配置用户名密码,此处配置不对B生效。 - 使用Agent Agent功能待下线,无需配置。 - Agent Agent功能待下线,无需配置。 - 后端数据源 输入后端数据库的类型,当前仅支持MYSQL。 MYSQL 数据源列表 输入后端数据库的IP、端口、数据库名称、账户名、密码,以“:”隔开。即ip:port:dbs:username:password,其中username:password可以不填,此时以“用户名”、“密码”配置为准。 如果此处有多个后端数据库,需要确保表结构一致,并使用“|”分隔数据源。如果密码包含“|”或者“:”,可使用“\”转义。 例如“192.168.3.0:3306:cdm|192.168.2.2:3306:cdm:user:password”表示,第一个后端数据库IP为192.168.3.0,端口为3306,数据库名称为cdm,账户名密码以“用户名”、“密码”处配置为准;第二个后端数据库IP为192.168.2.2,端口为3306,数据库名称为cdm,账户名为“user”、密码为“password”。 192.168.3.0:3306:cdm|192.168.2.2:3306:cdm:user:password 单次请求行数 可选参数,单击“显示高级属性”后显示。 指定每次请求获取的行数,根据数据源和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 1000 连接属性 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 sslmode=require 引用符号 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。 ' 父主题: 配置连接参数
  • Oracle数据库连接参数说明 连接Oracle数据库时,连接参数如表1所示。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 表1 Oracle数据库连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 oracle_link 数据库服务器 配置为要连接的数据库的IP地址或域名。 192.168.0.1 端口 配置为要连接的数据库的端口。 默认端口:1521 数据库连接类型 选择Oracle数据库连接类型: Service Name:通过SERVICE_NAME连接Oracle数据库。 SID:通过SID连接Oracle数据库。 SID 实例名称 配置Oracle实例ID,用于实例区分各个数据库。“数据库连接类型”选择“SID”时才有该参数。 dbname 数据库名称 配置为要连接的数据库名称。“数据库连接类型”选择“Service Name”时才有该参数。 dbname 用户名 待连接数据库的用户。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。 cdm 密码 用户密码。 - 使用Agent Agent功能待下线,无需配置。 - Agent Agent功能待下线,无需配置。 - Oracle版本 创建Oracle连接时才有该参数,根据您Oracle数据库的版本来选择。当出现“java.sql.SQLException: Protocol violation异常”时,可以尝试更换版本号。 高于12.1 引用符号 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。 " 驱动版本 不同类型的关系数据库,需要适配不同的驱动,更多详情请参见如何获取驱动。 - 单次请求行数 可选参数,单击“显示高级属性”后显示。 指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 Oracle到DWS迁移时,可能出现目的端写太久导致迁移超时的情况。此时请减少Oracle源端“单次请求行数”参数值的设置。 1000 单次提交行数 可选参数,单击“显示高级属性”后显示。 指定单次批量提交的行数。 10000 连接属性 自定义连接属性,可选参数,单击“添加”可增加多个属性。 常见配置举例如下: oracle.net.CONNECT_TIMEOUT:连接超时时间, 默认60000,单位为毫秒。 oracle.jdbc.ReadTimeout:Socket read timeout超时时间, 默认 300000,单位为毫秒。 60000 连接私密属性 可选参数,单击“显示高级属性”后显示。 自定义私密连接属性。 sk=09fUgD5WOF1L6f 父主题: 配置连接参数
  • 云数据库MySQL/MySQL数据库连接参数说明 连接MySQL数据库连接时,相关参数如表1所示。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 表1 MySQL数据库连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 mysql_link 数据库服务器 配置为要连接的数据库的IP地址或域名。 单击输入框后的“选择”,可获取用户的MySQL数据库实例列表。 192.168.0.1 端口 配置为要连接的数据库的端口。 3306 数据库名称 配置为要连接的数据库名称。 dbname 用户名 待连接数据库的用户。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。 cdm 密码 用户名密码。 - 使用本地API 可选参数,选择是否使用数据库本地API加速。 创建MySQL连接时,CDM会自动尝试启用MySQL数据库的local_infile系统变量,开启MySQL的LOAD DATA功能加快数据导入,提高导入数据到MySQL数据库的性能。注意,开启本参数后,日期类型将不符合格式的会存储为0000-00-00,更多详细信息可在MySQL官网文档查看。 如果CDM自动启用失败,请联系数据库管理员启用local_infile参数或选择不使用本地API加速。 如果是导入到RDS上的MySQL数据库,由于RDS上的MySQL默认没有开启LOAD DATA功能,所以同时需要修改MySQ L实例 的参数组,将“local_infile”设置为“ON”,开启该功能。 说明: 如果RDS上的“local_infile”参数组不可编辑,则说明是默认参数组,需要先创建一个新的参数组,再修改该参数值,并应用到RDS的MySQL实例上,具体操作请参见《关系型数据库用户指南》。 是 使用Agent Agent功能待下线,无需配置。 - Agent Agent功能待下线,无需配置。 - local_infile字符集 MySQL通过local_infile导入数据时,可配置编码格式。 utf8 驱动版本 不同类型的关系数据库,需要适配不同的驱动。 - 单次请求行数 可选参数,单击“显示高级属性”后显示。 指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 1000 单次提交行数 可选参数,单击“显示高级属性”后显示。 指定每次批量提交的行数,根据数据目的端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 10000 SSL加密 可选参数,控制是否通过SSL加密方式连接数据库,创建云数据MySQL连接时显示该参数。 是 连接属性 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 常见配置举例如下: connectTimeout=600000与socketTimeout=300000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。 tinyInt1isBit=true(默认),且tinyInt长度为1,则转为Boolean处理;tinyInt1isBit=false,则转为Integer。 如果源端读取为true或false导致数据写入失败时,可配置参数为false避免迁移报错。详情请参考MySQL相关文档。 useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关;开源MySQL数据库支持useCursorFetch参数,无需对此参数进行设置。 allowPublicKeyRetrieval=true:MySQL默认关闭允许公钥检索机制,因此连接MySQL数据源时,如果TLS不可用、使用RSA公钥加密时,可能导致连接报错。此时可打开公钥检索机制,避免连接报错。 useSSL=false:CDM集群版本为2.10.0.300且MySQL版本为mysql5.7.43以上时,可以通过添加连接属性useSSL=false打开SSL加密开关。 sslmode=require 引用符号 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。 ` 单次写入行数 指定单次批量写入的行数,当写入行数累计到单次批量提交行数时提交一次,该值应当小于单次提交行数。 100 父主题: 配置连接参数
  • 数据服务操作列表 云审计 服务(Cloud Trace Service,简称 CTS )为用户提供了云账户下资源的操作记录,可以帮您记录相关的操作事件,便于日后的查询、审计和回溯。 表1 支持云审计的关键操作列表 操作名称 资源类型 事件名称 创建API DLMApi createApi 更新API DLMApi updateApi 查询API DLMApi getApi 查询API列表 DLMApi getApiList(Api) 删除API DLMApi deleteApi 发布API DLMApi publishApi 下线API DLMApi unpublishApi 续约API DLMApi renewApi 停用API DLMApi stopApi 恢复API DLMApi recoverApi 复制API DLMApi copyApi 操作API DLMApi actionApi 创建APP DLMApp createApp 更新APP DLMApp updateApp 删除APP DLMApp deleteApp 查询APP DLMApp getApp 查询APP详情 DLMApp getAppInfo 操作APP(包括重置AppSecret以及绑定API) DLMApp appAction 授权API DLMRelation authorizeApi 查询已授权的应用 DLMRelation getAuthorizeApp 取消授权 DLMRelation cancelApprovalApi 查询未授权的应用 DLMRelation getLeftApp 申请API DLMApply applyApi 取消申请 DLMApply revokeApply 获取申请列表 DLMApply getApplyList 获取申请详情 DLMApply getApplyDetail 获取通知详情 DLMApply getMessageDetail 创建申请 DLMApply createApply 批量审核申请 DLMApply batchApproveNewApply 发送通知 DLMApply sendMesg 获取通知列表 DLMApply getMessageList 获取发布趋势 DLMApply getPublishTrend 创建流控策略 DLMFlowControl createFlowControlStrategy 更新流控策略 DLMFlowControl updateFlowControlStrategy 删除流控策略 DLMFlowControl deleteFlowControlStrategy 查询流控策略 DLMFlowControl getFlowControlStrategy 查询API列表(流控相关) DLMFlowControlBindApi getAllApiList 查询已绑定的API列表 DLMFlowControlBindApi getBindingApiList 绑定API DLMFlowControlBindApi bindingApi 解绑API DLMFlowControlBindApi unBindingApi 查询统计用户相关的总览开发指标 DLMRequestRecord getApisOverview 查询统计用户相关的总览调用指标 DLMRequestRecord getAppsOverView 查询api 服务调用topN DLMRequestRecord getApisTop 查询app 服务使用topN DLMRequestRecord getAppsTop 查询api 统计数据详情 DLMRequestRecord getApisDetail 查询app 统计数据详情 DLMRequestRecord getAppsDetail 查询api 仪表板数据详情 DLMRequestRecord getApisDashboard 查询app 仪表板数据详情 DLMRequestRecord getAppsDashboard 查询api 服务异常调用topN DLMRequestRecord getApisError 查询支持的数据源类型 DLMDataSourceType getDatasources 查询数据连接 DLMDataSourceConnection getDatasourceConnections 查询数据库 DLMDataSourceDatabase getDatasourcedatabases 查询数据库表 DLMDataSourceTable getDatasourcedatables 查询数据库表的字段 DLMDataSourceTableField getDatasourceTableFields 查询数据源队列(DLI) DLMDataSourceQueue getQueue 查询有权成为审核人的用户 DLMAuthorizedUser getAuthorizedUser 创建审核人 DLMApprover createApprover 删除审核人 DLMApprover deleteApprover 查询审核人 DLMApprover getApproverList 查询服务目录下的所有内容 DLMServiceCatalog getCatalogAllDetail 查询服务目录下的api DLMServiceCatalog getCatalogApis 查询服务目录下的目录 DLMServiceCatalog getCatalogCatalogs 创建服务目录 DLMServiceCatalog createCatalog 删除服务目录 DLMServiceCatalog deleteCatalog 更新服务目录 DLMServiceCatalog updateCatalog 查询服务目录详情 DLMServiceCatalog getCatalogDetail 移动服务目录 DLMServiceCatalog moveCatalog 移动API DLMServiceCatalog moveApi 获取标签列表 DLMTag getTags 获取本地标签列表 DLMTag getLocalTags 更新标签列表 DLMTag updateTags 父主题: 支持云审计的关键操作
  • 数据目录操作列表 云审计服务(Cloud Trace Service,简称CTS)为用户提供了云账户下资源的操作记录,可以帮您记录相关的操作事件,便于日后的查询、审计和回溯。 表1 支持云审计的关键操作列表 操作名称 资源类型 事件名称 添加数据掩码 datamask createDataMask 查询数据掩码列表 datamask listDataMask 查询数据掩码 datamask getDataMask 删除数据掩码 datamask deleteDataMask 批量删除数据掩码 datamask batchDeleteDataMask 修改数据掩码 datamask updateDataMask 配置采集任务并运行 bridgetask createBridgeTask 查询采集任务列表 bridgetask getBridgeTask 编辑采集任务 bridgetask updateBridgeTask 批量删除采集任务 bridgetask batchDeleteBridgeTask 数据资产添加标签 asset addTagToAsset 添加标签 tag createTag 批量添加标签 tag batchCreateTag 批量删除标签 tag batchDeleteTag 修改标签 tag updateTag 查询标签列表 tag getTags 删除标签 tag deleteTag 新建任务目录 bridgetaskcategory createBridgeTaskCategory 获取任务目录列表 bridgetaskcategory getBridgeTaskCategoryTree 编辑任务目录 bridgetaskcategory updateBridgeTaskCategory 删除任务目录 bridgetaskcategory deleteBridgeTaskCategory 创建分类分组 classificationgroup createClassificationGroup 查询分类分组列表 classificationgroup listClassificationGroup 查询分类分组 classificationgroup getClassificationGroup 批量删除分组 classificationgroup batchDeleteClassificationGroup 修改分类分组 classificationgroup updateClassificationGroup 创建分类规则 classificationrule createClassificationRule 查询分类规则列表 classificationrule listClassificationRule 查询分类规则 classificationrule getClassificationRule 批量删除分类规则 classificationrule batchDeleteClassificationRule 修改分类规则 classificationrule updateClassificationRule 创建数据密级 secrecylevel createSecrecyLevel 查询数据密级列表 secrecylevel listSecrecyLevel 查询数据密级 secrecylevel getSecrecyLevel 批量删除数据密级 secrecylevel batchDeleteSecrecyLevel 修改数据密级 secrecylevel updateSecrecyLevel 创建采集任务 bridgetask createBridgeTask 编辑采集任务 bridgetask updateBridgeTask 删除采集任务 bridgetask deleteBridgeTask 查询采集任务列表 bridgetask getTasks 父主题: 支持云审计的关键操作
  • 数据质量操作列表 云审计服务(Cloud Trace Service,简称CTS)为用户提供了云账户下资源的操作记录,可以帮您记录相关的操作事件,便于日后的查询、审计和回溯。 表1 支持云审计的关键操作列表 操作名称 资源类型 事件名称 创建目录 Category createCategory 删除目录 Category deleteCategory 更新目录 Category updateCategory 批量停止 Instance batchStop 批量删除 Instance batchDeleteInstances 创建对账作业 ConsistencyTask createConsistencyTask 批量删除对账作业 ConsistencyTask batchDeleteConsistencyTask 编辑对战作业 ConsistencyTask editConsistencyTask 启动调度对账作业 ConsistencyTask startScheduleConsistencyTask 停止对账作业 ConsistencyTask stopScheduleConsistencyTask 运行对账作业 ConsistencyTask runConsistencyTask 创建质量作业 Rule createRuleTask 删除质量作业 Rule deleteRule 更新质量作业 Rule updateRule 运行质量作业 Rule instanceScheduleOperation 批量运行质量作业 Rule batchInstanceScheduleOperation 批量操作质量作业 Rule batchOperateRules 创建规则模板 RuleTemplate createTemplate 删除规则模板 RuleTemplate deleteTemplate 查询规则模板列表 RuleTemplate getRuleTemplateList 更新规则模板 RuleTemplate updateTemplate 查询规则模板 RuleTemplate getTemplate 获取依赖规则模板的质量作业和对账作业 RuleTemplate getDependentTasks 批量更新作业的规则模板 RuleTemplate batchUpdateDependentTasks 父主题: 支持云审计的关键操作
  • 数据开发操作列表 云审计服务(Cloud Trace Service,简称CTS)为用户提供了云账户下资源的操作记录,可以帮您记录相关的操作事件,便于日后的查询、审计和回溯。 表1 支持云审计的关键操作列表 操作名称 资源类型 事件名称 创建作业 job createJob(api) 修改作业 job editJob(api) 保存作业 job saveJob 删除作业 job deleteJob 重命名作业 job renameJob 导入作业 job importPipeline/importJob(api) 导出作业 job exportPipeline/exportJob(api) 批量导出作业 job exportJobs(api) 提交作业版本 job addNewVersion 抢作业锁 job acquireEditLock 解作业锁 job releaseLock 批量解作业锁 job batchReleaseEditLock 测试运行 job testRun 执行调度 job startJob 执行调度 job startJobByName 停止调度 job stopJob 批量停止调度 job stopJobs 暂停调度 job pauseJob 作业复制另存为 job copyAndSaveJob 批量删除作业 job deleteDirectoryList 移动作业 job move 停止实例 task stopTask/stop(api) 强制成功实例 task forceTaskSuccess 继续执行实例 task continueExecute 重跑实例 task retryTask/restart(api) 节点暂停 task pauseJob 节点恢复 task resumeJob 节点手工重试 task redoJobs 节点跳过 task skipJob 节点强制成功 task forceJobSuccess 新建脚本 script addScript/createScript(api) 执行脚本 script executeScript 修改脚本 script saveScript/editScript(api) 导出脚本 script exportScripts 导入脚本 script importScript 脚本语法校验 script checkSyntax 提交脚本版本 script addNewVersion 抢脚本锁 script acquireScriptLock 解脚本锁 script releaseScriptLock 批量解脚本锁 script batchReleaseScriptLock 批量删除脚本 script deleteDirectoryList 移动脚本 script move 创建目录 directory createDirectory 修改目录 directory modifyDirectory 删除目录 directory deleteDirectoryByPath 移动目录 directory move 批量删除目录 directory deleteDirectoryList 创建数据连接 dataWarehouse createDataWarehouse 测试数据连接 dataWarehouse testDataWarehouseConnectivity 更新数据连接 dataWarehouse updateDataWarehouse 删除数据连接 dataWarehouse deleteDataWarehouse 导出数据连接 dataWarehouse exportConnection 导入数据连接 dataWarehouse importConnection 创建数据库 dataWarehouse createDatabase 更新数据库 dataWarehouse updateDatabase 删除数据库 dataWarehouse deleteDatabase 创建数据表 dataWarehouse createDataTable 更新数据表 dataWarehouse updateDataTable 删除数据表 dataWarehouse deleteDataTable 创建schema dataWarehouse createSchema 删除schema dataWarehouse deleteSchema 更新schema dataWarehouse updateSchema 创建通知 alarmRule createAlarmRules 创建并更新通知 alarmRule createAndUpdateAlarmRules 删除通知 alarmRule deleteAlarmRules 更新通知 alarmRule updateAlarmRules 创建资源 dataResource createResource 更新资源 dataResource updateResource 删除资源 dataResource deleteResources 导出资源 dataResource exportResource 导入资源 dataResource importResource 批量删除资源 dataResource deleteDirectoryList 新建标签 tag create 删除标签 tag delete 导出标签 tag exportJobTags OBS导入标签 tag importJobTag 本地导入标签 tag importJobTag2 保存环境变量 environmentVariable saveEnvParams 删除环境变量 environmentVariable deleteEnvParams 导出环境变量 environmentVariable exportEnvParams 导入环境变量 environmentVariable importEnvParams 更新空间配置项 workspaceConfig updateWorkSpaceConfigs 上传文件 file uploadFile 配置空间委托 agency saveAgency 保存敏感变量 sensitiveParam saveSensitiveParam 更新敏感变量 sensitiveParam updateSensitiveParam 删除敏感变量 sensitiveParam deleteSensitiveParam 新建cdm连接 createConnection cdmConnection 更新cdm连接 updateConnection cdmConnection 删除cdm连接 deleteConnection cdmConnection 发送httpTrigger消息 sendMessage httpTriggerMessage 更新审批开关 jobApproval updateApprovalFlag 提交作业版本 jobApproval addNewVersion 提交脚本版本 jobApproval addNewVersion 批量审批 jobApproval batchApproval 撤销审批 jobApproval cancelApply 获取配置 Config ShowAuthoringConfig 获取集群 Cluster ShowAuthoringCluster 删除Notebook Notebook DeleteAuthoringNotebook 获取当前空间配额及配额上限 Quota ShowAuthoringQuota 创建Notebook Notebook CreateAuthoringNotebook 获取Notebook Notebook ShowAuthoringNotebook 获取Notebook列表 Notebook ListAuthoringNotebook 启动Notebook Notebook StartAuthoringNotebook 停止Notebook Notebook StopAuthoringNotebook 再次授权Notebook Notebook ResetAuthAuthoringNotebook 获取任务 Job ShowAuthoringJob 父主题: 支持云审计的关键操作
  • 数据架构操作列表 云审计服务(Cloud Trace Service,简称CTS)为用户提供了云账户下资源的操作记录,可以帮您记录相关的操作事件,便于日后的查询、审计和回溯。 表1 支持云审计的关键操作列表 操作名称 资源类型 资源名称 事件名称 查看主题设计 DAYU_DS dsSubject getListSubject 创建主题设计 DAYU_DS dsSubject createSubject 更新主题设计 DAYU_DS dsSubject updateSubject 发布主题设计 DAYU_DS dsSubject publishedSubject 下线主题设计 DAYU_DS dsSubject offlineSubject 删除主题设计 DAYU_DS dsSubject deleteSubject 查看流程设计 DAYU_DS dsBizCatalog getListBizCatalog 创建流程设计 DAYU_DS dsBizCatalog createBizCatalog 更新流程设计 DAYU_DS dsBizCatalog updateBizCatalog 删除流程设计 DAYU_DS dsBizCatalog deleteBizCatalog 查看码表管理 DAYU_DS dsCodeTable getListCodeTable 创建码表管理 DAYU_DS dsCodeTable createCodeTable 更新码表管理 DAYU_DS dsCodeTable updateCodeTable 发布码表管理 DAYU_DS dsCodeTable publishedCodeTable 下线码表管理 DAYU_DS dsCodeTable offlineCodeTable 删除码表管理 DAYU_DS dsCodeTable deleteCodeTable 查看数据标准 DAYU_DS dsStandardElement getListStandardElement 创建数据标准 DAYU_DS dsStandardElement createStandardElement 更新数据标准 DAYU_DS dsStandardElement updateStandardElement 发布数据标准 DAYU_DS dsStandardElement publishedStandardElement 下线数据标准 DAYU_DS dsStandardElement offlineStandardElement 删除数据标准 DAYU_DS dsStandardElement deleteStandardElement 查看逻辑实体/物理表 DAYU_DS dsTableModel getListTableModel 创建逻辑实体/物理表 DAYU_DS dsTableModel createTableModel 更新逻辑实体/物理表 DAYU_DS dsTableModel updateTableModel 发布逻辑实体/物理表 DAYU_DS dsTableModel publishedTableModel 下线逻辑实体/物理表 DAYU_DS dsTableModel offlineTableModel 删除逻辑实体/物理表 DAYU_DS dsTableModel deleteTableModel 查看维度 DAYU_DS dsDimension getListDimension 创建维度 DAYU_DS dsDimension createDimension 更新维度 DAYU_DS dsDimension updateDimension 发布维度 DAYU_DS dsDimension publishedDimension 下线维度 DAYU_DS dsDimension offlineDimension 删除维度 DAYU_DS dsDimension deleteDimension 查看维度表 DAYU_DS dsDimensionLogicTable getListDimensionLogicTable 删除维度表 DAYU_DS dsDimensionLogicTable deleteDimensionLogicTable 查看事实表 DAYU_DS dsFactLogicTable getListFactLogicTable 创建事实表 DAYU_DS dsFactLogicTable createFactLogicTable 更新事实表 DAYU_DS dsFactLogicTable updateFactLogicTable 发布事实表 DAYU_DS dsFactLogicTable publishedFactLogicTable 下线事实表 DAYU_DS dsFactLogicTable offlineFactLogicTable 删除事实表 DAYU_DS dsFactLogicTable deleteFactLogicTable 查看汇总表 DAYU_DS dsAggregationLogicTable getListAggregationLogicTable 创建汇总表 DAYU_DS dsAggregationLogicTable createAggregationLogicTable 更新汇总表 DAYU_DS dsAggregationLogicTable updateAggregationLogicTable 发布汇总表 DAYU_DS dsAggregationLogicTable publishedAggregationLogicTable 下线汇总表 DAYU_DS dsAggregationLogicTable offlineAggregationLogicTable 删除汇总表 DAYU_DS dsAggregationLogicTable deleteAggregationLogicTable 查看业务指标 DAYU_DS dsBizMetric getListBizMetric 创建业务指标 DAYU_DS dsBizMetric createBizMetric 更新业务指标 DAYU_DS dsBizMetric updateBizMetric 发布业务指标 DAYU_DS dsBizMetric publishedBizMetric 下线业务指标 DAYU_DS dsBizMetric offlineBizMetric 删除业务指标 DAYU_DS dsBizMetric deleteBizMetric 查看原子指标 DAYU_DS dsAtomicIndex getListAtomicIndex 创建原子指标 DAYU_DS dsAtomicIndex createAtomicIndex 更新原子指标 DAYU_DS dsAtomicIndex updateAtomicIndex 发布原子指标 DAYU_DS dsAtomicIndex publishedAtomicIndex 下线原子指标 DAYU_DS dsAtomicIndex offlineAtomicIndex 删除原子指标 DAYU_DS dsAtomicIndex deleteAtomicIndex 查看衍生指标 DAYU_DS dsDerivativeIndex getListDerivativeIndex 创建衍生指标 DAYU_DS dsDerivativeIndex createDerivativeIndex 更新衍生指标 DAYU_DS dsDerivativeIndex updateDerivativeIndex 删除衍生指标 DAYU_DS dsDerivativeIndex deleteDerivativeIndex 发布衍生指标 DAYU_DS dsDerivativeIndex publishedDerivativeIndex 下线衍生指标 DAYU_DS dsDerivativeIndex offlineDerivativeIndex 查看复合指标 DAYU_DS dsCompoundMetric getListCompoundMetric 创建复合指标 DAYU_DS dsCompoundMetric createCompoundMetric 更新复合指标 DAYU_DS dsCompoundMetric updateCompoundMetric 删除复合指标 DAYU_DS dsCompoundMetric deleteCompoundMetric 发布复合指标 DAYU_DS dsCompoundMetric publishedCompoundMetric 下线复合指标 DAYU_DS dsCompoundMetric offlineCompoundMetric 查看时间限定 DAYU_DS dsTimeCondition getListTimeCondition 创建时间限定 DAYU_DS dsTimeCondition createTimeCondition 更新时间限定 DAYU_DS dsTimeCondition updateTimeCondition 发布时间限定 DAYU_DS dsTimeCondition publishedTimeCondition 下线时间限定 DAYU_DS dsTimeCondition offlineTimeCondition 删除时间限定 DAYU_DS dsTimeCondition deleteTimeCondition 查看目录 DAYU_DS dsDirectory getListDirectory 创建目录 DAYU_DS dsDirectory createDirectory 更新目录 DAYU_DS dsDirectory updateDirectory 删除目录 DAYU_DS dsDirectory deleteDirectory 查看模型 DAYU_DS dsModel getListModel 创建模型 DAYU_DS dsModel createModel 更新模型 DAYU_DS dsModel updateModel 删除模型 DAYU_DS dsModel deleteModel 父主题: 支持云审计的关键操作
  • 管理中心操作列表 云审计服务(Cloud Trace Service,简称CTS)为用户提供了云账户下资源的操作记录,可以帮您记录相关的操作事件,便于日后的查询、审计和回溯。 表1 支持云审计的关键操作列表 操作名称 资源类型 事件名称 创建数据连接 dataWarehouse createDataWarehouse 编辑数据连接 dataWarehouse updateDataWarehouse 删除数据连接 dataWarehouse deleteDataWarehouse 创建工作空间 workspace createWorkspaces 更新工作空间 workspace updateWorkspaces 删除工作空间 workspace deleteWorkspaces 冻结工作空间 workspace frozenWorkspaces 解冻工作空间 workspace unfrozenWorkspaces 添加工作空间用户 User saveWorkspaceUser 编辑工作空间用户 User updateWorkspaceUser 删除工作空间用户 User deleteWorkspaceUser 下载文件 Config downloadFile 创建导入导出任务 Config createObsImportOrExportTask 父主题: 支持云审计的关键操作
  • 创建文件敏感数据检测任务 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的“敏感数据发现”,在敏感数据发现页面选择“文件敏感数据检测”,进入文件敏感数据检测页签。 图1 文件敏感数据检测页面 在文件敏感数据检测页面,单击“新建”,创建文件敏感数据检测任务。在弹出的窗口中填写任务名称,选择文件。 图2 文件敏感数据检测页面 单击确定,任务自动运行。等待任务运行完成,即可查看检测结果。 图3 查看检测结果
  • 基于AI识别敏感信息 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的“敏感数据发现”,在敏感数据发现页面选择“推荐识别”,进入推荐识别页签。 图4 推荐识别页面 在页面中选择待识别敏感信息数据表,配置采样行数,识别方式选择为“AI识别”。AI识别方式可以自动识别,实时得到推荐结果。 图5 配置AI识别 如果想要将AI识别结果同步到数据地图组件,可以勾选字段,将分类信息和密级信息同步至数据地图。 图6 AI识别结果同步 点击同步后,可以在“AI推荐识别结果”页面查看同步结果。注意同步为异步操作,若同步失败,可以查看原因,修正后再次进行同步。 图7 查看同步结果
  • 基于入湖检测规则识别敏感信息 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的“敏感数据发现”,在敏感数据发现页面选择“推荐识别”,进入推荐识别页签。 图1 推荐识别页面 在页面中选择待识别敏感信息数据表,配置采样行数,识别方式选择为“入湖检测规则”。 图2 配置入湖检测 手动刷新获取扫描结果,等待扫描状态为“成功”后 ,扫描结果返回。注意入湖检测规则识别方式为异步识别,需要手动刷新。 图3 扫描结果
  • 约束与限制 数据集成(离线作业)的表数据迁移和数据安全敏感数据发现中的推荐识别场景下,仅支持MRS Hive、DWS、DLI和RDS MySQL数据源。 数据集成(离线作业)的表敏感数据检测对表内容格式要求如下: 表字段数量至多为500。 对于字符串类型的表字段,仅会检测前1000个字符的敏感信息,超过1000字符部分会被截断。 识别规则仅支持规则类型为正则表达式的内置规则或自定义规则,识别规则至多可以配置50条。
  • 配置作业上移策略 如需将数据入湖检测规则应用到数据集成(离线作业)的表敏感数据实时检测中,则需开启并配置作业上移策略。 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的“数据识别规则”,在数据识别规则页面中单击“数据入湖检测规则”,进入数据入湖检测规则页签。 在数据入湖检测规则页面中,作业上移策略配置参数说明请参见表1。 图1 配置数据入湖检测规则 表1 作业上移策略配置参数 参数名 参数说明 实时检测作业上移敏感信息 是否开启在数据集成(离线作业)进行表数据迁移时的表敏感数据实时检测,默认关闭。 敏感信息拦截策略 在数据集成(离线作业)作业中,如果识别到了敏感信息的拦截策略: 强拦截:只要检测到敏感信息,就无法保存作业。 弱拦截:对配置了加解密或脱敏处理的敏感字段不做拦截。 不拦截:无处理策略,不做任何拦截。 采样条数 在数据集成(离线作业)作业中,表示对表字段进行检测时采样前多少行,最多为100行。 同步 单击同步按钮,将策略同步至数据集成(离线作业)。此处的规则策略需要同步至数据集成(离线作业)中才会生效。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全