检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
简单模式下为实现开发和生产环境隔离,需要创建两个工作空间,一个是开发环境工作空间,一个是生产环境工作空间,然后将开发工作空间导出的脚本或作业,导入到生产工作空间。在这种方式下,无法简单便捷地完成生产和开发环境同步,缺少审批管控环节。针对以上问题,可以通过企业空间模式,在一个工作空间实现开发与生产环境隔离,通过
*源表 选择数据来源的表,如果数据来源于一个模型中的多个表,可以单击表名后的按钮为该表和其他表之间设置JOIN。 选择一种“JOIN方式”,“JOIN方式”从左到右依次表示left JOIN、right JOIN、inner JOIN、outer JOIN。 在“JOIN字段”中设置
SQL脚本 在“SQL脚本”参数后选择需要执行的脚本。如果脚本未创建,请参考新建脚本和开发SQL脚本先创建和开发脚本。 说明: 若选择SQL语句方式,数据开发模块将无法解析您输入SQL语句中携带的参数。 数据连接 是 默认选择SQL脚本中设置的数据连接,支持修改。 数据库 是 默认选择SQL脚本中设置的数据库,支持修改。
脚本的责任人和描述信息。 企业模式下,支持从脚本开发界面快速前往发布。标放置在上,单击“前往发布”,进入待发布任务界面。 在MRS API连接方式下,Spark SQL和HIve SQL脚本支持配置指定参数和参数值。代理连接不支持。 单击右上角的,设置相关脚本的环境变量。举例如下所示:
名称:用户自定义连接名称,例如“obslink”。 OBS服务器、端口:配置为OBS实际的地址信息。 访问标识(AK)、密钥(SK):登录OBS的AK、SK。 您可以通过如下方式获取访问密钥。 登录控制台,在用户名下拉列表中选择“我的凭证”。 进入“我的凭证”页面,选择“访问密钥 > 新增访问密钥”,如图4所示。 图4
述信息。 对于DataArts Studio已支持的对象,单击对象名称,可跳转至该对象的管理页面。 数据架构信息架构 信息架构是以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。在数据架构的“信息架构”页面,可以查看和管理所有的表,包括逻辑实体、物理表、维度表、事实表、汇总表等资源。
容识别。内容识别正则表达式举例:“^男$|^女&”。 列名识别:勾选此项后输入自定义正则表达式,该表达式将用于字段名精确匹配和模糊匹配两种方式,当前支持多个字段匹配。列名识别正则表达式举例:“age|years”。 备注识别:勾选此项后输入自定义正则表达式,例如“.*comment
输入参数信息,多个参数间使用Enter键分隔。 执行程序参数 否 输入MRS的执行程序参数。 不同参数间用空格隔开,可通过在参数名前添加@的方式防止参数信息被明文存储。 属性 否 输入key=value格式的参数,多个参数间使用Enter键分割。 表2 高级参数 参数 是否必选 说明
user over ratelimit,limit:60,time:1 minute",如下图所示。 图1 报错信息 解决方案 由于MRS服务的接口限制了单个用户每分钟最多调用60次,因此只能通过降低调用频率来解决该问题。 父主题: 数据开发
会保持原样。 增量迁移文件 使用CDM进行二进制传输文件时,目的端有一个参数“重复文件处理方式”,可以用作文件的增量迁移,具体请参见文件增量迁移。 增量迁移文件的时候,选择“重复文件处理方式”为“跳过重复文件”,这样如果源端有新增的文件,或者是迁移过程中出现了失败,只需要再次运行任务,已经迁移过的文件就不会再次迁移。
”继续添加更多码表记录。 导入码表 通过导入码表,可以导入新的码表,也可以往已有的码表中批量导入码表记录。如果码表记录比较多,建议采用导入方式。 在数据架构控制台,单击左侧的“码表管理”,进入码表管理页面。 在左侧的目录树中,选择一个目录,再单击“更多 > 导入”。您也可以在所选
会保持原样。 增量迁移文件 使用CDM进行二进制传输文件时,目的端有一个参数“重复文件处理方式”,可以用作文件的增量迁移,具体请参见文件增量迁移。 增量迁移文件的时候,选择“重复文件处理方式”为“跳过重复文件”,这样如果源端有新增的文件,或者是迁移过程中出现了失败,只需要再次运行任务,已经迁移过的文件就不会再次迁移。
标签:可选参数。您可以输入新的标签名称,也可以在下拉列表中选择已有的标签。 适用组件:保持默认即可。 SSL加密:是否开启,请与源端DWS集群的配置保持一致。 连接方式:选择“通过代理连接”。 手动:选择“集群名”模式,“IP”和“端口”不需要手动填写。 DWS集群名:选择所创建的DWS集群。 KMS密钥
呈现此参数。 AK和SK分别为登录OBS服务器的访问标识与密钥。 您需要先创建当前账号的访问密钥,并获得对应的AK和SK。 您可以通过如下方式获取访问密钥。 登录控制台,在用户名下拉列表中选择“我的凭证”。 进入“我的凭证”页面,选择“访问密钥 > 新增访问密钥”,如图1所示。 图1
名称:用户自定义连接名称,例如“obslink”。 OBS服务器、端口:配置为OBS实际的地址信息。 访问标识(AK)、密钥(SK):登录OBS的AK、SK。 您可以通过如下方式获取访问密钥。 登录控制台,在用户名下拉列表中选择“我的凭证”。 进入“我的凭证”页面,选择“访问密钥 > 新增访问密钥”,如图4所示。 图4
描述 对策略的描述信息,长度限制在256个字符以内。 资源路径 访问权限控制的HDFS路径。 递归 开启表示资源路径为递归方式。关闭表示资源路径为非递归方式。默认开启。 有效时间 用户通过设置开始时间和结束时间来控制策略的生效时间段,可配置多条。 允许访问 定义允许访问的用户和用户组。
请确认Schema和SQL是否同时指定,仅指定其中一项后,再重试。 Cdm.0914 基于查询的导入方式时必须提供分区字段。 请指定分区字段后,再重试。 Cdm.0915 基于SQL的导入方式和ColumnList不能同时使用。 请确认两种是否同时使用,仅使用其中一项后,再重试。 Cdm
看,如图11所示。 图11 查看作业执行情况 数据开发还支持配置通知管理,可以选择配置当作业运行异常/失败后,进行短信、邮件、控制台等多种方式提醒,此处不再展开描述。 至此,基于电影评分的数据集成与开发流程示例完成。此外,您还可以根据原始数据,分析不同类型电影的评分、浏览情况等,
填写基本配置参数。 图3 基本配置 表2 基本配置 参数名称 说明 *所属主题 单击“选择主题”选择所属的主题信息。 逻辑实体编码 支持自动生成和自定义两种方式。 *逻辑实体名称 逻辑实体的名称。 只允许除\、<、>、%、"、'、;及换行符以外的字符。 *表英文名称 逻辑实体转换为物理表的名称。只
集群、同库表列的不同内容的脱敏策略。 当前MRS服务支持的脱敏规则如表2所示,但对中文字符仅支持NULL掩盖和哈希掩盖两种脱敏方式,如果选择其他脱敏方式则脱敏不生效。 MRS Hive数据源的“SM3”、“自定义/保留前x后y”和“自定义/掩盖前x后y”这三种脱敏规则非MRS R