检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Studio功能,工作空间的划分通常按照分子公司(如集团、子公司、部门等)、业务领域(如采购、生产、销售等)或者实施环境(如开发、测试、生产等),没有特定的划分要求。 工作空间从系统层面为管理者提供对使用DataArts Studio的用户(成员)权限、资源、DataArts Studio底层计算引擎配置的管理能力。
作业,A依赖所有B在自然天内的实例,A会在最后一个B小时作业实例执行完成后执行。 举例:A依赖B,A配置的调度时间为每天17点执行一次,B从0点开始,每5个小时执行一次,那么A实际执行时间为JobB在20点的实例运行完之后开始运行。 图11 天依赖小时 如果在配置作业依赖关系时勾
集群时,会出现每月订购周期内可使用时长不足的情况)。 例如购买了1个月的套餐包(745小时/月),按区域和实例规格匹配到两个CDM集群后,从当前开始的1个月订购有效期内,两个集群同时使用只能使用745/2=372.5小时,约15.5天,剩余时间内两个集群按照按需计费的方式结算费用。
下一天的零点) ,不可跨天。 小时依赖分钟(勾选最近依赖) 往前找到最近的分钟任务,挂载依赖。 示例:小时作业A每小时15分钟开始调度;分钟作业B从凌晨一点开始每15分钟调度一次。则小时作业A在0点15分的实例,依赖分钟作业B在昨天23点45分的实例;小时作业A在1点15分的实例,依赖分钟作业B在1点15分的实例。
的启动配置对话框按照实际情况配置同步位点参数,单击“确定”启动作业。 图8 启动配置 表7 启动配置参数 参数 说明 同步模式 增量同步:从指定时间位点开始同步增量数据。 全量+增量:先同步全量数据,随后实时同步增量数据。 时间 增量同步需要设置该参数,指示增量同步起始的时间位点。
int 调度并发数 取值范围:1~128 默认值:1 readPolicy 否 String 读取策略: LAST :从上次位置读取 NEW- 从最新位置读取 默认值 : LAST 表12 Cron表达式字段取值 字段 取值范围 允许的特殊字符 说明 秒 0-59 , - * / 当前版本只允许输入0。
调度并发数。 取值范围:1~128 默认值:1 readPolicy 否 String 读取策略: LAST :从上次位置读取 NEW- 从最新位置读取 默认:LAST 表12 Cron表达式字段取值 字段 取值范围 允许的特殊字符 说明 秒 0-59 , - * / 当前版本只允许输入0。
int 调度并发数 取值范围:1~128 默认值:1 readPolicy 否 String 读取策略: LAST :从上次位置读取 NEW- 从最新位置读取 默认值 : LAST 表11 Cron表达式字段取值 字段 取值范围 允许的特殊字符 说明 秒 0-59 , - * / 当前版本只允许输入0。
Each节点,选中连线图标并拖动,编排图5所示的作业。 配置HIVE SQL节点属性。此处配置为引用SQL脚本,SQL脚本的语句如下所示。其他节点属性参数无特殊要求。 --从student_score表中统计成绩在85分以上的人数-- SELECT count(*) FROM student_score WHERE
Each节点,选中连线图标并拖动,编排图5所示的作业。 配置HIVE SQL节点属性。此处配置为引用SQL脚本,SQL脚本的语句如下所示。其他节点属性参数无特殊要求。 --从student_score表中统计成绩在85分以上的人数-- SELECT count(*) FROM student_score WHERE
DWS SQL属性 数据连接 选择数据连接。 数据库 选择数据库。 脏数据表 SQL脚本中定义的脏数据表名称。 脏数据属性用户不能编辑,自动从SQL脚本内容中关联推荐。 匹配规则 设置java正则表达式,匹配DWS SQL结果内容,比如表达式为(?<=\()(-*\d+?)(?=,),
勾选“忽略更新、添加操作”:不采集数据源中的元数据 数据源元数据已删除 当数据连接中元数据发生变化时,通过配置删除策略,设置数据目录中元数据的更新方式。 勾选“从数据目录中删除元数据”:当数据源中的某些元数据已经被删除,数据目录中也将同步删除对应的元数据 勾选“忽略删除”:当数据源中的某些元数据已经被删除,数据目录中不同步删除对应元数据。
动配置对话框按照实际情况配置同步位点参数,单击“确定”启动作业。 图12 启动配置 表10 启动配置参数 参数 说明 同步模式 增量同步:从指定时间位点开始同步增量数据。 全量+增量:先同步全量数据,随后实时同步增量数据。 时间 增量同步需要设置该参数,指示增量同步起始的时间位点。
Hive的版本。根据服务端Hive版本设置。 HIVE_3_X 用户名 选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。 如果要创建MRS安全集群的数据连接,不能使用admin用
启动配置对话框按照实际情况配置同步位点参数,单击“确定”启动作业。 图9 启动配置 表11 启动配置参数 参数 说明 同步模式 增量同步:从指定时间位点开始同步增量数据。 全量+增量:先同步全量数据,随后实时同步增量数据。 时间 增量同步需要设置该参数,指示增量同步起始的时间位点。
21600 240 信息架构接口 表3 信息架构接口 API 说明 API流量限制(次/min) 用户流量限制(次/min) 查询多种类型的表信息 从信息架构中查询多种类型的表信息,包括逻辑实体、物理表、维度表、事实表、汇总表。 21600 240 数据标准接口 表4 数据标准接口 API
动配置对话框按照实际情况配置同步位点参数,单击“确定”启动作业。 图11 启动配置 表10 启动配置参数 参数 说明 同步模式 增量同步:从指定时间位点开始同步增量数据。 全量+增量:先同步全量数据,随后实时同步增量数据。 时间 增量同步需要设置该参数,指示增量同步起始的时间位点。
动配置对话框按照实际情况配置同步位点参数,单击“确定”启动作业。 图11 启动配置 表11 启动配置参数 参数 说明 同步模式 增量同步:从指定时间位点开始同步增量数据。 全量+增量:先同步全量数据,随后实时同步增量数据。 时间 增量同步需要设置该参数,指示增量同步起始的时间位点。
配置任务属性。 通过任务配置,控制数据同步过程的相关属性,具体请参见表3。 表3 任务配置参数 参数 说明 取值样例 作业期望最大并发数 设置当前作业从源端并行读取或并行写入目标端的最大线程数,由于分片策略等原因,实际运行过程中的并发线程数可能小于此值。 其中,集群最大并发数的设置与CDM集
图3 新建规则模板 在弹出的新建规则模板页面中输入规则模板名称,选择规则匹配的维度,定义SQL模板并对输出结果进行说明。 维度:数据质量支持从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。自定义质量规则时,请对此规则进行维度匹配。 所属目录:选择该规则模板所在的目录。