检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置 配置环境变量 配置OBS桶 管理作业标签 配置调度身份 配置节点并发数 配置模板 配置调度日历 配置默认项 配置任务组 配置互斥 父主题: 配置管理
配置管理 配置 管理资源 父主题: 数据开发
华为数据治理实践 华为数据治理的规范流程建设,完成了从数据产生、数据整合、数据分析与数据消费全价值流的规则制定。华为数据治理组织实践,建立实体化的数据管理组织,向公司数据管理部汇报,同时组建了跨领域数据联合作战团队。华为已建立统一的数据分类管理框架,指导各领域进行分类管理。华为信
DataArts Studio是否支持私有化部署到本地或私有云? DataArts Studio必须基于华为云底座部署。资源隔离场景下,支持以全栈专属云模式部署,另外也支持以华为云Stack和HCS Online混合云模式部署。 关于全栈专属云、华为云Stack和HCS Online的适
数据库部署在华为云 同Region同租户直接连通网络 同Region不同租户通过对等连接连通网络 同Region不同租户通过企业路由器连通网络 跨Region通过云连接连通网络 父主题: 网络打通
配置HBase 源端参数 表1 Hbase作为源端时的作业参数 参数类型 参数名 说明 是否必须填 取值样例 基本参数 表名 写入数据的目标表名,单击输入框后面的按钮可进入表的选择界面。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合
标准模板管理 功能配置 功能配置用于自定义数据架构中的各项功能。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“功能配置”。 在功能配置页面,可根据用户具
配置连接参数 OBS连接参数说明 PostgreSQL/SQLServer连接参数说明 数据仓库服务(DWS)连接参数说明 云数据库MySQL/MySQL数据库连接参数说明 Oracle数据库连接参数说明 DLI连接参数说明 Hive连接参数说明 HBase连接参数说明 HDFS连接参数说明
该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“
配置DLI源端参数 作业中源连接为DLI连接时,源端作业参数如表1所示。 表1 DLI作为源端时的作业参数 参数名 说明 取值样例 资源队列 选择目的表所属的资源队列。 DLI的default队列无法在迁移作业中使用,您需要在DLI中新建SQL队列。 cdm 数据库名称 写入数据的数据库名称。
Java工程配置文件 .project 如果使用maven构建,SDK包中“java-sdk-core-x.x.x.jar”的maven仓库地址为https://mirrors.huaweicloud.com/repository/maven/huaweicloudsdk/,配置mav
华为数据治理案例 华为数据治理思考 华为数据治理实践 华为数据治理效果
“使用SQL语句”选择“否”时,显示该参数,表示配置抽取范围的Where子句,不配置时抽取整表。 如果要迁移的表中没有Where子句的字段,迁移失败。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。 说明: 如果配置了时间宏变量,通过DataArts
华为数据治理思考 华为在发展中也遇到了如下的数据问题: 数据管理责任不清晰,造成数据问题无人决策解决; 数据多源头,造成数据不一致,不可信; 数据大量搬家造成IT重复投资; 数据无定义造成难于理解、难于使用; 各部门发布报告,统计口径不一致,困扰业务决策; 数据形态多样化,数据量迅猛增长,数据处理逻辑复杂,投资大;
是否需要测试Hive JDBC连通。 否 是否使用集群配置 您可以通过使用集群配置,简化Hadoop连接参数配置。 否 集群配置名 仅当“是否使用集群配置”为“是”时,此参数有效。此参数用于选择用户已经创建好的集群配置。 集群配置的创建方法请参见管理集群配置。 hive_01 单击“显示高级属性
数据治理,通过交易核算自动化、ERP优化、数据调度优化、数据质量监控以及提升数据分析平台的性能,华为实现了全球核算实时可视,过程可跟踪、可管理。 图1 华为数据治理实践 父主题: 华为数据治理案例
数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。例如:表名配置为user_[0-9]{1,2},会匹配
rk作业提供运行所需的物理资源。 获取Spark作业代码 本示例使用的Spark作业代码来自maven库(下载地址:https://repo.maven.apache.org/maven2/org/apache/spark/spark-examples_2.10/1.1.1/spark-examples_2
图3 配置血缘输入 完成血缘的输入表配置后,单击确定,继续配置血缘的输出表。假如MRS Spark作业中的输出表为“a”,则血缘输出配置如图4所示。 图4 配置血缘输出 完成血缘的输出表配置后,单击确认,则此MRS Spark节点的血缘关系手动配置成功。后续当需要查看血缘关系
型,单击进入,然后单击列表上方的“新建”按钮新建一个表。 图1 入口 在“新建表”页面,根据页面提示完成建表的配置。 填写基本配置参数。 图2 表基本配置 表1 基本配置 参数名称 说明 *所属主题 单击“选择主题”选择所属的主题信息。 *表名称 表的名称。 只允许除\、<、>、%、"、'、;及换行符以外的字符。