检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Studio实例控制台 前提条件 请参见购买DataArts Studio实例,确认已购买DataArts Studio实例。 操作步骤 登录华为云控制台,在左上角的服务列表中选择“数据治理中心DataArts Studio”,进入DataArts Studio实例控制台。 如果当前区域下有多个DataArts
数据质量:数据质量组件中的质量作业和对账作业功能,不支持对接MRS集群存算分离的场景。 数据源简介 表2 数据源简介 数据源类型 简介 数据仓库服务(DWS) 华为云DWS是基于Shared-nothing分布式架构,具备MPP大规模并行处理引擎,兼容标准ANSI SQL 99和SQL 2003,同时
Studio实例控制台 前提条件 请参见购买DataArts Studio基础包,确认已购买DataArts Studio实例。 操作步骤 登录华为云控制台,在左上角的服务列表中选择“数据治理中心DataArts Studio”,进入DataArts Studio实例控制台。 如果当前区域下有多个DataArts
DLF数据开发V1接口:dayu-dlf.{region_id}.myhuaweicloud.com,具体如表2所示。 DLF数据开发V2接口:dayu.{region_id}.myhuaweicloud.com,具体如表2所示。 DataArts Studio其他组件接口(如管理中心
以: 支持管理DWS、MRS Hive、MRS Spark、DLI等多种数据湖。 支持可视化和DDL方式管理数据库表。 注意,在MRS API连接方式下,不支持通过可视化方式查看与管理该连接下的数据库、数据表和字段。 单击可以查看数据连接目录树下的数据库、数据表以及字段信息。DWS
DWS连接联通性测试约束如下: 联通性测试时,系统会使用当前用户账号访问数据源,以确保正常访问。但由于DWS数据源不支持以华为账号直接访问,如果登录账号为华为账号,联通性测试会失败。因此,在DWS联通性测试前,需要先完成用户同步,再将当前登录账号切换为IAM子用户账号,且至少具有DWS
安全管理员,数据安全审计员和数据安全运营人员)对数据安全和数据治理的诉求。 图1 DataArts Studio数据安全框架 资源主体:即华为云数据湖中的库表字段及计算引擎队列资源。库表字段支持大数据MRS Hive/Spark,云数据仓库DWS,数据湖探索DLI等数据湖,计算引擎队列包含大数据MRS
MRS集群。代理连接方式支持MRS所有版本的集群。 MRS API连接:以MRS API的方式访问MRS集群。MRS API连接仅支持2.X及更高版本的MRS集群。 选择MRS API连接时,有以下约束: MRS API连接仅支持在数据开发组件使用,其他组件例如数据架构、数据质量、数据目录等无法使用此连接。
自行准备服务器资源,安装配置必要的软件并进行配置,等待时间长。 程序在读写两端会根据数据源类型,使用不同的访问接口,一般是数据源提供的对外接口,例如JDBC、原生API等,因此在开发脚本时需要依赖大量的库、SDK等,开发管理成本较高。 CDM提供了Web化的管理控制台,通过Web页实时开通服务。
DIS所在的区域。 - 终端节点 待连接DIS的URL,URL一般格式为:https://Endpoint。 终端节点(Endpoint)即调用API的请求地址,不同服务不同区域的终端节点不同。本服务的Endpoint可从终端节点Endpoint获取。 - 访问标识(AK) 登录DIS服务器的访问标识。
删除审核人 Y N N N 操作审核人 Y Y Y N 查询审核人 Y Y Y N 新建API Y Y N N 删除API Y Y N N 操作API Y Y Y N 查询API Y Y Y Y 编辑API Y Y N N 查询数据源 Y Y N N 查询总览 Y Y Y Y 数据安全 权限点
Gbit/s 64 - 其他场景中,可根据情况选择多个CDM集群同时迁移,加快迁移效率。MRS HDFS多副本策略会占用网络带宽,影响迁移速率。 华为云CDM创建连接 创建2个CDM集群: DataArts Studio实例中已经包含一个CDM集群(试用版除外),如果该集群已经满足需求,
因为人员投入不足,大数据集群能力不匹配,而无法聚焦业务创新,使得存量100T的数据只有4%的利用率。 在将本地的贸易统计数据迁移到华为云之后,基于华为公有云的大数据分析能力,可帮助H公司屏蔽大数据基础设施复杂的构建、维护过程,使其客户人员可以全身心聚焦业务创新,盘活100T的存量数据,使资产最大化变现。
数据连接 是 默认选择SQL脚本中设置的数据连接,支持修改。 MRS资源队列 否 选择已创建好的MRS资源队列。 说明: 数据连接为MRS API连接时支持为Spark SQL作业独立配置需要的资源(例如线程、内存、CPU核数并指定MRS资源队列等)。代理连接时不支持配置。 您需要先
MySQL数据库的名称。 sqoop 用户名 拥有MySQL数据库的读、写和删除权限的用户。 admin 密码 用户的密码。 - 使用本地API 使用数据库本地API加速(系统会尝试启用MySQL数据库的local_infile系统变量)。 是 使用Agent Agent功能待下线,无需配置。
数据质量组件:质量作业和对账作业。 数据目录组件:技术资产中的表(Table)和文件(File)类型资产,以及元数据采集任务。 数据服务组件:数据服务集群,API和APP。 数据安全组件:敏感数据发现任务,脱敏策略,静态脱敏任务和数据水印任务。 如果当前任意组件内还有业务资源,则删除工作空间会弹出失败提示窗口,无法删除。
则需要使用账号给当前用户添加“查看委托列表”的权限。 先创建自定义策略(查询指定条件下的委托列表),再通过给用户组授予自定义策略来进行精细的访问控制。 登录华为云控制台。 在控制台页面,鼠标移动至右上方的账号名,在下拉列表中选择“统一身份认证”。 在左侧导航窗格中,单击“角色授权”>“创建自定义策略”。
具体可参见FusionInsight文档。 Apache集群 Apache HDFS Apache HBase Apache Hive Apache集群场景下,此处仅说明需要哪些配置文件与打包原则,各配置文件的具体获取方式请参见对应版本说明文档。 HDFS需要将以下文件压缩为无目录格式的zip包:
指标、衍生指标、复合指标和汇总表,不包含事实表。 数据目录组件中创建的元数据采集任务,以及定义的元数据分类和标签。 数据服务组件中发布的API。 约束与限制 对于数据目录组件中名称相同的元数据采集任务、元数据分类和标签,不支持被重复迁移。 待导入的资源应为通过导出获取的zip文件,导入时系统会进行资源校验。
COLLECTION 高级属性 查询筛选 创建用于匹配文档的筛选条件,CDM只迁移符合条件的数据。例如: 按表达式对象筛选:例如{'last_name': 'Smith'},表示查找所有“last_name”属性值为“Smith”的文档。 按参数选项筛选:例如{ x : "john" }