华为云用户手册

  • 如何选择区域? 选择区域时,您需要考虑以下几个因素: 地理位置 一般情况下,建议就近选择靠近您或者您的目标用户的区域,这样可以减少网络时延,提高访问速度。不过,在基础设施、BGP网络品质、资源的操作与配置等方面,中国大陆各个区域间区别不大,如果您或者您的目标用户在中国大陆,可以不用考虑不同区域造成的网络时延问题。 曼谷等其他地区和国家提供国际带宽,主要面向非中国大陆地区的用户。如果您或者您的目标用户在中国大陆,使用这些区域会有较长的访问时延,不建议使用。 云服务之间的关系 如果多个云服务一起搭配使用,需要注意不同区域的云服务内网不互通。 例如 DataArts Studio (包括管理中心、 CDM 等组件)需要与 MRS 、OBS等服务互通时,如果DataArts Studio与其他云服务处于不同区域的情况下,需要通过公网或者专线打通网络;而在同区域情况下,同子网、同安全组的不同实例默认网络互通。 资源的价格 不同区域的资源价格可能有差异,请参见华为云服务价格详情。
  • 什么是区域、可用区? 我们用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 可用区(AZ,Availability Zone)是同一区域内,电力和网络互相隔离的物理区域,一个可用区不受其他可用区故障的影响。一个区域内可以有多个可用区,不同可用区之间物理隔离,但内网互通,既保障了可用区的独立性,又提供了低价、低时延的网络连接。 图1阐明了区域和可用区之间的关系。 图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。
  • 如何选择可用区? DataArts Studio实例中的数据集成CDM集群所在可用区。DataArts Studio实例通过数据集成CDM集群与其他服务实现网络互通。 第一次购买DataArts Studio实例或增量包时,可用区无要求。再次购买DataArts Studio实例或增量包时,是否将资源放在同一可用区内,主要取决于您对容灾能力和网络时延的要求。 如果您的应用需要较高的容灾能力,建议您将资源部署在同一区域的不同可用区内。 如果您的应用要求实例之间的网络延时较低,则建议您将资源创建在同一可用区内。
  • 解决方案 DataArts Studio数据架构支持的建模方法有以下两种: 逻辑模型:通过实体、属性和关系勾勒出企业的业务信息蓝图,是IT和业务人员沟通的桥梁。逻辑数据模型是一组规范化的逻辑表结构,逻辑数据模型是根据业务规则确定的,关于业务对象、业务对象的数据项及业务对象之间关系的基本蓝图。 关系建模 关系建模是用实体关系(Entity Relationship,ER)模型描述企业业务,它在范式理论上符合3NF,出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。 用户在关系建模过程中,可以从以下三个层次去设计关系模型,这三个层次是逐层递进的,先设计概念模型,再进一步细化设计出逻辑模型,最后设计物理模型。 物理模型:是在逻辑数据模型的基础上,考虑各种具体的技术实现因素,进行数据库体系结构设计,真正实现数据在数据库中的存放,例如:所选的 数据仓库 是DWS或 DLI 。 维度建模 维度建模是从分析决策的需求出发构建模型,它主要是为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。 多维模型是由数字型度量值组成的一张事实表连接到一组包含描述属性的多张维度表,事实表与维度表通过主/外键实现关联。 典型的维度模型有星形模型,以及在一些特殊场景下使用的雪花模型。 在DataArts Studio数据架构中,维度建模是以维度建模理论为基础,构建总线矩阵、抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,构建出汇总模型。 数据集市 又称为DM(Data Mart),DM面向展现层,数据有多级汇总,由一个特定的分析对象及其相关的统计指标组成的。
  • 解决方案 CDM虽然不支持直接在不同集群间迁移作业,但是通过批量导出、批量导入作业的功能,可以间接实现集群间的作业迁移,方法如下: 将CDM集群1中的所有作业批量导出,将作业的JSON文件保存到本地。 由于安全原因,CDM导出作业时没有导出连接密码,连接密码全部使用“Add password here”替换。 在本地编辑JSON文件,将“Add password here”替换为对应连接的正确密码。 将编辑好的JSON文件批量导入到CDM集群2,实现集群1和集群2之间的作业同步。
  • 华为 智能数据湖 方案 华为数据使能服务DAYU,为大型政企客户量身定制跨越孤立系统、感知业务的数据资源智能管理解决方案,实现全域数据入湖,帮助政企客户从多角度、多层次、多粒度挖掘数据价值,实现数据驱动的数字化转型。 DAYU的核心主要是华为智能 数据湖 FusionInsight,包含数据库、数据仓库、数据湖等各计算引擎和 数据治理中心 DataArts Studio平台,提供了数据使能的全套能力,支持数据的采集、汇聚、计算、资产管理、数据开放服务的全生命周期管理。 华为 FusionInsight 解决方案,对应的各服务如下: 数据库: 关系型数据库包括:云数据库RDS、云数据库 GaussDB (for MySQL)、云数据库 GaussDB、云数据库 PostgreSQL、云数据库 SQL Server等。 非关系型数据库包括:文档数据库服务DDS、云数据库 GeminiDB(兼容Influx、Redis、Mongo以及Cassandra多种协议)等。 数据仓库:数据仓库服务DWS。 数据湖:云原生大数据MRS、 数据湖探索 DLI等。 数据治理 平台:数据治理中心DataArts Studio。
  • 什么是数据库? 数据库是“按照数据结构来组织、存储和管理数据的仓库”。 广义上的数据库,在20世纪60年代已经在计算机中应用了。但这个阶段的数据库结构主要是层次或网状的,且数据和程序之间具备非常强的依赖性,应用较为有限。 现在通常所说的数据库指的是关系型数据库。关系数据库是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,具有结构化程度高,独立性强,冗余度低等优点。1970年关系型数据库的诞生,真正彻底把软件中的数据和程序分开来,成为主流计算机系统不可或缺的组成部分。关系型数据库已经成为目前数据库产品中最重要的一员,几乎所有的数据库厂商新出的数据库产品都支持关系型数据库,即使一些非关系数据库产品也几乎都有支持关系数据库的接口。 关系型数据库主要用于联机事务处理OLTP(On-Line Transaction Processing),主要进行基本的、日常的事务处理,例如银行交易等场景。
  • 什么是数据湖? 在企业内部,数据是一类重要资产已经成为了共识。随着企业的持续发展,数据不断堆积,企业希望把生产经营中的所有相关数据都完整保存下来,进行有效管理与集中治理,挖掘和探索数据价值。 数据湖就是在这种背景下产生的。数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。 数据湖的本质,是由“数据存储架构+数据处理工具”组成的解决方案。 数据存储架构:要有足够的扩展性和可靠性,可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。 数据处理工具,则分为两大类: 第一类工具,聚焦如何把数据“搬到”湖里。包括定义数据源、制定数据同步策略、移动数据、编制数据目录等。 第二类工具,关注如何对湖中的数据进行分析、挖掘、利用。数据湖需要具备完善的数据管理能力、多样化的数据分析能力、全面的数据生命周期管理能力、安全的数据获取和数据发布能力。如果没有这些数据治理工具,元数据缺失,湖里的数据质量就没法保障,最终会由数据湖变质为数据沼泽。 随着大数据和AI的发展,数据湖中数据的价值逐渐水涨船高,价值被重新定义。数据湖能给企业带来多种能力,例如实现数据的集中式管理,帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。 对于数据仓库与数据湖的不同之处,可以类比为仓库和湖泊的区别:仓库存储着来自特定来源的货物;而湖泊的水来自河流、溪流和其他来源,并且是原始数据。 表2 数据湖与数据仓库的对比 维度 数据湖 数据仓库 应用场景 可以探索性分析所有类型的数据,包括机器学习、数据发现、特征分析、预测等 通过历史的结构化数据进行数据分析 使用成本 起步成本低,后期成本较高 起步成本高,后期成本较低 数据质量 包含大量原始数据,使用前需要清洗和标准化处理 质量高,可作为事实依据 适用对象 数据科学家、数据开发人员为主 业务分析师为主
  • 什么是数据仓库? 随着数据库的大规模应用,使信息行业的数据爆炸式的增长。为了研究数据之间的关系,挖掘数据隐藏的价值,人们越来越多的需要使用联机分析处理OLAP(On-Line Analytical Processing)进行数据分析,探究一些深层次的关系和信息。但是不同的数据库之间很难做到数据共享,数据之间的集成与分析也存在非常大的挑战。 为解决企业的数据集成与分析问题,数据仓库之父比尔·恩门于1990年提出数据仓库(Data Warehouse)。数据仓库主要功能是将OLTP经年累月所累积的大量数据,通过数据仓库特有的数据储存架构进行OLAP,最终帮助决策者能快速有效地从大量数据中,分析出有价值的信息,提供决策支持。自从数据仓库出现之后,信息产业就开始从以关系型数据库为基础的运营式系统慢慢向决策支持系统发展。 数据仓库相比数据库,主要有以下两个特点: 数据仓库是面向主题集成的。数据仓库是为了支撑各种业务而建立的,数据来自于分散的操作型数据。因此需要将所需数据从多个异构的数据源中抽取出来,进行加工与集成,按照主题进行重组,最终进入数据仓库。 数据仓库主要用于支撑企业决策分析,所涉及的数据操作主要是数据查询。因此数据仓库通过表结构优化、存储方式优化等方式提高查询速度、降低开销。 表1 数据仓库与数据库的对比 维度 数据仓库 数据库 应用场景 OLAP OLTP 数据来源 多数据源 单数据源 数据标准化 非标准化Schema 高度标准化的静态Schema 数据读取优势 针对读操作进行优化 针对写操作进行优化
  • 解决方法 用python3解释器,在主机上做一个软连接,如下图所示。 图2 主机上做软连接 在文件中设置标准编码方式。 # -*- coding: utf-8 -*-;或者设置主机的编码格式:在python安装目录的Lib\site-packages文件夹下新建一个sitecustomize.py文件,在文件中写入如下内容。 # encoding=utf8 #import sys #reload(sys) #sys.setdefaultencoding('utf8') 重启python,通过sys.getdefaultencoding()查看默认编码,这时为'utf8'。
  • 原因分析 云搜索服务 对于时间类型有一个特殊处理:如果存储的时间数据不带时区信息,在Kibana可视化的时候,Kibana会认为该时间为GMT标准时间。 在各个地区会产生日志显示时间与本地时区时间不一致的现象,例如,在东八区某地,日志显示时间比本地时区时间少8个小时。因此在CDM迁移数据到 云搜索 服务的时候,如果是通过CDM自动创建的索引和类型(例如图2中,目的端的“date_test”和“test1”在云搜索服务中不存在时,CDM会在云搜索服务中自动创建该索引和类型),则CDM默认会将时间类型字段的格式设置为“yyyy-MM-dd HH:mm:ss.SSS Z”的标准格式,例如“2018-01-08 08:08:08.666 +0800”。 图2 作业配置 此时,从其他数据源导入数据到云搜索服务时,如果源端数据中的日期格式不完全满足标准格式,例如“2018/01/05 15:15:46”,则CDM作业会执行失败,日志提示无法解析日期格式。需要通过CDM配置字段转换器,将日期字段的格式转换为云搜索服务的目的端格式。
  • 解决方案 编辑作业,进入作业的字段映射步骤,在源端的时间格式字段后面,选择新建转换器,如图3所示。 图3 新建转换器 转换器类型选择“表达式转换”,目前表达式转换支持字符串和日期类型的函数,语法和Java的字符串和时间格式函数非常相似,可以查看表达式转换了解如何编写表达式。 本例中源时间格式是“yyyy/MM/dd HH:mm:ss”,要将其转换成“yyyy-MM-dd HH:mm:ss.SSS Z”,需要经过如下几步: 添加时区信息“+0800”到原始日期字符串的尾部,对应的表达式为:value+" +0800"。 使用原始日期格式来解析字符串,将字符串解析为一个日期对象。可以使用DateUtils.parseDate函数来解析,语法是:DateUtils.parseDate(String value, String format)。 将日期对象格式化成目标格式的字符串,可以使用DateUtils.format函数来格式化,语法是DateUtils.format(Date date, String format)。 因此本例中串起来完整的表达式是:DateUtils.format(DateUtils.parseDate(value+" +0800","yyyy/MM/dd HH:mm:ss Z"),"yyyy-MM-dd HH:mm:ss.SSS Z"),如图4所示。 图4 配置表达式 保存转换器配置,再保存并运行作业,可解决云搜索服务的解析日期格式失败问题。
  • 数据目录组件有什么用? 数据目录的核心是通过元数据采集任务,采集并展示企业在工作空间范围内的数据资产地图,包括元数据信息和数据血缘关系。 元数据管理 元数据管理模块是数据湖治理的基石,支持创建自定义策略的采集任务,可采集数据源中的技术元数据。支持自定义业务元模型,批量导入业务元数据,关联业务和技术元数据、全链路的血缘管理和应用。 数据地图 数据地图围绕数据搜索,服务于数据分析、数据开发、数据挖掘、数据运营等数据表的使用者和拥有者,提供方便快捷的数据搜索服务,拥有功能强大的血缘信息及影响分析。 在数据地图中,可通过关键词搜索数据资产,支持模糊搜索,快速检索,定位数据。 使用数据地图根据表名直接查看表详情,快速查阅明细信息,掌握使用规则。获得数据详细信息后,可添加额外描述。 通过数据地图的血缘分析可以查看每个数据表的来源、去向,并查看每个表及字段的加工逻辑。 对数据资产,可以从业务角度定义分类或标签。 父主题: 数据目录
  • 如何实现用户的工作空间隔离,使其无法查看其他未授权工作空间? DataArts Studio基于系统角色+工作空间角色实现授权的能力。默认情况下,当为普通用户配置了DAYU User系统角色,未添加为某个工作空间角色时,则该用户无法查看此工作空间。 注意,如果该普通用户同时被配置了DAYU Administrator、Tenant Guest或Tenant Administrator角色,则工作空间隔离失效,该用户可查看所有工作空间。 父主题: 咨询与计费
  • 使用场景 通常您的业务系统可能使用了华为云的多种云服务,您可以为这些云服务下不同的资源实例分别设置标签(对于DataArts Studio而言,标签作用于其实例上),各服务产生的计费详单中都会体现这些资源实例和实例上设置的标签。如果您的业务系统是由多个不同的应用构成,为同一种应用拥有的资源实例设置统一的标签将很容易帮助您对不同的应用进行使用量分析和成本核算。 对DataArts Studio来说,标签用于标识购买的实例,以此来达到对购买的DataArts Studio实例进行分类的目的。当为实例添加标签时,该实例上所有请求产生的计费话单里都会带上这些标签,从而可以针对话单报表做分类筛选,进行更详细的成本分析。例如:某个实例作用于A部门,我们可以用该部门名称做为标签,设置到被使用的实例上。在分析话单时,就可以通过该部门名称的标签来分析此部门的开发使用成本。 DataArts Studio以键值对的形式来描述标签。一个实例默认最大拥有20个标签。每个标签有且只有一对键值。键和值可以任意顺序出现在标签中。同一个实例标签的键不能重复,但是值可以重复,并且可以为空。
  • 责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的 云安全 挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的IaaS、PaaS和SaaS类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。华为云租户的安全责任在于对使用的IaaS、PaaS和SaaS类云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、 虚拟主机 和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础设施安全、租户服务与租户安全、工程安全、运维运营安全、生态安全。 图1 华为云安全责任共担模型 父主题: 安全
  • DataArts Studio版本模式升级 对于已开通的旧版本模式实例,需要您手动将旧模式升级到新模式。模式升级的处理原则如下: 旧版本模式的初级版直接切换到新版本模式的初级版,功能体验、版本规格和计费标准均保持不变。 旧版本模式除初级版外的其他版本升级到新版本模式,为保证数据治理功能体验一致,会转换为新版本模式下的非标准企业版(与标准企业版的支持组件一致,但规格不同);同时版本规格相比旧模式有所提升,且计费标准不变或下降(如果计费标准下降,DataArts Studio会自动将后期使用时长的差价原路返回到您的付款账户中)。 因此,我们强力推荐您将已有DataArts Studio实例从旧模式升级为新模式。各版本切换前后的情况对比如图1所示。 图1 模式切换前后对比 版本模式升级操作不可回退,升级过程及升级后对功能、业务操作和运行均无任何影响。值得注意的是,切换到新商业模式后,不再支持免费试用基础版。建议您通过体验活动进行功能试用。 如果您需要将旧版本模式升级为新版本模式,可以参考如下步骤进行操作: 以华为账号、拥有DAYU Administrator或Tenant Administrator权限的用户登录华为云控制台。在控制台左上方,单击“服务列表”按钮,选择“数据治理中心”,进入DataArts Studio控制台。 在DataArts Studio控制台,单击实例名右侧的,进入实例管理页面。 在需要升级版本模式的实例卡片上,找到“模式切换”按钮并单击进入模式切换界面。 图2 模式切换按钮 在模式切换界面,您可以看到当前旧版本模式切换前后的对比和询价情况。如果您确认切换,单击右下方“切换”按钮,随系统提示进行升级即可。 图3 模式切换 版本模式升级完成需要约5分钟,升级过程及升级后对功能、业务操作和运行均无任何影响。在切换成功后,如果计费标准有所下降,DataArts Studio会自动将后期使用时长的差价原路返回到您的付款账户中。升级完成后,则您可以基于新的版本模式继续使用DataArts Studio。
  • DataArts Studio版本规格说明 DataArts Studio新版本模式下包含免费版、初级版、专家版和企业版,各版本支持的组件组件功能和规格不同,如表3和表4所示。 表3 DataArts Studio版本支持的组件 DataArts Studio组件 免费版 初级版 专家版 企业版 数据集成 √ √ √ √ 管理中心 √ √ √ √ 数据架构 x x x √ 数据开发 √ √ √ √ 数据质量 x x 支持,但不支持业务指标监控、对账作业和质量报告。 √ 数据目录 x x 支持,但不支持通过管理中心资源迁移进行数据目录(分类、标签、采集任务)导出。 √ 数据服务 x x √ √ 数据安全(公测) x x 支持,但不支持数据水印嵌入和溯源。 √ 表4 DataArts Studio版本规格说明(单实例规格) DataArts Studio规格 免费版[5] 初级版 专家版 企业版 DataArts Studio数据集成集群[1] 赠送36小时cdm.large规格的CDM集群折扣套餐,需通过“ 云数据迁移 CDM”服务使用,详见CDM用户指南。 集群数量:1个 规格名称:cdm.medium vCPUs/内存:4核 8GB 集群数量:1个 规格名称:cdm.medium vCPUs/内存:4核 8GB 集群数量:1个 规格名称:cdm.medium vCPUs/内存:4核 8GB 作业节点调度次数/天[2] 500次/天 5,000次/天 5,000次/天 5,000次/天 技术资产数量[3] 不支持 不支持 500 5000 数据模型数量[4] 不支持 不支持 不支持 100 注释: [1] DataArts Studio数据集成集群:DataArts Studio实例赠送的数据集成集群,推荐作为管理中心数据连接的Agent代理使用,不建议同时作为Agent代理和运行数据迁移作业使用。用于运行数据迁移作业的其他规格数据集成集群推荐通过“批量数据迁移增量包”进行购买(免费版需通过“云数据迁移 CDM”服务购买CDM集群),如何购买请参考购买批量数据迁移增量包。 [2] 作业节点调度次数/天:该规格是以每天执行的数据开发作业、质量作业、对账作业、业务场景和元数据采集作业的调度次数之和计算的,可以通过“作业节点调度次数/天增量包”进行扩容,如何购买请参考购买作业节点调度次数/天增量包。其中数据开发作业的每天调度次数,是以节点(包含Dummy节点)为粒度进行度量的,另外补数据任务也会计入度量次数,但测试运行、失败重试不会计入。例如某作业包含2个DWS SQL节点和1个Dummy节点,每天00:00开始执行,隔10小时调度一次,当天额外进行了过去10天的补数据,则该作业当天调度次数为2*3+2*3*10=66,后续每天调度次数为2*3=6。 另外,当作业节点调度的已使用次数+运行中次数+本日将运行次数之和大于此版本规格,执行调度批处理作业或者启动实时作业时就会提示作业节点调度次数/天超过配额。 [3] 技术资产数量:该规格指的是数据目录中表和OBS文件的数量,可以通过“技术资产数量增量包”进行扩容,如何购买请参考购买技术资产数量增量包。 [4] 数据模型数量:该规格指的是数据架构中逻辑模型、物理模型、维度表、事实表和汇总表的数量,可以通过“数据模型数量增量包”进行扩容,如何购买请参考购买数据模型数量增量包。 [5] 免费版:免费版定位于试用场景,每个账号在每个区域下仅能有一个免费版实例。使用免费版前,请您了解如下约定: 免费版不自带数据集成集群,而是首次购买时赠送36小时cdm.large规格的CDM集群折扣套餐,1年内有效。使用折扣套餐包时,您需要在“云数据迁移 CDM”服务创建一个与DataArts Studio实例区域一致的cdm.large规格集群,集群运行时会自动扣除折扣套餐包时长,折扣套餐包时长到期后需要删除此集群,否则会产生相关费用。关于CDM服务的计费详情可参见CDM用户指南。 免费版不支持购买增量包,例如无法购买批量数据迁移增量包或作业节点调度次数/天增量包。 免费版数据开发组件的脚本数和作业数的配额限制分别为20。 免费版仅用于试用场景,在业务负荷大的场景下,无法保证免费版实例上业务的正常运行。 免费版不支持通过API调用的方式使用,仅支持控制台方式使用。 免费版受成本、资源等因素限制,提供的总数量有限。当全网免费版数量超过限额时,将无法继续创建免费版实例。 免费版支持升级到其他付费版本。升级到其他版本或删除当前免费版实例后,您可以再次购买免费版,但不能再勾选“CDM套餐包”,折扣套餐仅在首次购买免费版时赠送。
  • 新版本模式说明 为了提供轻量化的数据治理能力、满足资源按需灵活配置的需求,DataArts Studio提供了全新的版本模式供您选择。新版本模式相对于旧版本模式,价格门槛更低、资源拓展更加灵活,强力推荐您将已开通的旧版本模式升级至新版本模式。 对于已开通的旧版本模式实例,需要您手动将旧模式升级到新模式,详见DataArts Studio版本模式升级。版本模式升级过程及升级后,对功能、业务操作和运行均无任何影响。我们承诺在相同资源下,新版本模式价格更低。 对于新开通的DataArts Studio实例,默认使用新版本模式,不支持回退到旧版本模式。 新版本模式提供了初级版、专家版和企业版三大版本供您选择。关于新版本模式与旧版本模式相比的变化,详见表1。 表1 新旧版本模式对比 差异项 旧版本模式 新版本模式 提供的版本 初级版:数据集成+数据开发 基础版:数据集成+数据开发+数据治理 高级版:数据集成+数据开发+数据治理 专业版:数据集成+数据开发+数据治理 企业版:数据集成+数据开发+数据治理 免费版:数据集成+数据开发 初级版:数据集成+数据开发 专家版:数据集成+数据开发+轻量数据治理 企业版:数据集成+数据开发+数据治理 免费版本 不支持。 支持。提供免费版本,以供试用。 轻量数据治理能力 不支持。除初级版外,均提供全功能数据治理能力,使用成本高。 支持。专家版提供轻量数据治理能力,满足中小企业数据治理需求。 支持的增量包 仅提供功能增量包: 批量数据迁移增量包 数据服务专享集群增量包 提供功能增量包和规格增量包(如何购买请参考购买DataArts Studio增量包,免费版不支持): 功能增量包: 批量数据迁移增量包 数据服务专享集群增量包 规格增量包: 作业节点调度次数/天增量包 技术资产数量增量包 数据模型数量增量包 版本模式变更 支持升级到新版本模式。 不支持回退到旧版本模式。
  • 如何选择DataArts Studio版本 DataArts Studio新版本模式下包含免费版、初级版、专家版和企业版,各版本的建议使用场景如表2所示。 表2 DataArts Studio各版本建议使用场景 版本 建议使用场景 免费版 需要体验DataArts Studio初级版功能,对规格和SLA无要求,适用于开发者试用、小规模验证等场景。 初级版 建设初期数据湖项目,主要为大数据开发场景的数据ETL任务管理,不涉及数据治理。 专家版 中小企业规模,具备全职数据开发治理人员,需要轻量数据治理能力,如数据质量、数据目录和数据服务等,性价比首选。 企业版 有完善的数据管理团队和体系,中大型企业规模,需要进行企业信息架构、数据标准、数据模型、数据指标的落地,匹配完整的DAYU数据治理方法论。
  • 使用限制 使用DataArts Studio前,您需要认真阅读并了解以下使用限制。 表2 DataArts Studio使用限制一览表 组件 约束限制 公共 DataArts Studio必须基于华为云底座部署。资源隔离场景下,支持以全栈专属云模式部署,另外也支持以 华为云Stack 和H CS Online混合云模式部署。 关于全栈专属云、华为云Stack和HCS Online的适用场景和差异等更多信息,欢迎通过咨询了解。 DataArts Studio基于数据湖底座提供数据一站式集成、开发、治理等能力,本身不具备存储和计算的能力,需要配合数据湖底座使用。 每个企业项目下最多绑定一个DataArts Studio实例。当企业项目下已绑定实例时,再次购买实例会失败。 DataArts Studio各组件对不同数据源的支持程度不一,您需要按照您的业务需求来选择数据湖底座。DataArts Studio平台当前支持的数据湖产品请参见DataArts Studio支持的数据源。 管理中心 由于管理中心的限制,数据治理各组件(如数据架构、数据质量、数据目录等)暂不支持包含中文和“.”字符的库表名。 DataArts Studio实例赠送的CDM集群,由于本身规格有限,推荐仅作为DataArts Studio管理中心数据连接的Agent代理使用。 建议为管理中心数据连接的Agent和CDM迁移作业规划相互独立的CDM集群,避免双方使用同一集群,导致业务高峰期时资源抢占引起业务不可用。 CDM集群作为管理中心数据连接Agent时,单集群无法连接多个MRS安全集群。建议您按照业务情况规划多个Agent与MRS安全集群一一映射。 CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 单工作空间允许创建的数据连接个数最多200个。 管理中心相关开放API并发限制为100qps。 数据集成 CDM作业支持自动备份和恢复,将备份数据存储到OBS中,该功能需要您手动开启。详情请参见CDM作业自动备份/恢复章节。 CDM作业本身无配额限制,但建议作业数不超过CDM集群的vCPU核数*2,否则作业运行性能可能会受到一定影响。 数据集成CDM集群为单集群部署,集群故障可能会导致业务、数据损失。建议您使用数据开发作业CDM Job节点调用CDM作业,并选择两个CDM集群以提升可靠性。详情请参见CDM Job节点章节。 当所连接的数据源发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保存该连接。 在驱动更新场景下,上传驱动后必须在CDM集群列表中重启集群才能更新生效。 单作业的抽取并发数取值范围为1-300,集群的总抽取并发数取值范围为1-1000。其中集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2,作业的抽取并发数建议不超过集群的总抽取并发数,过高的并发数可能导致内存溢出,请谨慎修改。 关于数据集成中的更多约束限制,请参考CDM约束与限制。 数据开发 数据开发脚本、作业等资产支持备份管理,将备份数据存储到OBS中,该功能需要您手动开启。详情请参见备份管理章节。 脚本、作业或节点的历史运行记录依赖于OBS桶,如果未配置测试运行历史OBS桶,则无法查看历史运行的详细信息。 上传资源时,如果资源位置为HDFS,则只支持MRS Spark,MRS Flink Job,MRS MapReduce节点使用该资源。 单工作空间允许创建的脚本个数最多1万个,脚本目录最多5000个,目录层级最多为10层。 单工作空间允许创建的作业个数最多1万个,作业目录最多5000个,目录层级最多为10层。 RDS SQL、DWS SQL、HIVE SQL、SPARK SQL、DLI SQL脚本执行结果页面展示最多1千条,且数据量少于3MB。超过1千条数据可以使用转储功能,转储最多支持1万条。 实例监控、补数据监控只能展示最近6个月的数据。 通知记录只能展示最近30天的数据。 下载中心的下载记录会每7天做老化处理,老化时下载中心记录和已转储的OBS数据会同时被删除。 数据架构 数据架构当前支持关系建模和维度建模(仅支持星形模型)这两种建模方式。 数据架构支持最大导入文件大小为4Mb;支持最大导入指标个数为3000个;支持一次最大导出500张表。 单工作空间中创建各类对象的配额如下: 主题5000个。 数据标准目录500条,个数20000个。 业务指标100000个。 原子指标、衍生指标、复合指标各5000条。 配置中心中各类对象的自定义项配额如下: 主题自定义项10条。 表自定义项30条。 属性自定义项10条。 业务指标自定义项50条。 数据质量 数据质量作业执行时长依赖数据引擎,如果底层数据引擎资源不足,可能会导致运行速度变慢。 单个数据质量作业最多可以配置50条规则,如有需要可拆分为多个质量作业。 单个数据连接上的质量作业关联SQL的并发数默认为1000,如果超出则等待排队执行。可配置范围10-1000。 单Region内的质量作业关联SQL的并发数为10000,如果超出则等待排队执行。 业务指标监控模块总览中的实例运行状态和实例告警状态支持按照7天展示,告警趋势、业务看板、指标看板支持按照7天、15天和30天展示。 数据质量监控模块总览中的变化趋势支持按照30天展示,质量告警分类趋势和规则数量趋势支持按照7天展示。 质量报告采用T+1日定时批量生成,质量报告数据保留90天。 导出质量报告至OBS,会将质量报告导出到工作空间中配置的作业日志OBS路径中,导出记录保留3个月。 数据目录 单工作空间中元数据采集任务最多创建100个。 元数据采集任务通过执行引擎相关的DDL SQL获取,不建议单个任务采集超过1000张表。如有需要可拆分为多个采集任务,另外调度时间和频次也需要根据业务需要进行合理设置,避免对引擎造成较大的访问和连接压力,设置建议如下: 若业务对元数据时效性要求为1天,则设置调度周期=max(1天,单次采集周期时间),其他情况同理。 若业务压力集中在白天,则设置调度时间在夜间,其他情况同理,选择数据源压力最小的时间段。 数据血缘的产生依赖于数据开发中调度运行的作业,测试运行的作业不会产生血缘。 元数据采集模块总览中的数据连接历史统计支持按照7天、15天和30天展示。 数据服务 数据服务共享版仅供开发测试使用,专享版性能优于共享版,推荐使用数据服务专享版。 DataArts Studio实例下最多支持创建5个数据服务专享版集群,且集群需要与某个工作空间绑定,不能多空间共用同一集群。 数据服务专享版集群创建后暂不支持修改规格或升级版本。 DataArts Studio实例下支持创建的专享版API最大数量由数据服务专享版API总分配配额(默认为5000)和当前实例下集群的API规格总和共同决定,取较小的作为限制。例如,某DataArts Studio实例下的数据服务专享版API总分配配额为5000,已分别创建了API规格为500和2000的两个集群,则当前实例下支持创建的专享版API最大数量为2500。 单工作空间下支持创建的专享版API最大数量由数据服务专享版API已分配配额(通过编辑工作空间信息分配)和当前空间下集群的API规格总和共同决定,取较小的作为限制。例如,某工作空间下的数据服务专享版API已分配配额为800,当前工作空间下已创建了API规格为500的两个集群,则当前工作空间下支持创建的专享版API最大数量为800。 单工作空间下支持创建的应用数量为1000。 单工作空间下支持创建的流控策略数量为500。 数据服务支持跟踪并保存事件。对于每个事件,数据服务会报告事件发生日期、说明、时间源(某个集群)等信息,事件保存时长为30天。 数据服务专享版日志信息仅查询集群最近100条访问记录,均分至集群全部所属节点中获取。 总览中的调用趋势、发布趋势、调用比率top5、调用时间top5和调用次数top5支持按照近12小时、近1天、近7天和近30天展示,总调用数为前7天数据总和(不含当天)。 数据安全 数据安全中配置的安全管理员,当且仅当在数据安全组件生效,对于周边组件和其他服务,此身份无效。 数据安全中功能级别的约束限制,请参考用户指南中对应功能的“约束与限制”章节。
  • 使用仪表盘 仪表盘即项目过程中的可视化管理,支持基于数据的迭代回顾,包括:需求、缺陷、路标日历、进度、燃尽图、团队成员等,还支持自定义报表卡片。可以直观了解工作动态、迭代的质量、进度、工作量的情况,基于真实数据进行改进。 进入项目详情页面,选择“仪表盘”。 默认显示当前迭代(迭代1)的需求、缺陷、路标日历、进度、燃尽图和团队成员。 选择不同迭代了解各个迭代的统计数据,如工作执行情况、质量、工作量等。 单击右下角还可以添加自定义报表卡片,深入了解项目情况。 自定义卡片包括任务、工作完成度、个人工时、吞吐量、工作饱和度、项目Bug统计和项目Story统计,更多详细操作,请参见 仪表盘。
  • 新建特性 在项目主页,切换至“特性”页签。 单击“+新建FE”按钮,进入“新建FE”页面。 在“新建FE” 页面,填入特性的基本属性值。各属性值含义如表1所示。 属性值填写完毕后,单击“确定”按钮。 页面右上角提示:“新建FE成功”,系统会自动跳转到特性列表页,显示新建的FE。 表1 参数说明 参数名 参数说明 标题 特性名称。 描述 对特性的文字、图片、链接等形式的说明。 根据工作项的类型不同,系统提供不同的模板,例如特性的描述信息格式如下: 【特性背景】 【特性价值】 【特性详情】 附件 单个特性的附件数量最多为100个,附件总容量为50MB。 归属项目 特性归属的项目,默认为当前进入的项目,不可修改。 责任人 特性的责任人,单选,默认为创建人。 所属特性集 所属特性集是特性树的某一归属结构。 优先级 特性的优先级:低,中,高,默认为中。 计划开始时间 计划开始时间。 计划完成时间 计划完成时间。 计划工时 计划所用工时。 价值特性 标志此特性是否是关键特性,可选是,否。 功能场景 无默认值,最多支持输入128个中文字符。 领域 所属领域。 抄送人 特性抄送人。
  • 处理工作项 在看板项目页面,在左上角选择工作项类型(如“需求”)。 单击“过滤”,可以选择不同过滤条件筛选需要处理工作项。 如果需要处理一个迭代的工作项,单击“过滤器”窗口下方“个人过滤器”后的“创建”。 设置个人过滤器参数,包括处理人、迭代、创建时间、状态和过滤器名称等。 单击“保存并过滤”,也可以选择临时过滤。 此时将显示符合条件的所有工作项。 单击要处理的工作项名称,进入工作项详情页。 修改工作项,如处理人、工作项状态、工时、评论等。 工作项处理完成后,单击右上角“保存”。更详细操作请参见工作项。
  • 统计内容 统计报表名称 数据描述 缺陷概览统计 统计当前时刻全部、处理中、已完成、已超期、严重及以上的缺陷数量,可单击数字查看到对应的列表。 遗留缺陷DI趋势 统计所选时间区间内的遗留缺陷DI趋势。 DI:指各等级严重程度的缺陷按照其所占权重计算而来的数值。 遗留缺陷DI=遗留致命缺陷个数*10+遗留严重缺陷个数*3+遗留一般缺陷个数*1+遗留提示缺陷个数*0.1 缺陷累计三曲线 累计三曲线指累计发现缺陷/累计解决缺陷/累计遗留缺陷的趋势曲线。 累计遗留缺陷=累积发现缺陷-累计解决缺陷。 缺陷每日吞吐 所选时间区间内,统计每日发现、解决的缺陷数。 缺陷按严重程度分布 统计当前时刻处于各严重程度的缺陷数。 缺陷按状态分布 统计当前时刻处于各状态的缺陷数。 成员遗留缺陷TOP8 统计当前时刻各当前责任人的遗留缺陷数,展示排名TOP8的成员。
  • 移出成员 移出成员可以移出单个,也可以批量移出多个。 移出单个项目成员(用户) 在成员管理页面的成员列表中,单击目标成员所在行后的,根据提示完成移出。 成员移出后,即该用户被移出项目。 用户被移出后,其名下的工作项等资源不会被删除,他所做过的工作仍旧会被保留,如果需要转移项目的管理权限,请参见移交项目创建者。 批量移出项目成员 在“项目成员”列表页面中勾选目标成员。 单击“批量移出”。 根据移出提示单击“确定”,即可完成项目成员批量移出。
  • 新建子工作项 新建好的子工作项显示在“子工作项”页签中。 Task和Bug是最末层次,Task和Bug没有子工作项。 增加子工作项有两种方法: 操作方法一 进入工作项详情,切换到“子工作项”页签。 单击“快速新建子工作项”可以快速完成子工作项创建。适合于快速场景的创建。 单击“新建子工作项”,可以设置更多参数信息,适合于完整创建子工作项。 操作方法二 在工作项列表中,分为快速创建和完整创建: 单击工作项所在行,只需输入关键信息快速完成创建。 单击工作项所在行,创建完整信息的子工作项。
  • 调整思维导图 在思维导图中,可以对工作项进行排序及调整工作项层级关系: 调整工作项顺序(平级): 选中思维导图中的工作项,按住鼠标左键上下拖拽工作项可以对工作项进行排序。 例如:拖拽Story_04调整到Story_02上面,Story_02上方出现灰色阴影,同时鼠标出现+号即可松开。 调整工作项层级关系(上下级): 选中思维导图中的工作项,按住鼠标左键左右拖拽工作项可以调整各级别工作项之间的层级关系。 例如:拖拽Story_01调整到Feature_03后面,Feature_03右侧出现灰色阴影,同时鼠标出现+号即可松开。
  • 修复缺陷 单击“修复”状态的缺陷标题,系统显示“修复”详情页。 在处理缺陷过程中,还可以对缺陷进行评论、关联工作项、添加附件、新增工时和查看历史记录等操作,具体请参见编辑缺陷详情。 修复完成后,单击页面右上角的“提交到测试”,弹出“提交到测试”信息填写窗口。 单击“退回到分析”,填写“责任人”和“退回原因”后,该缺陷的状态变为“分析”。 单击“挂起”,填写“挂起原因”后,可挂起该缺陷。 根据项目实际情况填写“责任人”和“修复方案”。 单击“确定”,自动进入“测试”阶段,并且在主页右上角给出“流转成功”的提示。
  • 测试缺陷 单击“测试”状态的缺陷标题,系统显示“测试”详情页。 在处理缺陷过程中,还可以对缺陷进行评论、关联工作项、添加附件、新增工时和查看历史记录等操作,具体请参见编辑缺陷详情。 测试完成后,单击页面右上角的“测试通过”,弹出“测试通过”信息填写窗口。 单击“退回到修复”,填写“退回原因”和“责任人”后,该缺陷的状态变为“修复”。 单击“挂起”,填写“挂起原因”后,可挂起该缺陷。 根据项目实际情况填写“责任人”和“测试报告”。 单击“确定”,该缺陷的状态变为“验收”。
共100000条