华为云用户手册

  • 配置JDBC连接使用 IAM 认证方式连接集群 配置JDBC连接参数 表1 数据库连接参数 参数 描述 url gsjdbc4.jar/gsjdbc200.jar数据库连接描述符。JDBC接口不提供重试连接的能力,您需要在业务代码中实现重试连接的处理。url示例如下: jdbc:dws:iam://dws-IAM-demo:cn-north-4/gaussdb?AccessKeyID=XXXXXXXXXXXXXXXXXXXX&SecretAccessKey=XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX&DbUser=user_test&AutoCreate=true JDBC URL参数说明: jdbc:dws:iam是URL格式的前缀。 dws-IAM-demo为数据库集群名称。 cn-north-4是集群所在的区域。JDBC会根据所填写区域,访问对应DWS服务,向所在集群下发IAM证书,用于IAM用户认证。DWS服务地址已内置在JDBC配置文件中。 有关 GaussDB (DWS)的区域信息,请参考地区和终端节点。 gaussdb是要连接的数据库名。 AccessKeyID/SecretAccessKey为参数DbUser指定的IAM用户所对应的访问密钥ID和秘密访问密钥。 DbUser请设置为IAM用户名,注意,当前版本暂不支持IAM用户名中含有中划线的情况。 如果数据库中已存在DbUser指定的用户,则临时用户凭证具有与现有用户相同的权限。 如果数据库中不存在DbUser指定的用户,且AutoCreate参数值为true,则自动创建一个以DbUser参数值作为用户名的新用户,默认创建的用户为数据库普通用户。 AutoCreate可以不设置,默认为false。该参数表示是否在数据库中自动创建一个以DbUser参数值作为用户名的数据库用户。 true表示自动创建。如果用户已存在则不会再创建。 false表示不会自动创建。如果数据库中不存在DbUser指定的用户名将返回失败。 info 数据库连接属性。常用的属性如下: ssl:Boolean类型。表示是否使用SSL连接。 loglevel:Integer类型。为LogStream或LogWriter设置记录进DriverManager当前值的日志信息量。 目前支持org.postgresql.Driver.DEBUG和org.postgresql.Driver.INFO。值为1时,表示只打印org.postgresql.Driver.INFO,将记录非常少的信息。值大于等于2时,表示打印org.postgresql.Driver.DEBUG和org.postgresql.Driver.INFO,将产生详细的日志信息。默认值为0,表示不打印日志。 charSet:String类型。表示在向数据库发送数据或从数据库接收数据时使用到的字符集。 prepareThreshold:Integer类型。用于确定在转换为服务器端的预备语句之前,要求执行方法PreparedStatement的次数。缺省值是5。 示例 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 //以下用例以gsjdbc4.jar为例。 //以下代码将获取数据库连接操作封装为一个接口,可通过给定集群所在的区域、集群名称、AccessKeyID、SecretAccessKey及对应的IAM用户名来连接数据库。 public static Connection GetConnection(String clustername, String regionname, String AK, String SK, String username) { //驱动类。 String driver = "org.postgresql.Driver"; //数据库连接描述符。 String sourceURL = "jdbc:dws:iam://" + clustername + ":" + regionname + "/postgresgaussdb?" + "AccessKeyID=" + AK + "&SecretAccessKey=" + SK + "&DbUser=" + username + "&autoCreate=true"; Connection conn = null; try { //加载驱动。 Class.forName(driver); } catch (ClassNotFoundException e) { return null; } try { //创建连接。 conn = DriverManager.getConnection(sourceURL); System.out.println("Connection succeed!"); } catch (SQLException e) { return null; } return conn; }
  • 概述 GaussDB(DWS)提供了使用IAM认证方式访问数据库的功能。当使用JDBC应用程序连接集群时,您可以在JDBC连接中配置IAM用户名及其用户凭证等信息,在连接数据库时系统就会自动生成临时数据库凭证,从而成功连接到数据库。 当前仅支持1.3.1及以上版本的集群及其配套的JDBC驱动程序使用IAM认证方式访问数据库。请先参考下载JDBC或ODBC驱动下载JDBC驱动程序。 IAM用户凭证有密码和访问密钥(Access Key ID和Secret Access Key,简称AK和SK)两种类型,您要为JDBC连接提供IAM访问密钥。 如需使用IAM用户凭证访问数据库,必须先给您的IAM用户授予DWS Database Access权限,同时拥有DWS Administrator和DWS Database Access权限的用户,才能基于IAM用户生成临时数据库用户凭证以连接GaussDB(DWS)数据库。 需要注意的是,DWS Database Access是用户组级别的权限,您可以通过为用户组授权并将用户加入到用户组的方式,使用户具有用户组中的权限。 在IAM中,只有admin用户组的用户可以管理用户。如需给IAM用户授权,您的IAM账号必须属于IAM的admin用户组,否则,请联系IAM账号管理员帮您授权。 使用IAM用户凭证访问数据库的流程如下: 授予IAM用户DWS Database Access权限 创建IAM用户凭证 配置JDBC连接使用IAM认证方式连接集群
  • 创建IAM用户凭证 用户可以登录管理控制台创建访问密钥,如果您已经创建过了,也可以使用已有的访问密钥。 登录管理控制台。 将鼠标移到右上角的用户名,单击“我的凭证”。 再单击“管理访问密钥”页签,可以查看已有的访问密钥,也可以单击“新增访问密钥”进行创建。 访问密钥是IAM身份认证的重要凭证,只有在新增访问密钥时,用户才可以下载到含有Access Key ID(AK)和Secret Access Key(SK)的密钥文件,在管理控制台只能查看到Access Key ID,如果您未曾下载过该密钥文件,请联系您的管理员进行获取,或者重新创建。 每个用户最多可创建2个访问密钥,有效期为永久。为了账号安全性,建议您定期更换并妥善保存访问密钥。
  • 注册并实名认证华为云账户 如果您还没有华为云账户,则必须先注册账号并开通华为云。如果您已有实名认证的账户,则可以跳过此步骤,并使用您已有的账户。 打开公有云服务网址http://www.huaweicloud.com/,单击页面右上方的“注册”,进入注册页面。 按照页面要求填写用户信息完成注册,请参见 注册华为账号 并开通华为云。 注册成功后即可自动登录华为云。 单击右上角用户名,进入基本信息页面,单击“实名认证”,进入实名认证页面。 按照页面提示完成实名认证。 开通云服务需要先进行实名认证。
  • IAM使用示例流程 图1 给用户授权GaussDB(DWS)权限流程 创建用户组并授权 使用华为云账号登录IAM控制台,创建用户组,并授予 数据仓库 服务的只读权限“DWS ReadOnlyAccess”。 创建用户并加入用户组 在IAM控制台创建用户,并将其加入步骤1中创建的用户组。 用户登录并验证权限 使用新创建的用户登录控制台,切换至授权区域,验证权限: 在“服务列表”中选择数据仓库服务,进入DWS主界面,单击右上角“创建数据仓库集群”,尝试创建数据仓库集群,如果无法创建(假设当前权限仅包含DWS ReadOnlyAccess),表示“DWS ReadOnlyAccess”已生效。 在“服务列表”中选择除数据仓库服务之外(假设当前策略仅包含DWS ReadOnlyAccess)的任一服务,若提示权限不足,表示“DWS ReadOnlyAccess”已生效。
  • GaussDB(DWS)自定义策略样例 示例1:授权用户创建/恢复集群、重启集群、删除集群、设置安全参数、重置密码的权限。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "dws:cluster:create", "dws:cluster:restart", "dws:cluster:delete", "dws:cluster:setSecuritySettings", "dws:cluster:resetPassword", "dws:*:list*", "dws:*:get*", "tms:predefineTags:list" "ecs:*:get*", "ecs:*:list*", "elb:*:list*", "ecs:*:create*", "ecs:*:delete*", "vpc:*:get*", "vpc:*:list*", "vpc:*:create*", "vpc:*:delete*", "evs:*:get*", "evs:*:list*", "evs:*:create*", "evs:*:delete*" ] } ] } 示例2:通配符*用法示例 例如,以下策略具有对GaussDB(DWS)快照的所有操作权限。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "dws:snapshot:*", "dws:cluster:list", "dws:openAPISnapshot:detail", "dws:cluster:getDetail", "ecs:*:get*", "ecs:*:list*", "vpc:*:get*", "vpc:*:list*" ] } ] } 示例3:拒绝用户删除集群 拒绝策略需要同时配合其他策略使用,否则没有实际作用。用户被授予的策略中,一个授权项的作用如果同时存在Allow和Deny,则遵循Deny优先原则。 如果您给用户授予GaussDB(DWS) FullAccess的系统策略,但不希望用户拥有GaussDB(DWS) FullAccess中定义的删除集群权限,您可以创建一条拒绝删除集群的自定义策略,然后同时将GaussDB(DWS) FullAccess和拒绝策略授予用户,根据Deny优先原则,则用户可以对GaussDB(DWS)执行除了删除集群外的所有操作。拒绝策略示例如下: { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "dws:*:list*", "dws:*:get*" ] }, { "Effect": "Deny", "Action": [ "dws:cluster:delete" ] } ] } 示例4:多个授权项策略 一个自定义策略中可以包含多个授权项,且除了可以包含本服务的授权项外,还可以包含其他服务的授权项,可以包含的其他服务必须跟本服务同属性,即都是项目级服务或都是全局级服务。多个授权语句策略描述如下: { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "dws:cluster:create", "dws:cluster:restart", "dws:cluster:setSecuritySettings", "dws:*:get*", "dws:*:list*", "tms:predefineTags:list", "elb:*:list*", "ecs:*:get*", "ecs:*:list*", "ecs:*:create*", "vpc:*:get*", "vpc:*:list*", "vpc:*:create*", "evs:*:get*", "evs:*:list*", "evs:*:create*" ] }, { "Effect": "Deny", "Action": [ "dws:cluster:delete" ] } ] }
  • 策略语法 给用户组选择策略时,单击策略下方的,可以查看策略的详细内容,以“DWS Administrator”为例,说明RBAC策略的语法。 图2 RBAC策略语法 { "Version": "1.0", "Statement": [ { "Effect": "Allow", "Action": [ "dws:dws:*" ] } ], "Depends": [ { "catalog": "BASE", "display_name": "Server Administrator" }, { "catalog": "BASE", "display_name": "Tenant Guest" } ] } 参数 含义 值 Version 策略的版本。 固定为“1.0”。 Statement Action 定义对GaussDB(DWS) 的具体操作。 格式为:服务名:资源类型:操作 "dws:dws:*",表示对GaussDB(DWS) 的所有操作,其中dws为服务名称;“*”为通配符,表示对所有GaussDB(DWS) 的资源类型可以执行所有操作。 Effect 定义Action中所包含的具体操作是否允许执行。 Allow:允许执行。 Deny:不允许执行。 Depends catalog 依赖的其他策略的所属目录。 服务名称 例如:BASE display_name 依赖的其他权限的名称。 权限名称 例如:Server Administrator 在使用RBAC鉴权时要注意Depends参数,使用时要把依赖的其他权限同时授予。 例如DWS Administrator权限使用时依赖Server Administrator以及Tenant Guest,在给用户授权时要同时把依赖的两个权限授予用户。
  • 标签简介 标签(Tag)是用户自定义的、用于标识云资源的键值对,它可以帮助用户对云资源进行分类和搜索。 标签由标签“键”和标签“值”组成。 一个标签“键”可以拥有多个标签“值”。 一个云资源不能拥有重复的标签“键”。 在GaussDB(DWS)中,当用户创建集群后,如果想对集群添加如项目名称、业务类别、背景信息等相关信息的标识,用户可以通过添加标签来实现。如果用户在其他云服务中使用了标签,那么建议用户为同一个业务所使用的云资源创建相同的标签键值对以保持一致性。 GaussDB(DWS)支持以下标签: 资源标签 在GaussDB(DWS)中创建的非全局的标签。 预定义标签 在标签管理服务(简称TMS)中创建的预定义标签,属于全局标签。 有关预定义标签的更多信息,请参见《标签管理服务用户指南》。 在GaussDB(DWS)中,支持对以下资源添加标签: 集群 支持在创建集群时或在集群创建成功后,对集群添加标签。并且,在集群列表中,可通过标签进行搜索。 每个集群最多可以添加 20 个标签。 当用户对某一集群添加了标签,并对该集群创建快照,使用快照恢复集群时,该集群的标签不会恢复,需要用户重新添加标签。 当删除集群时,也会删除与集群关联的非预定义标签,而预定义标签则需要前往标签管理服务进行删除。 父主题: 管理GaussDB(DWS)标签
  • 添加资源管理计划阶段 登录GaussDB(DWS)管理控制台。 在集群列表中单击需要访问“资源管理”页面的集群名称。 进入“基本信息”页面,左导航栏单击“资源管理”。 切换至“资源管理计划”页签,单击计划阶段区域的“添加”按钮,在添加阶段页面填写阶段名称并配置资源信息,确认成功后单击“确定”按钮。 添加阶段时必须停止正在运行的资源管理计划,否则无法添加。 每个计划最多支持添加48个阶段。 一个计划中所有阶段的切换时间不能相同。 时间、日期、月份共同组成执行时间表达式,不允许配置不存在的日期表达式,例如2.30。
  • 开启运维账户 登录GaussDB(DWS)管理控制台。 在集群列表中单击指定集群名称。 进入“集群详情”页面,在运维账户模块打开集群运维账户开关。 图2 打开运维账户开关 弹出确认窗口,单击“确认”按钮。 开启运维账户后,将在集群中创建运维账户,账户名为om_user_集群ID前8位。 并赋予账户gs_role_analyze_any,gs_role_vacuum_any,gs_role_read_all_stats,gs_role_signal_backend角色权限。详情请参考:预置角色。 用户不需要授权时可关闭按钮删除运维账户。
  • 磁盘 在“磁盘”一栏页面您可以根据节点和磁盘名浏览指定节点中磁盘的实时消耗使用情况。其中包括: 节点名称 磁盘名称 磁盘类型 系统盘 数据盘 日志盘 磁盘容量(GB) 磁盘使用率(%) 磁盘读速率(KB/s) 磁盘写速率(KB/s) I/O等待时间-await(ms) I/O服务时间-svctm(ms) IOPS 监控:用户可单击指定节点名称所在行监控列的图标查看具体节点近1小时、近3小时、近12小时、近24小时、近7天或近15天磁盘性能指标拓扑图。 根据页面显示磁盘使用率已使用与可用数据相加不等于总计。这是因为缺省的每个分区都留了少量空间供系统管理员使用。即使遇到普通用户空间已满的情况,系统管理员仍能登录和留有解决问题所需的工作空间。 磁盘容量采集源自于linux的df命令,举例如下: /dev/sda4: Used(5757444) + Available(540228616) != Total(569616888) Filesystem:代表文件系统对应的设备文件的路径名(一般是硬盘上的分区)。 IK-blocks:分区包含的数据块(1024字节)的数目。 Used:磁盘已使用数据块数目。 Available:磁盘可用的数据块数目。 Use%:普通用户空间使用的百分比,即使空间使用率达到100%,分区仍然留有系统管理员使用的空间。 Mounted on:表示文件系统的挂载点。
  • 添加运维计划 登录GaussDB(DWS)管理控制台。 在集群列表中单击指定集群名称。 进入“集群详情”页面,切换至“智能运维”页签。 在运维详情部分切换至运维计划模块,单击“添加运维任务”按钮。 在弹出的添加运维任务边栏,进行运维任务的基础配置。 表1 运维任务基础配置项 配置项名称 配置项描述 样例 运维任务 Vacuum(目前仅支持Vacuum运维任务)。 Vacuum 任务简述 智能任务的简要描述。 该运维任务可帮助用户定期调用系统Vacuum命令,以实现空间回收。 备注 备注信息。 - 调度模式 支持以下三种调度模式: 自动:智能运维将在指定时间窗内扫描数据库,依据用户业务负载、用户表可回收空间,自动下发表级Vacuum任务。 指定目标:用户可选择指定Vacuum目标,智能运维将在指定时间窗内,自动下发表级Vacuum任务。 优先级模式:用户可配置优先Vacuum目标,若时间窗剩余,智能运维将自动扫描其他可Vacuum的表,并下发表级Vacuum任务。 说明: 建议使用指定目标方式进行Vacuum和VacuumFull,同时不建议对列存宽表进行VacuumFull,以防止内存膨胀。 指定目标 自动Vacuum目标 支持:系统表Vacuum或用户表VacuumFull。 对于系统表Vacuum,会持有系统表五级锁(share update exclusive锁),不会阻塞用户业务,仅会阻塞系统表DDL进程。 对于用户表Vacuum Full,会持有系统表的八级锁(access exclusive锁),期间所有访问会被阻塞,并等待Vacuum Full结束,建议用户合理安排调度时间,在业务负载低峰期执行Vacuum Full操作,避免锁表影响业务。 注意: Vacuum Full操作相当于开辟一块和表数据大小相同的空间(表真实数据大小约为表总大小* (1 – 脏页率)),因此表空间会先增后降,请提前计算好Vacuum Full所需要的空间再行处理。 用户表VacuumFull 优先Vacuum目标 用户可配置优先Vacuum目标,其中一行对应一张表,每张表以数据库名、模式名、表名表示,以空格进行分割。 - 高级配置 选择“自定义”时,可以设置Vacuum膨胀率和目标表可回收空间高级配置参数(满足其中一个条件即触发自动Vacuum),如果选择“默认配置”,将使用它们的默认值。 说明: Vacuum膨胀率:在数据库中频繁执行UPDATE、DELETE等操作后被删除或更新的行不会从表中物理删除,仅从数据库中被逻辑删除,在完成VACUUM之前这些过期数据仍然存储在磁盘中,从而导致表膨胀。当膨胀率达到运维任务中用户设置的百分比后,就会自动触发Vacuum。 默认配置(Vacuum膨胀率80%;目标表可回收空间100GB) 单击“下一步:定时配置”,进行运维任务的“定时配置”。 选择运维类型: 单次型任务:需要设置起止时间,智能运维将在设置的时间段内运行运维任务。 周期型任务:需要配置时间窗,时间窗配置提供每日、每周、每月三种类型供用户选择。智能运维将自动分析用户注册的时间段,在每个时间段内运行运维任务。 对于自动Vacuum运维任务,用户配置时间窗时,应避开业务高峰期。否则自动Vacuum将有可能与用户业务产生死锁冲突。 vacuum(full)运维任务对于用户表并发度最高为24,最低为0;对于系统表并发度最高为1,最低为0。并发度不支持用户自定义,但可根据系统io_util自动调节: io_util将0%~60%划分为两个区间段: 0%~30%区间段,io_util每减少15%,并发度增加2。 30%~60%区间段,io_util值每减少15%,并发度增加1。 60%~70%并发度不变。 70%以上并发度减1,如果仍维持70%以上IO,则并发度持续减到0。 调度器会在时间窗内,扫描列存小CU膨胀情况,若发现列存CU膨胀(列存CU的膨胀依据是CU平均记录数小于1000),则调度器会将该列存表优先级提前。列存CU膨胀检测条件不受膨胀率、可回收空间限制。 优先级表最多支持添加100个任务表。 调度器自动vacuum功能依赖于统计信息,若统计信息不准确,可能会影响调度器自动vacuum执行顺序以及统计结果。 调度器不支持带有空格和单引号的表,包括数据库名,schema名,表名。如果vacuum在扫描过程中遇到带有单引号或空格的表,将自动跳过。对于优先级表中有空格或单引号的表,也自动跳过。 单击“下一步:配置确认”,确认无误后单击“配置确认”提交。
  • 运维任务公共配置 登录GaussDB(DWS)管理控制台。 在集群列表中单击指定集群名称。 进入“集群详情”页面,切换至“智能运维”页签。 在页面上方“运维任务公共配置”模块,填写“用户表VacuumFull运维任务最大并发数”配置值,单击右上角“保存”完成配置。 该配置应用于每个用户表VacuumFull运维任务中。 最大并发数配置范围为1~24,用户可根据剩余磁盘空间和IO负载,合理设置最大并发数,建议设置为5。
  • 维度建模 维度建模是从分析决策的需求出发构建多维模型,它主要是为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。 多维模型是由数字型度量值组成的一张事实表连接到一组包含描述属性的多张维度表,事实表与维度表通过主/外键实现关联。 在 DataArts Studio 数据架构中,维度建模是以维度建模理论为基础,构建总线矩阵、抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,构建出汇总模型。
  • DataArts Studio实例 DataArts Studio实例是 数据治理中心 给用户提供的最小计算资源单位。 数据治理 中心以DataArts Studio实例的方式提供给用户,用户可以同时创建多个DataArts Studio实例,并分别管理和访问每个DataArts Studio实例。每个DataArts Studio实例具有用户指定的基础计算资源,包含管理中心、数据架构、数据集成、数据开发、数据质量、数据目录等组件。用户可根据业务需要申请相应规格的DataArts Studio实例。
  • 数据服务:提升访问查询检索效率 DataArts Studio数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的 API服务 ,支撑业务主题/画像/指标的访问、查询和检索,提升数据消费体验和效率,最终实现数据资产的变现。数据服务为您提供快速将数据表生成数据API的能力,同时支持您将现有的API快速注册到数据服务平台以统一管理和发布。 数据服务采用Serverless架构,您只需关注API本身的查询逻辑,无需关心运行环境等基础设施,数据服务会为您准备好计算资源,并支持弹性扩展,零运维成本。 图6 数据服务架构图
  • 数据质量:可控可检验 数据质量模块支持对业务指标和数据质量进行监控,数据质量可检验,帮助用户及时发现数据质量问题。 业务指标监控 业务指标监控是对业务指标数据进行质量管理的有效工具,可以灵活的创建业务指标、业务规则和业务场景,实时、周期性进行调度,满足业务的数据质量监控需求。 数据质量监控 数据质量监控是对数据库里的数据质量进行质量管理的工具,您可以配置数据质量检查规则,在线监控数据准确性。 数据质量可以从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析,也支持数据的标准化,能够根据数据标准自动生成标准化的质量规则,支持周期性的监控。 图4 数据质量规则体系
  • 数据安全:全方位安全保障 网络安全 基于网络隔离、安全组规则以及一系列安全加固项,实现租户隔离和访问权限控制,保护系统和用户的隐私及数据安全。 用户权限策略 基于角色的访问控制,用户通过角色与权限进行关联,并支持细粒度权限策略,可满足不同的授权需求。针对不同的用户,DataArts Studio提供了管理者、开发者、部署者、运维者、访客五种不同的角色,各个角色拥有不同的权限。 数据安全 针对数据架构、数据服务等关键流程,DataArts Studio提供了审核流程。 数据的分级分类管理,数据的全生命周期管理,保证数据的隐私合规、可回溯。
  • 数据集成:多种方式异构数据源高效接入 数据集成提供30+同构/异构数据源之间数据集成的功能,帮助您实现数据自由流动。支持自建和云上的文件系统,关系数据库,数据仓库,NoSQL,大数据云服务,对象存储等数据源。 数据集成基于分布式计算框架,利用并行化处理技术,支持用户稳定高效地对海量数据进行移动,实现不停服数据迁移,快速构建所需的数据架构。 图1 数据集成 数据集成提供全向导式任务管理界面,帮助用户在几分钟内完成数据迁移任务的创建,轻松应对复杂迁移场景。数据集成支持的功能主要有: 表/文件/整库迁移 支持批量迁移表或者文件,还支持同构/异构数据库之间整库迁移,一个作业即可迁移几百张表。 增量数据迁移 支持文件增量迁移、关系型数据库增量迁移、HBase增量迁移,以及使用Where条件配合时间变量函数实现增量数据迁移。 事务模式迁移 支持当迁移作业执行失败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据。 字段转换 支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。 文件加密 在迁移文件到文件系统时,数据集成支持对写入云端的文件进行加密。 MD5校验一致性 支持使用MD5校验,检查端到端文件的一致性,并输出校验结果。 脏数据归档 支持将迁移过程中处理失败的、被清洗过滤掉的、不符合字段转换或者不符合清洗规则的数据自动归档到脏数据日志中,方便用户分析异常数据。并支持设置脏数据比例阈值,来决定任务是否成功。
  • 数据资产管理:360度全链路数据资产可视化 DataArts Studio提供企业级的元数据管理,厘清信息资产。数据资产管理可视,支持钻取、溯源等。通过数据地图,实现数据资产的数据血缘和数据全景可视,提供数据智能搜索和运营监控。 元数据管理 元数据管理模块是 数据湖 治理的基石,支持创建自定义策略的采集任务,可采集数据源中的技术元数据。支持自定义业务元模型,批量导入业务元数据,关联业务和技术元数据、全链路的血缘管理和应用。 图5 全链路数据血缘 数据地图 数据地图围绕数据搜索,服务于数据分析、数据开发、数据挖掘、数据运营等数据表的使用者和拥有者,提供方便快捷的数据搜索服务,拥有功能强大的血缘信息及影响分析。 在数据地图中,可通过关键词搜索数据资产,支持模糊搜索,快速检索,定位数据。 使用数据地图根据表名直接查看表详情,快速查阅明细信息,掌握使用规则。获得数据详细信息后,可添加额外描述。 通过数据地图的血缘分析可以查看每个数据表的来源、去向,并查看每个表及字段的加工逻辑。 对数据资产,可以从业务角度定义分类或标签。
  • 数据架构:数据建模可视化、自动化、智能化 DataArts Studio数据架构践行数据治理方法论,将数据治理行为可视化,打通数据基础层到汇总层、集市层的数据处理链路,落地数据标准和数据资产,通过关系建模、维度建模实现数据标准化,通过统一指标平台建设,实现规范化指标体系,消除歧义、统一口径、统一计算逻辑,对外提供主题式数据查询与挖掘服务。 图2 数据架构 DataArts Studio数据架构主要包括以下三个部分: 主题设计 构建统一的数据分类体系,用于目录化管理所有业务数据,便于数据的归类,查找,评价,使用。通过分层架构对数据分类和定义,可帮助用户厘清数据资产,明确业务领域和业务对象的关联关系。 数据标准 构建统一的数据标准体系,数据标准流程化、系统化。用户可基于国家标准或行业标准,对每一行数据、每一个字段的具体取值进行标准化,从而提升数据质量和易用性。 数据建模 构建统一的数据模型体系,通过规范定义和数据建模,自顶向下构建企业数据分层体系,沉淀企业数据公共层和主题库,便于数据的流通、共享、创造、创新,提升数据使用效率,极大的减少数据冗余,混乱,隔离,不一致以及谬误等。 DataArts Studio数据架构支持的数据建模方法有: 关系建模 关系建模是用实体关系(Entity Relationship,ER)模型描述企业业务,它在范式理论上符合3NF,出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。 维度建模 维度建模是以维度建模理论为基础,构建总线矩阵、抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,构建出汇总模型。 数据集市 又称为DM(Data Mart),DM面向展现层,数据有多级汇总,由一个特定的分析对象及其相关的统计指标组成的,向用户提供了以统计粒度为主题的所有统计数据。
  • 浏览器限制 您需要使用支持的浏览器版本登录DataArts Studio。 表1 浏览器兼容性 浏览器版本 建议版本 建议操作系统 备注 Google Chrome 126,125,124 Windows 10 建议分辨率为1920*1080,2560*1440。 Firefox 127,126 Windows 10 建议分辨率为1920*1080,2560*1440。 Microsoft Edge 无版本号,随着W10的更新而更新。 Windows 10 建议分辨率为1920*1080,2560*1440。
  • 使用限制 使用DataArts Studio前,您需要认真阅读并了解以下使用限制。 表2 DataArts Studio使用限制一览表 组件 约束限制 公共 DataArts Studio必须基于华为云底座部署。资源隔离场景下,支持以全栈专属云模式部署,另外也支持以 华为云Stack 和H CS Online混合云模式部署。 关于全栈专属云、华为云Stack和HCS Online的适用场景和差异等更多信息,欢迎通过咨询了解。 DataArts Studio基于数据湖底座提供数据一站式集成、开发、治理等能力,本身不具备存储和计算的能力,需要配合数据湖底座使用。 每个企业项目下最多绑定一个DataArts Studio实例。当企业项目下已绑定实例时,再次购买实例会失败。 DataArts Studio各组件对不同数据源的支持程度不一,您需要按照您的业务需求来选择数据湖底座。DataArts Studio平台当前支持的数据湖产品请参见DataArts Studio支持的数据源。 管理中心 由于管理中心的限制,数据治理各组件(如数据架构、数据质量、数据目录等)暂不支持包含中文和“.”字符的库表名。 DataArts Studio实例赠送的 CDM 集群,由于本身规格有限,推荐仅作为DataArts Studio管理中心数据连接的Agent代理使用。 建议为管理中心数据连接的Agent和CDM迁移作业规划相互独立的CDM集群,避免双方使用同一集群,导致业务高峰期时资源抢占引起业务不可用。 CDM集群作为管理中心数据连接Agent时,单集群无法连接多个 MRS 安全集群。建议您按照业务情况规划多个Agent与MRS安全集群一一映射。 CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 单工作空间允许创建的数据连接个数最多200个。 管理中心相关开放API并发限制为100qps。 数据集成 CDM作业支持自动备份和恢复,将备份数据存储到OBS中,该功能需要您手动开启。详情请参见CDM作业自动备份/恢复章节。 CDM作业本身无配额限制,但建议作业数不超过CDM集群的vCPU核数*2,否则作业运行性能可能会受到一定影响。 数据集成CDM集群为单集群部署,集群故障可能会导致业务、数据损失。建议您使用数据开发作业CDM Job节点调用CDM作业,并选择两个CDM集群以提升可靠性。详情请参见CDM Job节点章节。 当所连接的数据源发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保存该连接。 在驱动更新场景下,上传驱动后必须在CDM集群列表中重启集群才能更新生效。 单作业的抽取并发数取值范围为1-300,集群的总抽取并发数取值范围为1-1000。其中集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2,作业的抽取并发数建议不超过集群的总抽取并发数,过高的并发数可能导致内存溢出,请谨慎修改。 关于数据集成中的更多约束限制,请参考CDM约束与限制。 数据开发 数据开发脚本、作业等资产支持备份管理,将备份数据存储到OBS中,该功能需要您手动开启。详情请参见备份管理章节。 脚本、作业或节点的历史运行记录依赖于OBS桶,如果未配置测试运行历史OBS桶,则无法查看历史运行的详细信息。 上传资源时,如果资源位置为HDFS,则只支持MRS Spark,MRS Flink Job,MRS MapReduce节点使用该资源。 单工作空间允许创建的脚本个数最多1万个,脚本目录最多5000个,目录层级最多为10层。 单工作空间允许创建的作业个数最多1万个,作业目录最多5000个,目录层级最多为10层。 RDS SQL、DWS SQL、HIVE SQL、SPARK SQL、 DLI SQL脚本执行结果页面展示最多1千条,且数据量少于3MB。超过1千条数据可以使用转储功能,转储最多支持1万条。 实例监控、补数据监控只能展示最近6个月的数据。 通知记录只能展示最近30天的数据。 下载中心的下载记录会每7天做老化处理,老化时下载中心记录和已转储的OBS数据会同时被删除。 数据架构 数据架构当前支持关系建模、维度建模(仅支持星形模型)和数据集市这三种建模方式。 数据架构支持最大导入文件大小为4Mb;支持最大导入指标个数为3000个;支持一次最大导出500张表。 单工作空间中创建各类对象的配额如下: 主题5000个。 数据标准目录500条,个数20000个。 业务指标100000个。 原子指标、衍生指标、复合指标各5000条。 配置中心中各类对象的自定义项配额如下: 主题自定义项10条。 表自定义项30条。 属性自定义项10条。 业务指标自定义项50条。 数据质量 数据质量作业执行时长依赖数据引擎,如果底层数据引擎资源不足,可能会导致运行速度变慢。 单个数据质量作业最多可以配置50条规则,如有需要可拆分为多个质量作业。 单个数据连接上的质量作业关联SQL的并发数默认为1000,如果超出则等待排队执行。可配置范围10-1000。 单Region内的质量作业关联SQL的并发数为10000,如果超出则等待排队执行。 业务指标监控模块总览中的实例运行状态和实例告警状态支持按照7天展示,告警趋势、业务看板、指标看板支持按照7天、15天和30天展示。 数据质量监控模块总览中的变化趋势支持按照30天展示,质量告警分类趋势和规则数量趋势支持按照7天展示。 质量报告采用T+1日定时批量生成,质量报告数据保留90天。 导出质量报告至OBS,会将质量报告导出到工作空间中配置的作业日志OBS路径中,导出记录保留3个月。 数据目录 单工作空间中元数据采集任务最多创建100个。 元数据采集任务通过执行引擎相关的DDL SQL获取,不建议单个任务采集超过1000张表。如有需要可拆分为多个采集任务,另外调度时间和频次也需要根据业务需要进行合理设置,避免对引擎造成较大的访问和连接压力,设置建议如下: 若业务对元数据时效性要求为1天,则设置调度周期=max(1天,单次采集周期时间),其他情况同理。 若业务压力集中在白天,则设置调度时间在夜间,其他情况同理,选择数据源压力最小的时间段。 数据血缘的产生依赖于数据开发中调度运行的作业,测试运行的作业不会产生血缘。 元数据采集模块总览中的数据连接历史统计支持按照7天、15天和30天展示。 数据服务 数据服务共享版仅供开发测试使用,专享版性能优于共享版,推荐使用数据服务专享版。 DataArts Studio实例下最多支持创建5个数据服务专享版集群,且集群需要与某个工作空间绑定,不能多空间共用同一集群。 数据服务专享版集群创建后暂不支持修改规格或升级版本。 DataArts Studio实例下支持创建的专享版API最大数量由数据服务专享版API总分配配额(默认为5000)和当前实例下集群的API规格总和共同决定,取较小的作为限制。例如,某DataArts Studio实例下的数据服务专享版API总分配配额为5000,已分别创建了API规格为500和2000的两个集群,则当前实例下支持创建的专享版API最大数量为2500。 单工作空间下支持创建的专享版API最大数量由数据服务专享版API已分配配额(通过编辑工作空间信息分配)和当前空间下集群的API规格总和共同决定,取较小的作为限制。例如,某工作空间下的数据服务专享版API已分配配额为800,当前工作空间下已创建了API规格为500的两个集群,则当前工作空间下支持创建的专享版API最大数量为800。 单工作空间下支持创建的应用数量为1000。 单工作空间下支持创建的流控策略数量为500。 数据服务支持跟踪并保存事件。对于每个事件,数据服务会报告事件发生日期、说明、时间源(某个集群)等信息,事件保存时长为30天。 数据服务专享版日志信息仅查询集群最近100条访问记录,均分至集群全部所属节点中获取。 总览中的调用趋势、发布趋势、调用比率top5、调用时间top5和调用次数top5支持按照近12小时、近1天、近7天和近30天展示,总调用数为前7天数据总和(不含当天)。 数据安全 数据安全中配置的安全管理员,当且仅当在数据安全组件生效,对于周边组件和其他服务,此身份无效。 数据安全中功能级别的约束限制,请参考用户指南中对应功能的“约束与限制”章节。
  • 前提条件 已创建CCE集群,创建CCE集群请参考创建CCE集群。 CCE集群版本需要大于等于1.15。 已安装kubectl命令,安装kubectl命令请参考通过kubectl连接集群中相关操作。 已创建ServiceComb引擎实例,详情请参考创建ServiceComb引擎。 CCE集群与ServiceComb引擎处于相同的VPC网络下。 下载Sermant-examples到本地并解压。 本地编译构建打包机器环境已安装了Java JDK、Maven,并且能够访问Maven中央库。 已在CCE集群上部署Sermant Injector且已完成接入ServiceComb引擎的应用部署文件的修改,详情请参考通过模板管理页面部署Sermant Injector将应用接入ServiceComb引擎或者通过Helm客户端部署Sermant Injector将应用接入ServiceComb引擎。
  • 部署Dubbo应用 打包Sermant-examples。 在“Sermant-examples”根目录下,打开cmd命令,执行mvn clean package命令,对项目进行打包编译。编译成功后,获取下表中的两个软件包。 表1 软件包列表 软件包所在目录 软件包名称 说明 Sermant-examples/registry-demo/dubbo-registry-demo/dubbo-registry-consumer/target dubbo-registry-consumer.jar 服务消费者 Sermant-examples/registry-demo/dubbo-registry-demo/dubbo-registry-provider/target dubbo-registry-provider.jar 服务生产者 把dubbo-registry-consumer.jar复制到“Sermant-examples/registry-demo/dubbo-registry-demo/deployment/images/consumer”中。 把dubbo-registry-provider.jar复制到“Sermant-examples/registry-demo/dubbo-registry-demo/deployment/images/provider”中。 制作镜像。 登录已安装kubectl命令且已部署Sermant Injector的CCE集群中的节点。 把“Sermant-examples/registry-demo/dubbo-registry-demo”中的deployment文件夹上传至已登录的CCE集群中的节点上。 请参考使用容器引擎客户端上传镜像制作docker镜像,其中,使用到的Dockerfile请参考“Sermant-examples/registry-demo/dubbo-registry-demo/deployment/images/consumer”与“Sermant-examples/registry-demo/dubbo-registry-demo/deployment/images/provider”中的Dockerfile文件按需修改。 部署dubbo-registry-consumer.yaml与dubbo-registry-provider.yaml。 修改镜像名。 将已上传deployment文件夹到CCE集群中的节点中的“deployment/k8s/dubbo-registry-consumer.yaml”与“deployment/k8s/dubbo-registry-provider.yaml”中的镜像名修改为您所制作的镜像名。 在已上传deployment文件夹到CCE集群中的节点中的“deployment/k8s”目录下,执行如下命令部署dubbo-registry-consumer.yaml与dubbo-registry-provider.yaml: kubectl create -f dubbo-registry-consumer.yaml kubectl create -f dubbo-registry-provider.yaml 若需配置APP名称(默认default)、版本(如a.b.c的格式,其中a、b、c均为数字,默认为1.0.0)请在yaml中增加SERVICE_META_APPLICATION与SERVICE_META_VERSION环境变量进行配置。如下所示: 验证应用接入ServiceComb引擎。 参考查看微服务列表查看应用(服务名为dubbo-registry-consumer与dubbo-registry-provider)是否已接入ServiceComb引擎。
  • OneAccess 计费模式概述 OneAccess提供包年/包月计费模式。包年/包月是一种预付费模式,即先付费再使用,按照订单的购买周期进行结算。购买周期越长,享受的折扣越大。一般适用于对OneAccess服务具有长期需求且稳定的成熟业务。 表1列出了包年/包月计费模式的具体信息。 表1 计费模式 计费模式 包年/包月 付费方式 预付费 计费周期 按订单的购买周期计费。 适用计费项 实例规格和用户数。 变更计费模式 不支持变更为按需计费模式。 变更规格 支持变更实例规格。 适用场景 适用于可预估实例使用周期的场景。 父主题: 计费模式
  • URI GET /basic/mgmt/api/v1/oauth2/authorize 表1 Query参数 参数 是否必选 参数类型 描述 response_type 否 String 响应类型,默认值code,授权码类型 最小长度:1 最大长度:64 client_id 是 String 应用接入客户端id 最小长度:1 最大长度:64 redirect_uri 是 String 授权码获取后回调重定向地址 最小长度:1 最大长度:256 state 是 String 传递随机数据。作用:1、防CSRF攻击 2、当前state中包含encode字符串时,redirect_uri可传递base64编码后的url 最小长度:1 最大长度:60
  • 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 access_token String 用户级接入token 最小长度:32 最大长度:36 refresh_token String 用户级刷新token,用于服务端主动刷新用户token 最小长度:32 最大长度:36 scope String 授权信息范围 最小长度:32 最大长度:36 token_type String token类型,固定值“Bearer”,消息头传入token时前缀填入方式 最小长度:32 最大长度:36 expires_in Integer token失效时长 状态码: 400 表3 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 grant_type 是 String 授权类型,当前未使用 最小长度:1 最大长度:36 client_id 是 String 客户端应用注册ID 最小长度:1 最大长度:64 client_secret 否 String 客户端应用注册密钥 最小长度:1 最大长度:64 refresh_token 是 String refresh_token 最小长度:1 最大长度:64
  • 授权 GaussDB(DWS)通过GRANT语法对角色和用户进行授权操作,普通用户如果要访问某张表,如果没有系统管理员dbadmin或者表的owner进行GRANT授权,是无法访问的,此默认机制有效地控制用户对数据的访问,防止数据泄露。 使用GRANT命令进行用户授权包括以下三种场景: 将系统权限授权给角色或用户 系统权限又称为用户属性,包括SYSADMIN、CREATEDB、CREATEROLE、AUDITADMIN和 LOG IN。 系统权限一般通过CREATE/ALTER ROLE语法来指定。其中,SYSADMIN权限可以通过GRANT/REVOKE ALL PRIVILEGE授予或撤销。但系统权限无法通过ROLE和USER的权限被继承,也无法授予PUBLIC。 将数据库对象授权给角色或用户 将数据库对象(表和视图、指定字段、数据库、函数、模式等)的相关权限授予特定角色或用户; GRANT命令将数据库对象的特定权限授予一个或多个角色。这些权限会追加到已有的权限上。 GaussDB(DWS)会将某些类型的对象上的权限授予PUBLIC。默认情况下,对表、表字段、序列、外部数据源、外部服务器、模式或表空间对象的权限不会授予PUBLIC,而以下这些对象的权限会授予PUBLIC:数据库的CONNECT权限和CREATE TEMP TABLE权限、函数的EXECUTE特权、语言和数据类型(包括域)的USAGE特权。当然,对象拥有者可以撤销默认授予PUBLIC的权限并专门授予权限给其他用户。为了更安全,建议在同一个事务中创建对象并设置权限,这样其他用户就没有时间窗口使用该对象。另外,这些初始的默认权限可以使用ALTER DEFAULT PRIVILEGES命令修改。 将角色或用户的权限授权给其他角色或用户 将一个角色或用户的权限授予一个或多个其他角色或用户。在这种情况下,每个角色或用户都可视为拥有一个或多个数据库权限的集合。 当声明了WITH ADMIN OPTION,被授权的用户可以将该权限再次授予其他角色或用户,以及撤销所有由该角色或用户继承到的权限。当授权的角色或用户发生变更或被撤销时,所有继承该角色或用户权限的用户拥有的权限都会随之发生变更。 数据库系统管理员可以给任何角色或用户授予/撤销任何权限。拥有CREATEROLE权限的角色可以赋予或者撤销任何非系统管理员角色的权限。
共100000条