云服务器内容精选

  • 元数据简介 按照传统的定义,元数据(Metadata)是关于数据的数据。元数据打通了源数据、 数据仓库 、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便地找到其所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率。 在 DataArts Studio 中,元数据是数据的描述数据,可以为数据说明其属性(数据连接、类型、名称、大小等),或其相关数据(位于拥有者、标签、分类、密级等)。 元数据按用途的不同,可以分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。在DataArts Studio中,技术元数据即为技术资产,显示数据库、数据表、数据量的数量及其详情。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。在DataArts Studio中,业务元数据包含业务资产和指标资产,业务资产显示业务对象、逻辑实体、业务属性的数量及其详情,指标资产显示业务指标及其详情。 DataArts Studio中的技术元数据来源于元数据采集任务,您需要在创建并运行元数据采集任务后才能在数据地图中查看元数据。 父主题: 采集数据源的元数据
  • 响应示例 状态码: 200 成功响应示例 { "encrypted" : false, "ges_metadata" : { "labels" : [ { "name" : "friends" }, { "name" : "movie", "properties" : [ { "data_type" : "string", "name" : "ChineseTitle", "cardinality" : "single" }, { "data_type" : "int", "name" : "Year", "cardinality" : "single" }, { "data_type" : "string", "name" : "Genres", "cardinality" : "set" } ] }, { "name" : "user", "properties" : [ { "data_type" : "string", "name" : "ChineseName", "cardinality" : "single" }, { "type_name1" : "F", "type_name2" : "M", "data_type" : "enum", "name" : "Gender", "type_name_count" : "2", "cardinality" : "single" }, { "type_name1" : "Under 18", "type_name2" : "18-24", "type_name3" : "25-34", "type_name4" : "35-44", "type_name5" : "45-49", "type_name6" : "50-55", "type_name7" : "56+", "data_type" : "enum", "name" : "Age", "type_name_count" : "7", "cardinality" : "single" }, { "data_type" : "string", "name" : "Occupation", "cardinality" : "single" }, { "data_type" : "char array", "name" : "Zip-code", "max_data_size" : "12", "cardinality" : "single" } ] }, { "name" : "rate", "properties" : [ { "data_type" : "int", "name" : "Score", "cardinality" : "single" }, { "data_type" : "date", "name" : "Datetime", "cardinality" : "single" } ] } ] } } 状态码: 400 失败响应示例 { "error_msg" : "6b74069d-3cf3-4cc0-9118-2478e23b87a does not exist.", "error_code" : "GES.2067" }
  • 操作步骤 在“元数据管理”页面,复制元数据有两个入口: 单击对应元数据文件名称,进入元数据详情页,在页面底端单击“复制”。 在对应的元数据文件的“操作”列,单击“复制”。 定义元数据文件名称以及存储路径。 “名称”:复制后的元数据文件名称,仅需要设置名称,文件格式默认为xml。 “存储路径”:存储元数据文件的OBS路径。 “加密元数据”:默认关闭状态,是否对复制后的元数据进行加密。“密钥源”默认为“KMS”。“密钥名称”用于选择对应的密钥。 图1 复制元数据 单击“确定”,完成复制元数据。 元数据文件复制成功后,新的元数据文件将在“元数据管理”页面呈现。
  • 从本地或OBS导入数据 在图引擎管理控制台,单击左侧导航栏的“元数据管理”。 在“元数据管理”页面,单击左上角“导入”。 在“导入”页面,您可以在“类型”中选择从“本地”或从“OBS”中导入元数据。 从本地导入 “选择本地文件”:单击“上传”,选择本地的文件。 文件格式必须为xml格式。 “名称”:元数据在图引擎服务中的文件名称。 “存储路径”:选择元数据文件存储的OBS路径。 图1 从本地导入元数据 从OBS导入 “选择文件路径”:单击从OBS中选择元数据文件。 文件格式必须为xml。 您需要提前将元数据文件上传至OBS桶中。 “名称”:元数据在图引擎服务中的文件名称。 图2 从OBS导入元数据 单击“确定”完成操作。 导入完成后,元数据文件将展示在元数据管理页面中。 父主题: 导入元数据
  • 数据库和表的约束与限制 数据库 “default”为内置数据库,不能创建名为“default”的数据库。 DLI 支持创建的数据库的最大数量为50个。 数据表 DLI支持创建的表的最大数量为5000个。 DLI支持创建表类型: Managed:数据存储位置为DLI的表。 External:数据存储位置为OBS的表。 View:视图,视图只能通过SQL语句创建。 跨源表:表类型同样为External。 创建DLI表时不支持指定存储路径。 数据导入 仅支持将OBS上的数据导入DLI或OBS中。 支持将OBS中 CS V,Parquet,ORC,JSON和Avro格式的数据导入到在DLI中创建的表。 将CSV格式数据导入分区表,需在数据源中将分区列放在最后一列。 导入数据的编码格式仅支持UTF-8。 数据导出 只支持将DLI表(表类型为“Managed”)中的数据导出到OBS桶中,且导出的路径必须指定到文件夹级别。 导出文件格式为json格式,且文本格式仅支持UTF-8。 支持跨账号导出数据,即B账户对A账户授权后,A账户拥有B账户OBS桶的元数据信息和权限信息的读取权限,以及路径的读写权限,则A账户可将数据导出至B账户的OBS路径中。
  • DLI支持创建的表类型 DLI表 DLI表是存储在DLI 数据湖 中的数据表。支持多种数据格式,可以存储结构化、半结构化和非结构化数据。 DLI表的数据存储在DLI服务内部,查询性能更好,适用于对时延敏感类的业务,如交互类的查询等。 库表管理中表的列表页面,表类型为Managed的即代表DLI表。 OBS表 OBS表的数据存储在OBS上,适用于对时延不敏感的业务,如历史数据统计分析等。 OBS表通常以对象的形式存储数据,每个对象包含数据和相关的元数据。 库表管理中表的列表页面,表类型为External,存储位置为OBS路径的即代表OBS表。 视图表 视图表(View)是一种虚拟表,它不存储实际的数据,而是根据定义的查询逻辑动态生成数据。视图通常用于简化复杂的查询,或者为不同的用户或应用提供定制化的数据视图。 视图表可以基于一个或多个表创建,提供了一种灵活的方式来展示数据,而不影响底层数据的存储和组织。 库表管理中表的列表页面,表类型为View的即代表视图表。 View只能通过SQL语句进行创建,不能通过“创建表”页面进行创建。视图中包含的表或视图信息不可被更改,如有更改可能会造成查询失败。 跨源表 跨源表是指能够跨越多个数据源进行查询和分析的数据表。这种表可以整合来自不同数据源的数据,提供统一的数据视图。 跨源表常用于数据仓库和数据湖架构中,允许用户执行跨多个数据源的复杂查询。 库表管理中表的列表页面,表类型为External,存储位置非OBS路径的即代表跨源表。
  • 表 表是数据库最重要的组成部分之一,它由行和列组成。每一行代表一个数据项,每一列代表数据的一个属性或特征。表用于组织和存储特定类型的数据,使得数据可以被有效地查询和分析。 数据库是一个框架,表是其实质内容。一个数据库包含一个或者多个表。 用户可通过管理控制台或SQL语句创建数据库和表,其中SQL语句的操作方法请参见创建数据库、创建OBS表和创建DLI表等。本章节介绍在管理控制台创建数据库和表的操作步骤。 创建数据库和表时,有权限控制,需要对其他用户授权,其他用户才可查看该用户新建的数据库和表。
  • 操作步骤 创建OBS并行文件系统,详情请参考创建并行文件系统章节。例如文件系统名称为“lakeformation-test”。 在并行文件系统页面,单击已创建的文件系统名称,例如“lakeformation-test”。 在左侧导航栏选择“文件”,单击“新建文件夹”,填写待创建的文件夹名称,单击“确定”。继续单击该文件夹名称,单击“新建文件夹”,可以创建其子文件夹。 参考该步骤,依次创建用于存放元数据的路径,例如: Catalog存储路径:lakeformation-test/catalog1 数据库存储路径:lakeformation-test/catalog1/database1 数据表存储路径:lakeformation-test/catalog1/database1/table1、lakeformation-test/catalog1/database1/table2 函数存储路径:lakeformation-test/catalog1/database1/udf1
  • 为已有 MRS 集群创建RDS数据连接 该步骤指导用户为当前已有的MRS集群创建RDS数据连接。 登录MRS控制台,在导航栏选择“数据连接”。 单击“新建数据连接 ”。 参考表1配置相关参数。 表1 数据连接 参数 说明 类型 选择外部源连接的类型。 RDS服务PostgreSQL数据库:安装了Hive组件的集群支持连接该类型数据库。 RDS服务MySQL数据库:安装了Hive或Ranger组件的集群支持连接该类型数据库。 名称 数据连接的名称。 数据库实例 RDS服务数据库实例,该实例需要先在RDS服务创建后在此处引用,且已创建数据库,具体请参考创建并配置RDS实例。单击“查看数据库实例”查看已创建的实例。 数据库 待连接的数据库的名称。 用户名 登录待连接的数据库的用户名。 密码 登录待连接的数据库的密码。 当用户选择的数据连接为“RDS服务MySQL数据库”时,请确保使用的数据库用户为root用户。如果为非root用户,请参考创建并配置RDS实例操作。 单击“确定”完成创建。
  • 为已有MRS集群创建RDS数据连接 该步骤指导用户为当前已有的MRS集群创建RDS数据连接。 登录MRS控制台,在导航栏选择“数据连接”。 单击“新建数据连接 ”。 参考表1配置相关参数。 表1 数据连接 参数 说明 类型 选择外部源连接的类型。 RDS服务PostgreSQL数据库:安装了Hive组件的集群支持连接该类型数据库。 RDS服务MySQL数据库:安装了Hive或Ranger组件的集群支持连接该类型数据库。 名称 数据连接的名称。 数据库实例 RDS服务数据库实例,该实例需要先在RDS服务创建后在此处引用,且已创建数据库,具体请参考创建并配置RDS实例。单击“查看数据库实例”查看已创建的实例。 数据库 待连接的数据库的名称。 用户名 登录待连接的数据库的用户名。 密码 登录待连接的数据库的密码。 当用户选择的数据连接为“RDS服务MySQL数据库”时,请确保使用的数据库用户为root用户。如果为非root用户,请参考创建并配置RDS实例操作。 单击“确定”完成创建。
  • MRS集群元数据概述 MRS的数据连接用于管理集群中组件使用的外部源连接,如Hive的元数据可以通过数据连接关联使用外部的关系型数据库。 本地元数据:元数据存储于集群内的本地 GaussDB 中,当集群删除时元数据同时被删除,如需保存元数据,需提前前往数据库手动保存元数据。 外置数据连接:可以为MRS集群选择关联与当前MRS集群同一虚拟私有云和子网的外置数据连接。元数据将存储于关联的数据库中,不会随当前集群的删除而删除,多个MRS集群可共享同一份元数据。 MRS集群支持的外置数据连接类型为: 安装了Hive组件的集群支持连接“RDS服务PostgreSQL数据库”,且Postgres数据库版本号为PostgreSQL14。 安装了Hive或Ranger组件的集群支持连接“RDS服务MySQL数据库”,且MySQL数据库版本为MySQL 5.7.x/MySQL 8.0。 仅MRS 3.1.2-LTS.3、MRS 3.1.5和MRS 3.3.0-LTS版本集群支持连接“云数据库GaussDB(for MySQL)”。 集群支持对接LakeFormation时,可选择“LakeFormation”数据连接。 不同集群间Hive元数据切换时,MRS当前只对Hive组件自身的元数据数据库中的权限进行同步。这是由于当前MRS上的权限模型是在Manager上维护的,所以不同集群间的Hive元数据切换,不能自动把用户/用户组的权限同步到另一个集群的Manager上。 父主题: 管理MRS集群元数据
  • 请求示例 修改ID为95bf2490-5428-432c-ad9b-5e3406f869dd的裸金属服务器的元数据,其中自定义metadata键值对为key和value。 1 PUT https://{ECS Endpoint}/v2.1/c685484a8cc2416b97260938705deb65/servers/95bf2490-5428-432c-ad9b-5e3406f869dd/metadata/{key} 1 2 3 4 5 { "meta": { "key": "value" } }
  • URI PUT /v2.1/{project_id}/servers/{server_id}/metadata/{key} 参数说明请参见表1。 表1 参数说明 参数 是否必选 描述 project_id 是 项目ID。 获取方式请参见获取项目ID。 server_id 是 裸金属服务器ID。 可以从裸金属服务器控制台查询,或者通过调用查询裸金属服务器列表(OpenStack原生)获取。 key 是 待修改的裸金属服务器metadata键值。
  • Instance Type(EC2-兼容的API) 用于查询弹性云服务器的规格名称。 URI /169.254.169.254/latest/meta-data/instance-type 方法 支持GET请求。 示例 Linux操作系统: curl http://169.254.169.254/latest/meta-data/instance-type Windows操作系统: Invoke-RestMethod http://169.254.169.254/latest/meta-data/instance-type s3.medium.2
  • Hostname(EC2-兼容的API) 用于查询弹性云服务器的主机名称,后面会追加.novalocal后缀。 URI /169.254.169.254/latest/meta-data/hostname 方法 支持GET请求。 示例 Linux操作系统: curl http://169.254.169.254/latest/meta-data/hostname Windows操作系统: Invoke-RestMethod http://169.254.169.254/latest/meta-data/hostname vm-test.novalocal