云服务器内容精选

  • 使用OBS数据源 GaussDB (DWS)使用外表方式访问OBS上的数据。委托方式与非委托方式,在外表上体现出来的差异仅在于指定了不同的SERVER。 对于非委托方式,控制台提供的SERVER包含access_key和secret_access_key参数,分别对应OBS访问协议的AK和SK值。 对于委托方式,控制台提供的SERVER包含access_key、secret_access_key和security_token参数,分别对应OBS访问协议的临时AK、临时SK和 统一身份认证 服务 IAM 中临时安全凭证的SecurityToken值。 在创建好OBS委托和OBS数据源之后,用户从控制台获得相应的包含委托信息的SERVER,假设OBS数据源名称为obs_server。用户创建和使用外表与非委托方式无差异。关于如何使用OBS数据源,具体请参见从OBS导入数据。 如下示例为某普通用户jim通过外表读取OBS上的数据。 参见以上步骤创建OBS数据源,名称为obs_server。 使用系统管理员dbadmin连接数据库,创建普通用户,并授权该普通用户使用OBS server和OBS外表权限。 其中{Password}替换为用户实际密码,obs_server替换成实际的OBS数据源名称。 1 2 3 CREATE USER jim PASSWORD '{Password}'; ALTER USER jim USEFT; GRANT USAGE ON FOREIGN SERVER obs_server TO jim; 使用普通用户jim连接数据库,建立OBS外表customer_address,不包含分区列。 以下命令中,obs_server替换为上面实际创建的OBS数据源名称。目录/user/obs/region_orc11_64stripe1/替换为实际数据文件存放的OBS目录,user表示用户的OBS桶名称。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 CREATE FOREIGN TABLE customer_address ( ca_address_sk integer not null, ca_address_id char(16) not null, ca_street_number char(10) , ca_street_name varchar(60) , ca_street_type char(15) , ca_suite_number char(10) , ca_city varchar(60) , ca_county varchar(30) , ca_state char(2) , ca_zip char(10) , ca_country varchar(20) , ca_gmt_offset decimal(36,33) , ca_location_type char(20) ) SERVER obs_server OPTIONS ( FOLDERNAME '/user/obs/region_orc11_64stripe1/', FORMAT 'ORC', ENCODING 'utf8', TOTALROWS '20' ) DISTRIBUTE BY roundrobin; 通过外表查询OBS上的数据。 1 2 3 4 5 SELECT COUNT(*) FROM customer_address; count ------- 20 (1row)
  • 创建OBS委托 操作场景 创建OBS数据源前需要用户提前创建好授权给GaussDB(DWS)具有OBS OperateAccess或OBS Administrator权限的委托。 操作步骤 鼠标移动至页面右上角账号,单击“统一身份认证”,进入统一身份认证服务页面。 在左侧导航栏单击“委托”,在委托页面右上角单击“创建委托”。 创建委托时委托类型选择“云服务”,云服务选择“DWS”。 单击“下一步”,对委托授予OBS服务的“OBS OperateAccess”或“OBS Administrator”权限。 单击“下一步”,选择授权资源范围为“所有资源”或需要访问的资源,然后确认无误后提交。
  • 使用流程 从 MRS 导入数据到集群流程如下: 前提条件 创建一个MRS集群,具体操作步骤请参见购买自定义集群。 创建一个HDFS外表,外表通过外部服务器的接口,从MRS集群查询数据。 具体操作步骤请参见《 数据仓库 服务数据迁移与同步》中从MRS导入数据到集群章节。 同一个网络下可以有多个MRS数据源, 但是GaussDB(DWS)集群每次只能和一个MRS集群建立连接。 在GaussDB(DWS) 集群创建一个MRS数据源连接,具体操作步骤请参见创建MRS数据源连接。 使用MRS数据源导入数据到集群,具体操作请参见使用MRS数据源。 (可选)当MRS集群的HDFS配置发生变更时,在GaussDB(DWS)服务中,需要执行MRS数据源配置的更新操作,详情请参见更新MRS数据源配置。
  • MRS集群简介 MapReduce服务 (MapReduce Service,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。有关MRS服务的详细信息,请参考《MapReduce服务用户指南》。 用户可以将海量业务数据,存储在MRS的分析集群,即使用Hive/Spark组件保存。Hive/Spark的数据文件则保存在HDFS中。GaussDB(DWS) 支持在相同网络中,配置一个GaussDB(DWS) 集群连接到MRS集群,然后将数据从HDFS中的文件读取到GaussDB(DWS) 。 实时数仓(单机部署)暂不支持从MRS导入数据。
  • 元数据简介 按照传统的定义,元数据(Metadata)是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便地找到其所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率。 在 DataArts Studio 中,元数据是数据的描述数据,可以为数据说明其属性(数据连接、类型、名称、大小等),或其相关数据(位于拥有者、标签、分类、密级等)。 元数据按用途的不同,可以分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。在DataArts Studio中,技术元数据即为技术资产,显示数据库、数据表、数据量的数量及其详情。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。在DataArts Studio中,业务元数据包含业务资产和指标资产,业务资产显示业务对象、逻辑实体、业务属性的数量及其详情,指标资产显示业务指标及其详情。 DataArts Studio中的技术元数据来源于元数据采集任务,您需要在创建并运行元数据采集任务后才能在数据地图中查看元数据。 父主题: 采集数据源的元数据
  • 表/文件迁移支持的数据源类型 表/文件迁移可以实现表或文件级别的数据迁移。 表/文件迁移时支持的数据源如表1所示。 表1 表/文件迁移支持的数据源 数据源分类 源端数据源 对应的目的端数据源 说明 数据仓库 数据仓库服务(DWS) 数据仓库:数据仓库服务(DWS), 数据湖探索 DLI ),MRS ClickHouse Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储: 对象存储服务 (OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL: 表格存储服务 (CloudTable) 搜索:Elasticsearch, 云搜索服务 CSS ) 不支持DWS物理机纳管模式。 数据湖 探索(DLI) 数据仓库:数据仓库服务(DWS),数据湖探索(DLI),MRS ClickHouse Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL: 表格存储 服务(CloudTable),MongoDB 搜索:Elasticsearch, 云搜索 服务( CS S) MongoDB建议使用的版本:4.2。 MRS ClickHouse 数据仓库:MRS ClickHouse,数据湖探索(DLI) MRS ClickHouse建议使用的版本:21.3.4.X。 Hadoop MRS HDFS 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) 支持本地存储,仅MRS Hive、MRS Hudi支持存算分离场景。 仅MRS Hive支持Ranger场景。 不支持ZK开启SSL场景。 MRS HDFS建议使用的版本: 2.8.X 3.1.X MRS HBase建议使用的版本: 2.1.X 1.3.X MRS Hive、MRS Hudi暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X MRS HBase MRS Hive 数据仓库:数据仓库服务(DWS),数据湖探索(DLI),MRS Clickhouse Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) MRS Hudi 数据仓库:数据仓库服务(DWS) Hadoop:MRS HBase FusionInsight HDFS 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) FusionInsight数据源不支持作为目的端。 仅支持本地存储,不支持存算分离场景。 不支持Ranger场景。 不支持ZK开启SSL场景。 FusionInsight HDFS建议使用的版本: 2.8.X 3.1.X FusionInsight HBase建议使用的版本: 2.1.X 1.3.X FusionInsight Hive建议使用的版本: 1.2.X 3.1.X FusionInsight HBase FusionInsight Hive Apache HBase 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) Apache数据源不支持作为目的端。 仅支持本地存储,不支持存算分离场景。 不支持Ranger场景。 不支持ZK开启SSL场景。 Apache HBase建议使用的版本: 2.1.X 1.3.X Apache Hive暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X Apache HDFS建议使用的版本: 2.8.X 3.1.X Apache Hive Apache HDFS 对象存储 对象存储服务(OBS) 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) 对象存储服务之间的迁移,推荐使用 对象存储迁移 服务 OMS 。 不支持二进制文件导入到数据库或NoSQL。 文件系统 FTP 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) 对象存储:对象存储服务(OBS) 文件系统不支持作为目的端。 FTP/SFTP到搜索的迁移仅支持如CSV等文本文件,不支持二进制文件。 FTP/SFTP到OBS的迁移仅支持二进制文件。 HTTP到OBS的迁移推荐使用obsutil工具,请参见obsutil简介。 SFTP HTTP Hadoop:MRS HDFS 关系型数据库 云数据库 MySQL 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive,MRS Hudi 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server 搜索:Elasticsearch,云搜索服务(CSS) 云数据库 MySQL不支持SSL模式。 Microsoft SQL Server建议使用的版本:2005以上。 金仓和GaussDB数据源可通过PostgreSQL连接器进行连接,支持的迁移作业的源端、目的端情况与PostgreSQL数据源一致。 云数据库 SQL Server 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server 搜索:Elasticsearch,云搜索服务(CSS) 云数据库 PostgreSQL MySQL 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive,MRS Hudi 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) PostgreSQL Oracle Microsoft SQL Server 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) SAP HANA 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS Hive SAP HANA数据源存在如下约束: SAP HANA不支持作为目的端。 仅支持2.00.050.00.1592305219版本。 仅支持Generic Edition。 不支持BW/4 FOR HANA。 仅支持英文字母的数据库名、表名与列名,不支持存在空格、符号等特殊字符。 仅支持日期、数字、布尔、字符(除SHORTTEXT) 类型的数据类型,不支持二进制类型等其他数据类型。 迁移时不支持目的端自动建表。 分库 数据仓库:数据湖探索(DLI) Hadoop:MRS HBase,MRS Hive 搜索:Elasticsearch,云搜索服务(CSS) 对象存储:对象存储服务(OBS) 分库数据源不支持作为目的端。 神通(ST) Hadoop:MRS Hive,MRS Hudi - NoSQL 分布式缓存服务(DCS) Hadoop:MRS HDFS,MRS HBase,MRS Hive 除了表格存储服务(CloudTable)外,其他NoSQL数据源不支持作为目的端。 Redis到DCS的迁移,可以通过其他方式进行,请参见自建Redis迁移至DCS。 Redis 文档数据库服务(DDS) MongoDB 表格存储服务(CloudTable HBase) 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) Cassandra 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) 消息系统 数据接入服务 (DIS) 搜索:云搜索服务(CSS) 消息系统不支持作为目的端。 Apache Kafka DMS Kafka MRS Kafka 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) MRS Kafka不支持作为目的端。 仅支持本地存储,不支持存算分离场景。 不支持Ranger场景。 不支持ZK开启SSL场景。 搜索 Elasticsearch 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) Elasticsearch仅支持非安全模式。 云搜索服务(CSS) 导入数据到CSS推荐使用Logstash,请参见使用Logstash导入数据到Elasticsearch。 上表中非云服务的数据源,例如MySQL,既可以支持用户本地数据中心自建的MySQL,也可以是用户在ECS上自建的MySQL,还可以是第三方云的MySQL服务。
  • 整库迁移支持的数据源类型 整库迁移适用于将本地数据中心或在ECS上自建的数据库,同步到云上的数据库服务或大数据服务中,适用于数据库离线迁移场景,不适用于在线实时迁移。 数据集成支持整库迁移的数据源如表2所示。 表2 整库迁移支持的数据源 数据源分类 数据源 读取 写入 说明 数据仓库 数据仓库服务(DWS) 支持 支持 - Hadoop (仅支持本地存储,不支持存算分离场景,不支持Ranger场景,不支持ZK开启SSL场景) MRS HBase 支持 支持 整库迁移仅支持导出到MRS HBase。 建议使用的版本: 2.1.X 1.3.X MRS Hive 支持 支持 整库迁移仅支持导出到关系型数据库。 暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X FusionInsight HBase 支持 不支持 建议使用的版本: 2.1.X 1.3.X FusionInsight Hive 支持 不支持 整库迁移仅支持导出到关系型数据库。 暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X Apache HBase 支持 不支持 建议使用的版本: 2.1.X 1.3.X Apache Hive 支持 不支持 整库迁移仅支持导出到关系型数据库。 暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X MRS Hudi 支持 支持 支持本地存储、存算分离场景。 暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X 关系数据库 云数据库 MySQL 支持 支持 不支持OLTP到OLTP迁移,此场景推荐通过 数据复制服务 DRS进行迁移。 云数据库 PostgreSQL 支持 支持 云数据库 SQL Server 支持 支持 MySQL 支持 不支持 PostgreSQL 支持 不支持 Microsoft SQL Server 支持 不支持 Oracle 支持 不支持 SAP HANA 支持 不支持 仅支持2.00.050.00.1592305219版本。 仅支持Generic Edition。 不支持BW/4 FOR HANA。 仅支持英文字母的数据库名、表名与列名,不支持存在空格、符号等特殊字符。 仅支持日期、数字、布尔、字符(除SHORTTEXT) 类型的数据类型,不支持二进制类型等其他数据类型。 迁移时不支持目的端自动建表。 达梦数据库 DM 支持 不支持 仅支持导出到DWS、Hive NoSQL 分布式缓存服务(DCS) 不支持 支持 仅支持MRS到DCS迁移。 文档数据库服务(DDS) 支持 支持 仅支持DDS和MRS之间迁移。 表格存储服务(CloudTable) 支持 支持 -
  • 数据源管理流程及功能简介 表1 功能介绍 功能 说明 准备离线数据源 请您按照推荐系统要求的数据格式准备用户数据,物品数据,行为数据。 上传离线数据源至OBS 将准备的离线数据源上传至对象存储服务(OBS)用于推荐系统的离线计算。 创建离线数据源 在使用RES之前,首先您需要创建一个数据源,后续的操作都是基于您创建的数据源进行的。 上传实时数据 RES通过SDK上传实时数据,进行数据计算和处理,更新用户的相关数据。 数据质量管理 数据质量管理操作可以将数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。 修改或删除数据源 对您已经创建的数据源进行修改,对不需要的数据源进行删除。
  • 注意事项 每张表的表结构和填充的数据必须符合推荐系统的要求,列名和字段类型需要和规范保持一致。 创建数据源之前您需要自己手工创建整理这些表并存储到OBS,推荐数据目前支持JSON格式。 离线数据为初次对接RES的批量数据,供场景中的召回算法和排序算法进行计算。近线数据可实时更新、增加用户和物品表数据,同时实时行为数据,可作为后续近线召回计算,这些近线行为数据也会和离线行为数据进行汇总存储,供离线计算。
  • 数据类型 当前RES支持创建数据源和导入近线数据。创建数据源的数据格式和近线数据导入的格式要求一致,包括用户数据、物品数据和行为数据。 用户数据 用户数据包括数据源中的“用户属性表”和用于近线计算的“用户画像”数据。用户数据记录用户的属性信息,例如地域、爱好等。 物品数据 物品数据包括数据源中的“物品属性表”和用于近线计算的“物品画像”数据。物品数据记录物品的属性信息,例如类别、长度等。 行为数据 行为数据包括数据源中的“用户操作行为表”和用于近线计算的“行为数据”。行为数据,每行记录用户的单次行为信息,包含用户标识符、行为对象标识符、行为类型和行为时间等信息。
  • 约束与限制 OMS迁移任务限制参见下表。 表1 OMS迁移任务限制 类别 限制 多版本对象迁移 OMS默认只迁移源端多版本对象中的最新版本,不支持迁移历史版本的对象存储数据。 目的端桶存储类别 目的端桶的存储类别只能为标准存储或者低频访问存储。迁移完成后,可以自行修改桶的存储类别。 迁移网络 仅支持公网迁移,不支持专线迁移。 元数据迁移 仅支持英文字符、数字与中划线【-】迁移。暂不支持中文、中文符号迁移(无论是否经过编码)。 说明: 如果选择“忽略元数据迁移”,为保证迁移任务正常运行,仍将迁移ContentType元数据。 迁移范围 目前单个任务(迁移任务/迁移任务组)仅支持迁移单桶数据,如果涉及多桶数据迁移,需要创建多个任务。 迁移速度 通常OMS的迁移速度参考值是10~20 TB每天。若需更高的迁移效率,建议使用迁移中心MgC的存储迁移工作流进行迁移。迁移中心MgC提供独享的集群资源,能够动态扩展迁移性能,最高支持20Gbit/s带宽。 迁移速度受源端对象个数、大小,带宽以及公网传输距离影响,建议用户创建一个含有实际数据的迁移任务来测试迁移速度,实际最大迁移速度为单个任务平均速度的5倍(单个Region内并发任务数最大为5)。如果需要更高的并发任务数,可以使用迁移中心 MgC的存储迁移工作流来自定义并发子任务数。 归档数据 对于归档类型的数据,迁移前需要您进行解冻操作,待解冻完成后再创建迁移任务,解冻时请注意如下事项: 请务必在解冻完成后再创建迁移任务。 请根据待迁移的数据总量评估并设置解冻有效期,以防迁移期间数据再次变成归档状态。 解冻操作可能会产生一定的费用,由源端云厂商收取,计费规则请咨询源端云厂商。 迁移任务 同一用户,单个Region内并发任务数最大为5。 说明: 假设分别迁移对象存储数据到华北-北京一和华南-广州时,总并发数为5*2=10个。 24小时内,单个Region内最多创建迁移任务数为5000个。 迁移任务组 同一用户,单个Region内并发任务组数最大为5。 说明: 假设分别迁移对象存储数据到华北-北京一和华南-广州时,总并发数为5*2=10个。 同步任务 同步任务和迁移任务、迁移任务组共用配额,优先于迁移任务、迁移任务组下发。 并发执行同步中的任务数量最多为5个。 对象列表文件 对象列表文件大小不能超过1024MB。 对象列表文件必须是“.txt”类型的文件,并且该文件元数据中的“ContentType”只能为:“text/plain”。 对象列表文件必须是UTF-8无BOM格式编码格式。 对象列表文件中每行只能包含一个对象名称,并且对象名称使用URL Encode编码。 对象列表文件中每行不要添加无效空格,否则会将空格作为对象名,导致迁移失败。 对象列表文件中每行长度不要超过65535,否则会导致迁移失败。 对象列表文件的元数据中不能设置“ContentEncoding”,否则会导致迁移失败。 URL列表文件 URL列表文件大小不能超过1024MB。 URL列表文件必须是“.txt”类型的文件,并且该文件元数据中的“ContentType”只能为:“text/plain”。 URL列表文件必须是UTF-8无BOM格式编码格式。 URL列表文件中每行只能包含一个URL和目的端对象名称。 URL列表文件中每行长度不要超过65535,否则会导致迁移失败。 URL列表文件的元数据中不能设置“ContentEncoding”,否则会导致迁移失败。 URL列表文件中每行不要添加无效空格,否则会将空格作为对象名,导致迁移失败。 URL列表文件中每行使用制表符\t分割URL和目的端对象名称,格式为:[URL][制表符][目的端对象名称],其中源端对象名称如果包含中文、特殊字符必须使用URL Encode对URL编码;目的端对象名称如果包含中文、特殊字符也需要使用URL Encode编码。例如: http://xxx.xxx.xxx.xxx.com/doc/%e6%96%87%e4%bb%b61.txt doc/%e6%96%87%e4%bb%b61.txt http://xxx.xxx.xxx.xxx.com/doc/thefile2.txt doc/thefile2.txt http://xxx.xxx.xxx.xxx.com/the%20file.txt the%20file.txt http://xxx.xxx.xxx.xxx.com/the%20file2.txt the+file2.txt http://xxx.xxx.xxx.xxx.com/doc/thefile.txt doc/thefile.txt 注意: URL编码仅从 域名 后第二个字符开始,不要将协议头、域名以及域名两侧的斜线转码,否则将导致格式校验错误。 URL与目的端对象名称之间使用一个制表符(键盘上Tab键)进行分割,请勿使用空格。 以上示例中,URL所表示的文件,被复制到目的端桶后,对象会被分别命名为:doc/文件1.txt、doc/thefile2.txt、the file.txt、the file2.txt以及doc/thefile.txt。 URL列表文件中的URL需确保可通过HEAD和GET请求正常访问。 失败对象列表文件 单个任务失败对象列表最多记录10万个失败对象。 说明: 失败对象超过10万个的场景,建议基于已有失败对象列表,分析处理后重新迁移。
  • 操作步骤 登录ROMA Connect控制台,在“实例”页面单击实例上的“查看控制台”,进入实例控制台。 在左侧的导航栏选择“数据源管理”,单击页面右上角的“接入数据源”。 在接入数据源页面的“默认数据源”页签下,选择“MQS”类型的数据源,然后单击“下一步”。 在页面中配置数据源的连接信息。 表1 数据源连接信息 参数 配置说明 数据源名称 填写数据源的名称,根据规划自定义。建议您按照一定的命名规则填写数据源名称,方便您快速识别和查找。 编码格式 默认“utf-8”格式。 集成应用 选择数据源所归属的集成应用。 描述 填写数据源的描述信息。 连接地址 选择当前实例下MQS的内网连接地址。 是否SSL ROMA Connect与MQS的连接是否使用SSL认证加密。 当MQS开启了SSL且VPC内网明文访问未开启时,请选择“是”,其他情况下选择“否”。 SSL用户名/应用Key 仅当“是否SSL”选择“是”时需要配置。 SSL认证所使用的用户名,如果使用ROMA Connect的消息集成作为MQS数据源,则用户名为集成应用的Key。 SSL密码/应用Secret 仅当“是否SSL”选择“是”时需要配置。 SSL认证所使用的用户密码,如果使用ROMA Connect的消息集成作为MQS数据源,则密码为集成应用的Secret。 以开启SSL为例,数据源的接入配置示例如下图所示。 图1 MQS数据源配置示例 完成数据源接入配置后,单击“开始检测”,检测ROMA Connect与数据源之间是否能够连通。 若测试结果为“数据源连接成功!”,则继续下一步。 若测试结果为“数据源连接失败!”,则检查数据源状态和数据源连接参数配置,然后单击“重新检测”,直到连接成功为止。 单击“创建”,完成数据源的接入。
  • 整库迁移支持的数据源类型 整库迁移适用于将本地数据中心或在ECS上自建的数据库,同步到云上的数据库服务或大数据服务中,适用于数据库离线迁移场景,不适用于在线实时迁移。 数据集成支持整库迁移的数据源如表2所示。 表2 整库迁移支持的数据源 数据源分类 数据源 读取 写入 说明 数据仓库 数据仓库服务(DWS) 支持 支持 - Hadoop (仅支持本地存储,不支持存算分离场景,不支持Ranger场景,不支持ZK开启SSL场景) MRS HBase 支持 支持 整库迁移仅支持导出到MRS HBase。 建议使用的版本: 2.1.X 1.3.X MRS Hive 支持 支持 整库迁移仅支持导出到关系型数据库。 暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X FusionInsight HBase 支持 不支持 建议使用的版本: 2.1.X 1.3.X FusionInsight Hive 支持 不支持 整库迁移仅支持导出到关系型数据库。 暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X Apache HBase 支持 不支持 建议使用的版本: 2.1.X 1.3.X Apache Hive 支持 不支持 整库迁移仅支持导出到关系型数据库。 暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X MRS Hudi 支持 支持 支持本地存储、存算分离场景。 暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X 关系数据库 云数据库 MySQL 支持 支持 不支持OLTP到OLTP迁移,此场景推荐通过数据复制服务DRS进行迁移。 云数据库 PostgreSQL 支持 支持 云数据库 SQL Server 支持 支持 MySQL 支持 不支持 PostgreSQL 支持 不支持 Microsoft SQL Server 支持 不支持 Oracle 支持 不支持 SAP HANA 支持 不支持 仅支持2.00.050.00.1592305219版本。 仅支持Generic Edition。 不支持BW/4 FOR HANA。 仅支持英文字母的数据库名、表名与列名,不支持存在空格、符号等特殊字符。 仅支持日期、数字、布尔、字符(除SHORTTEXT) 类型的数据类型,不支持二进制类型等其他数据类型。 迁移时不支持目的端自动建表。 达梦数据库 DM 支持 不支持 仅支持导出到DWS、Hive NoSQL 分布式缓存服务(DCS) 不支持 支持 仅支持MRS到DCS迁移。 文档数据库服务(DDS) 支持 支持 仅支持DDS和MRS之间迁移。 表格存储服务(CloudTable) 支持 支持 -
  • 表/文件迁移支持的数据源类型 表/文件迁移可以实现表或文件级别的数据迁移。 表/文件迁移时支持的数据源如表1所示。 表1 表/文件迁移支持的数据源 数据源分类 源端数据源 对应的目的端数据源 说明 数据仓库 数据仓库服务(DWS) 数据仓库:数据仓库服务(DWS),数据湖探索(DLI),MRS ClickHouse,Doris Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) 不支持DWS物理机纳管模式。 数据湖探索(DLI) 数据仓库:数据仓库服务(DWS),数据湖探索(DLI),MRS ClickHouse,Doris Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL:表格存储服务(CloudTable),MongoDB 搜索:Elasticsearch,云搜索服务(CSS) MongoDB建议使用的版本: 4.2。 MRS ClickHouse 数据仓库:MRS ClickHouse,数据湖探索(DLI) MRS ClickHouse建议使用的版本:21.3.4.X。 Doris 数据仓库:Doris - Hadoop MRS HDFS 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) 支持本地存储,仅MRS Hive、MRS Hudi支持存算分离场景。 仅MRS Hive支持Ranger场景。 不支持ZK开启SSL场景。 MRS HDFS建议使用的版本: 2.8.X 3.1.X MRS HBase建议使用的版本: 2.1.X 1.3.X MRS Hive、MRS Hudi暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X MRS HBase MRS Hive 数据仓库:数据仓库服务(DWS),数据湖探索(DLI),MRS Clickhouse Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) MRS Hudi 数据仓库:数据仓库服务(DWS) Hadoop:MRS HBase FusionInsight HDFS 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) FusionInsight数据源不支持作为目的端。 仅支持本地存储,不支持存算分离场景。 不支持Ranger场景。 不支持ZK开启SSL场景。 FusionInsight HDFS建议使用的版本: 2.8.X 3.1.X FusionInsight HBase建议使用的版本: 2.1.X 1.3.X FusionInsight Hive建议使用的版本: 1.2.X 3.1.X FusionInsight HBase FusionInsight Hive Apache HBase 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) Apache数据源不支持作为目的端。 仅支持本地存储,不支持存算分离场景。 不支持Ranger场景。 不支持ZK开启SSL场景。 Apache HBase建议使用的版本: 2.1.X 1.3.X Apache Hive暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X Apache HDFS建议使用的版本: 2.8.X 3.1.X Apache Hive Apache HDFS 对象存储 对象存储服务(OBS) 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) 对象存储服务之间的迁移,推荐使用对象存储迁移服务OMS。 不支持二进制文件导入到数据库或NoSQL。 文件系统 FTP 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) 对象存储:对象存储服务(OBS) 文件系统不支持作为目的端。 FTP/SFTP到搜索的迁移仅支持如CSV等文本文件,不支持二进制文件。 FTP/SFTP到OBS的迁移仅支持二进制文件。 HTTP到OBS的迁移推荐使用obsutil工具,请参见obsutil简介。 SFTP HTTP Hadoop:MRS HDFS 关系型数据库 云数据库 MySQL 数据仓库:数据仓库服务(DWS),数据湖探索(DLI),Doris Hadoop:MRS HDFS,MRS HBase,MRS Hive,MRS Hudi 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server 搜索:Elasticsearch,云搜索服务(CSS) 云数据库 MySQL不支持SSL模式。 Microsoft SQL Server建议使用的版本:2005以上。 金仓和GaussDB数据源可通过PostgreSQL连接器进行连接,支持的迁移作业的源端、目的端情况与PostgreSQL数据源一致。 云数据库 SQL Server 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server 搜索:Elasticsearch,云搜索服务(CSS) 云数据库 PostgreSQL MySQL 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive,MRS Hudi 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) PostgreSQL Oracle Microsoft SQL Server 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) SAP HANA 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS Hive SAP HANA数据源存在如下约束: SAP HANA不支持作为目的端。 仅支持2.00.050.00.1592305219版本。 仅支持Generic Edition。 不支持BW/4 FOR HANA。 仅支持英文字母的数据库名、表名与列名,不支持存在空格、符号等特殊字符。 仅支持日期、数字、布尔、字符(除SHORTTEXT) 类型的数据类型,不支持二进制类型等其他数据类型。 迁移时不支持目的端自动建表。 分库 数据仓库:数据湖探索(DLI) Hadoop:MRS HBase,MRS Hive 搜索:Elasticsearch,云搜索服务(CSS) 对象存储:对象存储服务(OBS) 分库数据源不支持作为目的端。 神通(ST) Hadoop:MRS Hive,MRS Hudi - NoSQL 分布式缓存服务(DCS) Hadoop:MRS HDFS,MRS HBase,MRS Hive 除了表格存储服务(CloudTable)外,其他NoSQL数据源不支持作为目的端。 Redis到DCS的迁移,可以通过其他方式进行,请参见自建Redis迁移至DCS。 Redis 文档数据库服务(DDS) MongoDB 表格存储服务(CloudTable HBase) 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) Cassandra 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) 消息系统 数据接入服务(DIS) 搜索:云搜索服务(CSS) 消息系统不支持作为目的端。 Apache Kafka DMS Kafka MRS Kafka 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) MRS Kafka不支持作为目的端。 仅支持本地存储,不支持存算分离场景。 不支持Ranger场景。 不支持ZK开启SSL场景。 搜索 Elasticsearch 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) Elasticsearch仅支持非安全模式。 云搜索服务(CSS) 导入数据到CSS推荐使用Logstash,请参见使用Logstash导入数据到Elasticsearch。 上表中非云服务的数据源,例如MySQL,既可以支持用户本地数据中心自建的MySQL,也可以是用户在ECS上自建的MySQL,还可以是第三方云的MySQL服务。
  • 操作步骤 登录智能数据洞察控制台。 单击管理控制台左上角的,选择区域。 单击左下角的企业项目选择企业项目。 选择需要操作的项目,单击项目名称进入项目空间。 选择待授权的数据源。 单击数据源右侧的,选择“分享协作”。 在协同授权配置页面编辑数据源权限。 选择授予的权限。 编辑授权:开启后可赋予成员编辑权限,支持创建、编辑、替换和删除数据源,同时支持基于数据源进行数据分析。 开启数据源的编辑权限,默认关联开启数据源的使用权限。 使用授权:开启后可赋予成员使用权限,仅支持对数据源的分析。 选择授权的对象。 用户:给当前用户编辑数据源的权限。 用户组:当给该用户组授权后,整个组内的用户都将获的该数据源的相关权限。 按需勾选需要授权的用户和用户组,完成数据源授权。 图1 协同授权配置页面