华为云用户手册

  • 资产筛选 对于技术资产搜索结果,可以基于条件进行筛选,支持的筛选条件类别如下: 数据连接:数据资产所属数据连接名称。 类型:数据资产所属类型。 分类:数据资产所属分类。 标签:数据资产所包含的标签。 密级:数据资产所属密级。 如下通过资产类型过滤搜索结果,其他类同。 在类型过滤区域,选择“Table”,搜索结果显示属于Table类型的资产。 类型过滤条件按照名称排序,默认只显示前五种类型,单击“全部”,显示系统目前支持的所有资产类型。
  • 约束限制 业务资产和指标资产来自于数据架构组件,会随数据架构同步的数据更新,但不支持随之删除。如需删除需要在数据目录中定位到资产后手动删除。 技术资产中的数据连接信息来自于管理中心的数据连接,会随管理中心同步的数据更新,但不支持随之删除。如需删除需要在数据目录中定位到资产后手动删除。 技术资产中的库表列等信息来自于元数据采集任务,是否更新和自动删除取决于元数据采集任务的参数配置,详情请参见配置元数据采集任务。 技术资产中的数据血缘关系更新依赖于作业调度,数据血缘关系是基于最新的作业调度实例产生的。需要注意的是,数据血缘关系删除需要通过删除作业或删除作业元数据的方式进行,仅将作业停止调度不会触发血缘关系的删除。
  • 配置DIS源端参数 消息体中的数据是一条类似 CS V格式的记录,可以支持多种分隔符。不支持二进制格式或其他格式的消息内容解析。 作业中源连接为DIS连接时,源端作业参数如所表1示。 表1 DIS作为源端时的作业参数 参数类型 参数 说明 取值样例 基本参数 DIS通道 DIS的通道名。 dis 是否持久运行 用户自定义是否永久运行。设置为长久运行的任务,如果DIS系统发生中断,任务也会失败结束。 是 DIS分区ID DIS分区ID,该参数支持输入多个分区ID,使用英文逗号(,)分隔。 0,1,2 偏移量参数 设置从DIS拉取数据时的初始偏移量: 最新:最大偏移量,即拉取最新的数据。 上次停止处:从上次停止处继续读取。 最早:最小偏移量,即拉取最早的数据。 最新 APP名字 配置用户数据消费程序的唯一标识符,不存在时会自动创建。 cdm 数据格式 解析数据时使用的格式: 二进制格式:适用于文件迁移场景,不解析数据内容原样传输。 CSV格式:以CSV格式解析源数据。 JSON格式:以JSON格式解析源数据。 二进制格式 字段分隔符 数据格式为“CSV格式”时呈现此参数。默认为逗号,使用Tab键作为分隔符请输入“\t”。 , 记录分隔符 数据格式为“CSV格式”或“JSON格式”时呈现此参数。用于配置每条记录之间的分割符。 , 高级属性 最大消息数/poll 可选参数,每次向DIS请求数据限制最大请求记录数。 100 父主题: 配置 CDM 作业源端参数
  • 功能介绍 数据安全包括如下功能: 统一权限治理 统一权限治理基于 MRS 、DWS、 DLI 服务,提供数据权限管理能力。您可以创建空间权限集、权限集或角色,并通过这些权限配置模型实现MRS、DWS、DLI数据的访问控制,按需为用户、用户组分配最小权限,从而降低企业数据信息安全风险。 敏感 数据治理 敏感数据识别通过用户创建或内置的数据识别规则和规则组自动发现敏感数据并进行数据分级分类标注。 隐私保护管理 隐私保护管理可以通过数据静态脱敏、动态脱敏、数据水印、文件水印和动态水印等方式来防止敏感数据遭到有意或无意的误用、泄漏或盗窃,从而帮助企业采取合理措施来保护其敏感数据的机密性和完整性、可用性。 数据安全运营 提供数据安全诊断能力、 数据湖 访问审计日志查询能力,方便用户更好的做到安全管控。
  • 特点优势 数据安全融合了不同的大数据服务进行统一入口管理,包括MRS、DWS、DLI,统一的权限配置入口能力,提高了易用性和可维护性。 数据安全以数据为中心,提供了围绕数据全链路的数据安全能力,如统一权限治理、敏感数据治理、隐私保护策略管理。 统一权限治理支持按照项目空间分配空间权限集(每个项目空间可以管理的库表权限范围),空间内按照角色给不同用户、用户组进行权限分配,跨空间依赖支持灵活按需的权限申请审批能力。 敏感数据管理支持敏感数据的分级分类,自动识别发现,以及基于敏感数据等级的安全管控策略能力。 隐私保护管理提供了静态与动态的数据脱敏能力、数据水印能力,满足业务需求同时保证数据安全。
  • 配置OBS源端参数 作业中源连接为OBS连接时,源端作业参数如表1所示。 高级属性里的参数为可选参数,默认隐藏,单击界面上的“显示高级属性”后显示。 表1 源端为OBS时的作业参数 参数类型 参数名 说明 取值样例 基本参数 桶名 待迁移数据所在的桶名。 BUCKET_2 源目录或文件 “列表文件”选择为“否”时,才有该参数。 待迁移数据的目录或单个文件路径。文件路径支持输入多个文件(最多50个),默认以“|”分隔,也可以自定义文件分隔符,具体请参见文件列表迁移。 待迁移数据的目录,将迁移目录下的所有文件(包括所有嵌套子目录及其子文件)。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过 DataArts Studio 数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 FROM/example.csv 文件格式 指CDM以哪种格式解析数据,可选择以下格式: CSV格式:以CSV格式解析源文件,用于迁移文件到数据表的场景。 二进制格式:选择“二进制格式”时不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。 JSON格式:以JSON格式解析源文件,一般都是用于迁移文件到数据表的场景。 CSV格式 列表文件 当“文件格式”选择为“二进制格式”时,才有该参数。 打开列表文件功能时,支持读取OBS桶中文件(如txt文件)的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径(不支持目录),例如直接写为如下内容: /052101/DAY20211110.data /052101/DAY20211111.data 是 列表文件源连接 当“列表文件”选择为“是”时,才有该参数。可选择列表文件所在的OBS连接。 OBS_test_link 列表文件OBS桶 当“列表文件”选择为“是”时,才有该参数。该参数表示列表文件所在的OBS桶名。 01 列表文件或目录 当“列表文件”选择为“是”时,才有该参数。该参数表示列表文件所在的OBS桶中的绝对路径或目录。 此处建议选择为文件的绝对路径。当选择为目录时,也支持迁移子目录中的文件,但如果目录下文件量过大,可能会导致集群内存不足。 /0521/Lists.txt JSON类型 当“文件格式”选择为“JSON格式”时,才有该参数。JSON文件中存储的JSON对象的类型,可以选择“JSON对象”或“JSON数组”。 JSON对象 记录节点 当“文件格式”选择为“JSON格式”并且“JSON类型”为“JSON对象”时,才有该参数。对该JSON节点下的数据进行解析,如果该节点对应的数据为JSON数组,那么系统会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分割。 data.list 高级属性 换行符 文件中的换行符,默认自动识别“\n”、“\r”或“\r\n”。当“文件格式”选择为“CSV格式”时,才有该参数。 \n 字段分隔符 文件中的字段分隔符,使用Tab键作为分隔符请输入“\t”。当“文件格式”选择为“CSV格式”时,才有该参数。 , 使用包围符 选择“是”时,包围符内的字段分隔符会被视为字符串值的一部分,目前CDM默认的包围符为:"。 否 使用转义符 选择“是”时,CSV数据行中的\作为转义符使用。 选择“否”时,CSV中的\作为数据不会进行转义。CSV只支持\作为转义符。 是 使用正则表达式分隔字段 选择是否使用正则表达式分隔字段,当选择“是”时,“字段分隔符”参数无效。当“文件格式”选择为“CSV格式”时,才有该参数。 是 正则表达式 分隔字段的正则表达式,正则表达式写法请参考正则表达式分隔半结构化文本。 ^(\d.*\d) (\w*) \[(.*)\] ([\w\.]*) (\w.*).* 前N行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时,CDM默认是全部写入,如果该参数选择“是”,CDM会将CSV文件的前N行数据作为标题行,不写入目的端的表。 否 标题行数 “前N行为标题行”选择“是”时才有该参数。抽取数据时将被跳过的标题行数。 说明: 标题行数不为空,取值为1-99之间的整数。 1 解析首行为列名 “前N行为标题行”选择“是”时才有该参数。选择是否将标题的首行解析为列名,在配置字段映射时会在原字段中显示该列名。 说明: 标题行数大于1时,当前仅支持解析标题的首行作为列名。 列名不支持“&”字符,否则会导致作业迁移失败,需修改CSV文件“&”字符即可正常迁移。 是 编码类型 文件编码类型,例如:“UTF-8”或“GBK”。只有文本文件可以设置编码类型,当“文件格式”选择为“二进制格式”时,该参数值无效。 GBK 压缩格式 选择对应压缩格式的源文件: 无:表示传输所有格式的文件。 GZIP:表示只传输GZIP格式的文件。 ZIP:表示只传输ZIP格式的文件。 TAR.GZ:表示只传输TAR.GZ格式的文件。 无 压缩文件后缀 压缩格式非无时,显示该参数。 该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时,才会执行解压缩操作,否则保持原样传输。当输入*或为空时,所有文件都会被解压。 * 启动作业标识文件 选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业,否则会挂起等待一段时间,等待时长在下方“等待时间”中配置。 否 标识文件名 选择开启作业标识文件的功能时,需要指定启动作业的标识文件名。指定文件后,只有在源端路径下存在该文件的情况下才会运行任务。该文件本身不会被迁移。 ok.txt 等待时间 选择开启作业标识文件的功能时,如果源路径下不存在启动作业的标识文件,作业挂机等待的时长,当超时后任务会失败。 等待时间设置为0时,当源端路径下不存在标识文件,任务会立即失败。 单位:秒。 10 文件分隔符 “源目录或文件”参数中如果输入的是多个文件路径,CDM使用这里配置的文件分隔符来区分各个文件,默认为|。 | 过滤类型 满足过滤条件的路径或文件会被传输,该参数有“无”、“通配符”和“正则表达式”三种选择。具体使用方法可参见文件增量迁移。 通配符 目录过滤器 “过滤类型”选择“通配符”、“正则表达式”时,用通配符过滤目录,符合过滤器规则的目录,允许进行迁移。支持配置多个路径,中间使用“,”分隔。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 *input 文件过滤器 “过滤类型”选择“通配符”、“正则表达式”时,用通配符过滤目录下的文件,符合过滤器规则的文件,允许进行迁移。支持配置多个文件,中间使用“,”分隔。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 *.csv,*.txt 时间过滤 选择“是”时,可以根据文件的修改时间,选择性的传输文件。 是 起始时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间大于等于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss,-90,DAY))}表示:只迁移最近90天内的文件。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 2019-06-01 00:00:00 终止时间 “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间小于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss))}表示:只迁移修改时间为当前时间以前的文件。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 2019-07-01 00:00:00 忽略不存在原路径/文件 如果将其设为是,那么作业在源路径不存在的情况下也能成功执行。 否 MD5文件名后缀 “文件格式”选择“二进制格式”时,该参数才显示。 校验CDM抽取的文件,是否与源文件一致,详细请参见MD5校验文件一致性。 .md5 迁移文件或对象时支持文件级增量迁移(通过配置跳过重复文件实现),但不支持断点续传。 例如要迁移3个文件,第2个文件迁移到一半时由于网络原因失败,再次启动迁移任务时,会跳过第1个文件,从第2个文件开始重新传,但不能从第2个文件失败的位置重新传。 文件迁移时,单个任务支持千万数量的文件,如果待迁移目录下文件过多,建议拆分到不同目录并创建多个任务。 父主题: 配置CDM作业源端参数
  • 前提条件 元数据采集支持丰富的数据源类型,对于DWS、DLI、MRS HBase、MRS Hive、RDS(MySQL)、RDS(PostgreSQL)和ORACLE类型的数据源,首先需要在管理中心创建数据连接。如需采集其他数据源(如OBS、 CSS 、GES等)元数据,无需在管理中心创建数据连接。 采集Hudi元数据前,需要先在Hudi表开启“同步hive表配置”,然后才能通过采集MRS Hive元数据的方式采集Hudi表的元数据。
  • 引用字符和转义字符使用示例 引用字符和转义字符使用说明: 引用字符:用于识别分割字段,默认值:英文双引号(")。 转义字符:在导出结果中如果需要包含特殊字符,如引号本身,可以使用转义字符(反斜杠 \ )来表示。默认值:英文反斜杠(\)。 假设两个quote_char之间的数据内容存在第三个quote_char,则在第三个quote_char前加上escape_char,从而避免字段内容被分割。 假设数据内容中原本就存在escape_char,则在这个原有的escape_char前再加一个escape_char,避免原来的那个字符起到转义作用。 应用示例: 在进行转储时,如果引用字符和转义字符不填,如下图所示。 下载的.csv用excel打开以后如下图所示,是分成两行的。 在转储时,如果引用字符和转义字符都填写,比如,引用字符和转义字符都填英文双引号("),则下载以后查看结果如下图所示。
  • 调测并保存作业 作业配置完成后,请执行以下操作: 单击画布上方的运行按钮,运行作业。 用户可以查看该作业的运行日志,单击“查看日志”可以进入查看日志界面查看日志的详细信息记录。 运行完成后,单击画布上方的保存按钮,保存作业的配置信息。 保存后,在右侧的版本里面,会自动生成一个保存版本,支持版本回滚。保存版本时,一分钟内多次保存只记录一次版本。对于中间数据比较重要时,可以通过“新增版本”按钮手动增加保存版本。
  • 质量监控 对已编排好的单任务作业关联质量作业,当前暂不支持单任务Data Migration作业和单任务的实时作业。 质量监控支持并行和串行两种方式。单击画布右侧“质量监控”页签,展开配置页面,配置如表6所示的参数。 表6 质量监控配置 参数 说明 执行方式 选择质量监控的执行方式: 并行:并行模式下,所有质量作业算子的上游都被设置为主算子。 串行:串行模式下,质量作业将依照配置面板由上至下的顺序依次串联,顶部的质量作业依赖于主算子。 质量作业 关联质量作业。 单击“新增”,右侧自动弹出Data Quality Monitor算子的页面。 节点名称可自定义。 DQC作业类型选择“质量作业”。 说明: 对账作业目前不支持。 选择需要关联的“质量作业名称”,其他参数根据实际业务需要配置。如果没有质量作业,请参考新建数据质量作业创建一个质量作业。 说明: 单击“新增”可以关联多个质量作业。 单击可以修改已关联的质量作业。 单击可以删除已关联的质量作业。 是否忽略质量作业告警 是:质量作业告警可以忽略 否:质量作业告警不可忽略,产生告警时,上报告警。 配置高级参数。 配置节点执行的最长时间。设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。 失败重试。节点执行失败后,是否重新执行节点。 是:重新执行节点,请配置以下参数。 超时重试 最大重试次数 重试间隔时间(秒) 否:默认值,不重新执行节点。 说明: 如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后,系统支持再重试。 当节点运行超时导致的失败不会重试时,您可前往“默认项设置”修改此策略。 当“失败重试”配置为“是”才显示“超时重试”。 节点执行失败后的操作: 终止当前作业执行计划:停止当前作业运行,当前作业实例状态显示为“失败”。 继续执行下一节点:忽略当前节点失败,当前作业实例状态显示为“忽略失败”。 挂起当前作业执行计划:暂停当前作业运行,当前作业实例状态显示为“等待运行”。 终止后续节点执行计划:停止后续节点的运行,当前作业实例状态显示为“失败”。 单击“确定”,质量监控配置完成。
  • 下载或转储脚本执行结果 脚本运行成功后,支持下载和转储SQL脚本执行结果。系统默认支持所有用户都能下载和转储SQL脚本的执行结果。如果您不希望所有用户都有该操作权限,可参考配置数据导出策略进行配置。 脚本执行完成后在“执行结果”中,单击“下载”可以直接下载CSV格式的结果文件到本地。可以在下载中心查看下载记录。 脚本执行完成后在“执行结果”中,单击“转储”可以将脚本执行结果转储为CSV和JSON格式的结果文件到OBS中,详情请参见表7。 转储功能依赖于OBS服务,如无OBS服务,则不支持该功能。 当前仅支持转储SQL脚本查询(query)类语句的结果。 DataArts Studio的下载或转储的SQL结果中,如果存在英文逗号、换行符等这种特殊符号,可能会导致数据错乱、行数变多等的问题。 表7 转储配置 参数 是否必选 说明 数据格式 是 目前支持导出CSV和JSON格式的结果文件。 资源队列 否 选择执行导出操作的DLI队列。当脚本为DLI SQL时,配置该参数。 压缩格式 否 选择压缩格式。当脚本为DLI SQL时,配置该参数。 none bzip2 deflate gzip 存储路径 是 设置结果文件的OBS存储路径。选择OBS路径后,您需要在选择的路径后方自定义一个文件夹名称,系统将在OBS路径下创建文件夹,用于存放结果文件。 您也可以到下载中心配置默认的OBS路径地址,配置好后在转储时会默认填写。 覆盖类型 否 如果“存储路径”中,您自定义的文件夹在OBS路径中已存在,选择覆盖类型。当脚本为DLI SQL时,配置该参数。 覆盖:删除OBS路径中已有的重名文件夹,重新创建自定义的文件夹。 存在即报错:系统返回错误信息,退出导出操作。 是否导出列名 否 是:导出列名 否:不导出列名 字符集 否 UTF-8:默认字符集。 GB2312:当导出数据中包含中文字符集时,推荐使用此字符集。 GBK:国家标准GB2312基础上扩容后兼容GB2312的标准。 引用字符 否 仅在数据格式为csv格式时支持配置引用字符。 引用字符在导出作业结果时用于标识文本字段的开始和结束,即用于分割字段。 仅支持设置一个字符。默认值是英文双引号(")。 主要用于处理包含空格、特殊字符或与分隔符相同字符的数据。 关于“引用字符”和“转义字符”的使用示例请参考引用字符和转义字符使用示例。 转义字符 否 仅在数据格式为csv格式时支持配置转义字符。 在导出结果中如果需要包含特殊字符,如引号本身,可以使用转义字符(反斜杠 \ )来表示。 仅支持设置一个字符。默认值是英文反斜杠(\)。 常用转义字符的场景: 假设两个引用字符之间的数据内容存在第三个引用字符,则在第三个引用字符前加上转义字符,从而避免字段内容被分割。 假设数据内容中原本就存在转义字符,则在这个原有的转义字符前再加一个转义字符,避免原来的那个字符起到转义作用。 关于“引用字符”和“转义字符”的使用示例请参考引用字符和转义字符使用示例。 相对于直接查看SQL脚本的执行结果,通过下载和转储能够支持获取更多的执行结果。各类SQL脚本查看、下载、转储支持的规格如表8所示。 表8 SQL脚本支持查看/下载/转储规格 SQL类型 在线查看最大结果条数 下载最大结果 转储最大结果 DLI 1000 1000条且少于3MB 无限制 Hive 1000 1000条且少于3MB 10000条或3MB DWS 1000 1000条且少于3MB 10000条或3MB Spark 1000 1000条且少于3MB 10000条或3MB RDS 1000 1000条且少于3MB 不支持 Doris 1000 1000条且少于3MB 1000条或3MB
  • 配置作业参数 单击编辑器右侧的“参数”,展开配置页面,配置如表4所示的参数。 表4 作业参数配置 功能 说明 变量 新增 单击“新增”,在文本框中填写作业参数的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1。 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为${参数名称}。 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改。 掩码显示 在参数值为密钥等情况下,从安全角度,请单击将参数值掩码显示。 删除 在参数值文本框后方,单击,删除作业参数。 常量 新增 单击“新增”,在文本框中填写作业常量的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1。 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为${参数名称}。 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改,修改完成后,请保存。 删除 在参数值文本框后方,单击,删除作业常量。 工作空间环境变量 查看工作空间已配置的变量和常量。 单击“作业参数预览”页签,展开预览页面,配置如表5所示的参数。 表5 作业参数预览 功能 说明 当前时间 仅单次调度才显示。系统默认为当前时间。 事件触发时间 仅事件驱动调度才显示。系统默认为事件触发时间。 周期调度 仅周期调度才显示。系统默认为调度周期。 具体时间 仅周期调度才显示。周期调度配置的具体运行时间。 起始日期 仅周期调度才显示。周期调度的生效时间。 后N个实例 作业运行调度的实例个数。 单次调度场景默认为1。 事件驱动调度场景默认为1。 周期调度场景 当实例数大于10时,系统最多展示10个日期实例,系统会自动提示“当前参数预览最多支持查看10个实例”。 在作业参数预览中,如果作业参数配置存在语法异常情况系统会给出提示信息。 如果参数配置了依赖作业实际运行时产生的数据,参数预览功能中无法模拟此类数据,则该数据不展示。
  • 指标设计:新建并发布技术指标 在本示例中,您需要新建如表15和表16所示的技术指标: 表15 原子指标 *指标名称 *指标英文名称 数据表 *所属主题 *设定表达式 描述 总车费 sum_total_amount 行程订单 行程事实 sum (总车费) 无 表16 衍生指标 指标 *数据表 *所属主题 *原子指标 统计维度 时间限定 通用限定 基于付款方式维度统计总车费 行程订单 记录统计 总车费 付款方式 无 无 基于费率代码维度统计总车费 行程订单 记录统计 总车费 费率代码 无 无 基于供应商和下车时间维度统计总车费 行程订单 记录统计 总车费 供应商,行程订单.下车时间 无 无 在数据架构控制台,单击左侧导航树中的“技术指标”,进入技术指标页面。 新建一个原子指标“总车费”,用于统计总车费。 在技术指标页面,进入“原子指标”标签页,然后单击“新建”按钮。 在新建原子指标页面配置如下,配置完成后单击“发布”。 图45 原子指标 等待审核人审核通过。审核通过后,原子指标就创建好了。 当原子指标通过审核后,新建以下3个衍生指标。 总车费(付款方式):基于付款方式维度统计总车费 在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。 图46 总车费(付款方式) 总车费(费率代码):基于费率代码维度统计总车费 在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。 图47 总车费(费率代码) 截止当日_总车费(供应商,行程订单.下车时间):基于供应商维度统计总车费 在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。 图48 总车费(供应商) 返回技术指标页面的“衍生指标”标签页后,勾选建好的3个衍生指标,单击“发布”,在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,事实表发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
  • 新建数据标准并发布 在本示例中,您需要新建如表7所示的3个数据标准: 表7 数据标准 目录 *标准名称 *标准编码(自定义) *数据类型 数据长度 引用码表 *码表字段 描述 付款方式 付款方式 payment_type 长整型(BIGINT) 无 付款方式 付款方式编码 无 供应商 供应商 vendor 长整型(BIGINT) 无 供应商 供应商id 无 费率 费率代码 rate_code 长整型(BIGINT) 无 费率代码 费率id 无 在数据架构控制台,单击左侧导航树中的“数据标准”,进入数据标准页面。 首次进入“数据标准”页面,需要定制模板,定制的模板后续可以在配置中心进行更改。本示例需要额外勾选“引用码表”,如图所示。 图16 新建数据标准目录 请参考以下步骤,分别新建3个数据标准的目录:付款方式、供应商、费率。 在数据标准页面的目录树上方,单击新建目录,然后在弹出框中输入目录名称“付款方式”并选择目录,单击“确定”完成目录的新建。 图17 新建数据标准目录 请参考以下步骤,分别新建3个数据标准:付款方式、供应商、费率。 在数据标准页面的目录树中,选中所需要的目录,然后在右侧页面中单击“新建”。 在新建数据标准页面中,3个数据标准可分别参考如下配置,配置完成后单击“保存”。在本示例中,数据标准模板只选取了几个参数,您可以参考配置中心的“标准模板管理”定制数据标准模板。 图18 数据标准-付款方式 图19 数据标准-供应商 图20 数据标准-费率代码 返回数据标准页面后,在列表中勾选刚才新建的3个数据标准,然后单击“发布”发布数据标准。 在“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,数据标准发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
  • 主题设计 在本示例中,主题设计如表2所示,说明如下: 新建1个主题域分组:城市交通。 在主题域分组“城市交通”下,新建4个主题域:行程记录、集团、时空、公共维度。 在主题域“行程记录”下,新建4个业务对象:原始记录、标准记录、行程事实、记录统计。 在主题域“集团”下,新建1个业务对象:供应商。 在主题域“时空”下,新建1个业务对象:时间。 在主题域“公共维度”下,新建1个业务对象:公共维度。 表2 主题设计信息 主题域分组名称(L1) 主题域分组编码(L1) 主题 域名 称(L2) 主题域编码(L2) 业务对象名称(L3) 业务对象编码(L3) 城市交通 city_traffic 行程记录 stroke_reminder 原始记录 origin_stroke 标准记录 stand_stroke 行程事实 stroke_fact 记录统计 stroke_statistic 集团 people 供应商 vendor 时空 time_location 时间 date 公共维度 public_dimension 公共维度 public_dimension 图3 主题设计 操作步骤如下: 登录DataArts Studio控制台。找到已创建的DataArts Studio实例,单击实例卡片上的“进入控制台”。 在工作空间概览列表中,找到所需要的工作空间,单击“数据架构”,进入数据架构控制台。 在数据架构控制台,单击左侧菜单栏的“配置中心”。选择“ 主题流程配置”,使用默认的3层层级。 L1-L7表示主题层级,默认3层,最大7层,最少2层,最后一层是业务对象,其他层级名称可编辑修改。配置中心配置的层级数,将在“主题设计”模块生效。 图4 配置主题层级 在数据架构控制台,单击左侧菜单栏的“主题设计”,进入相应页面后,单击“新建”创建L1层主题,即主题域分组。 图5 新建L1层主题 在弹出窗口中,按图5所示填写参数,然后单击“确定”完成主题域分组的创建。 主题域分组创建完成后,您需要勾选主题域分组,并单击“发布”,发布主题域分组。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,主题域分组发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。 图6 发布主题域分组 在L1层主题“城市交通”下,依次新建4个L2层主题,即主题域:行程记录、集团、时空、公共维度。 以主题域“行程记录”为例,新建主题域的步骤如下,其他主题域也请参照以下步骤进行添加: 选中已创建的L1层主题“城市交通”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。 图7 创建L2层主题 在弹出窗口中,“名称”和“编码”请参照表2中的“主题域名称”和“主题域编码”进行填写,其他参数可根据实际情况进行填写,配置完成后单击“确定”完成主题域的新建。 主题域创建完成后,您需要勾选主题域,并单击“发布”,发布主题域。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,主题域发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。 图8 发布主题域 新建业务对象。 在主题域“行程记录”下,新建4个业务对象:原始记录、标准记录、行程事实、记录统计。 在主题域“集团”下,新建1个业务对象:供应商。 在主题域“时空”下,新建1个业务对象:时间。 在主题域“公共维度”下,新建1个业务对象:公共维度。 以在主题域“行程记录”下新建业务对象“原始记录”为例,新建业务对象的步骤如下,其他业务对象也请参照以下步骤进行添加: 选中已创建的L2层主题“行程记录”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。 在弹出窗口中,“名称”和“编码”请参照表2中的“业务对象名称”和“业务对象编码”进行填写,其他参数可根据实际情况进行填写,配置完成后单击“确定”完成业务对象新建。 业务对象创建完成后,您需要勾选业务对象,并单击“发布”,发布业务对象。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,业务对象发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。 图9 发布业务对象
  • 添加审核人 在数据架构中,数据建模流程中的步骤都需要经过审批,因此,需要先添加审核人。 Administrator角色或该工作空间管理员,具备对应的添加审核人的权限。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 单击左侧导航树中的“配置中心”,进入相应页面后,在“审核人管理”页签,单击“添加”按钮。 选择审核人(工作空间管理员、开发者、自定义角色审批),输入正确的电子邮箱和手机号,单击“确定”完成审核人添加。 您也可以添加自己当前账号为审核人,在后续提交审批的相关操作中,支持进行“自助审批”。根据需要,可以添加多个审核人。 图1 添加审核人
  • 配置HBase/CloudTable目的端参数 作业中目的连接为HBase连接或CloudTable连接时,即导入数据到以下数据源时,目的端作业参数如表1所示。 表1 HBase/CloudTable作为目的端时的作业参数 参数名 说明 取值样例 表名 写入数据的HBase表名。如果是创建新HBase表,支持从源端复制字段名。单击输入框后面的按钮可进入表的选择界面。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 TBL_2 导入前清空数据 选择目的端表中数据的处理方式: 是:任务启动前会清除目标表中数据。 否:导入前不清空目标表中的数据,如果选“否”且表中有数据,则数据会追加到已有的表中。 是 自动创表 只有当源端为关系数据库时,才有该参数。表示写入表数据时,用户选择的操作: 不自动创建:不自动建表。 不存在时创建:当目的端的数据库没有“表名”参数中指定的表时,CDM会自动创建该表。如果“表名”参数配置的表已存在,则不创建,数据写入到已存在的表中。 说明: Hbase自动建表包含列族与协处理器Coprocessor信息。其他属性按默认值设置,不跟随源端。 不自动创建 Row key拼接分隔符 可选参数,用于多列合并作为rowkey,默认为空格。 , Rowkey冗余 可选参数,是否将选做Rowkey的数据同时写入HBase的列,默认值“否”。 否 压缩算法 可选参数,创建新HBase表时采用的压缩算法,默认为值“NONE”。 NONE:不压缩。 SNAPPY:压缩为Snappy格式。 GZ:压缩为GZ格式。 NONE WAL开关 选择是否开启HBase的预写日志机制(WAL,Write Ahead Log)。 是:开启后如果出现HBase服务器宕机,则可以从WAL中回放执行之前没有完成的操作。 否:关闭时能提升写入性能,但如果HBase服务器宕机可能会造成数据丢失。 否 匹配数据类型 是:源端数据库中的Short、Int、Long、Float、Double、Decimal类型列的数据,会转换为Byte[]数组(二进制)写入HBase,其他类型的按字符串写入。如果这几种类型中,有合并做rowkey的,则依然当字符串写入。 该功能作用是:降低存储占用空间,存储更高效;特定场景下rowkey分布更均匀。 否:源端数据库中所有类型的数据,都会按照字符串写入HBase。 否 父主题: 配置CDM作业目的端参数
  • 使用场景 当某参数被多个作业调用时,可将此参数提取出来作为默认配置项,无需每个作业都配置该参数。 表1 配置项列表 配置项 影响模块 主要用途 配置工作空间模式 作业调度 普通模式 业务日期模式 系统支持按照作业调度计划时间去运行,同时支持按照业务日期去运行。 配置周期调度 作业调度 当前作业所依赖的作业执行失败后,当前作业的处理策略。 依赖的作业停止时,当前作业实例处理策略。 配置多IF策略 作业调度 节点执行依赖多个IF条件的处理策略。 配置软硬锁策略 脚本/作业开发 作业或脚本的抢锁操作依赖于软硬锁处理策略。 脚本变量定义 脚本开发 脚本变量的格式定义。SQL脚本的变量格式有${}和${dlf.}两种。 配置数据导出策略 脚本/作业开发 对SQL执行结果框中的数据配置下载或转储的策略。 所有用户都可以 所有用户都不能 仅工作空间管理员可以 禁用作业节点名称同步变化 作业开发 DataArts Studio作业中的节点关联脚本或者其他服务的作业时,节点名称不会同步变化。 是否使用简易变量集 作业开发 简易变量集提供了一系列自定义的变量,实现在任务调度时间内参数的动态替换。 忽略失败的通知策略 运维调度 对于运行状态为忽略失败的作业,支持发送的通知类型。 节点超时是否重试 作业运行 作业节点运行超时导致的失败也会重试。 实例超时是否忽略等待时间 作业运行 实例运行时超时计算将忽略等待时间。 MRS jar包参数拆分规则 作业开发 MRS MapReduce算子和MRS Spark算子jar包参数中字符串参数(使用""括起来的参数)拆分规则。 等待运行实例同步作业版本策略 运维调度 已生成的等待运行的作业实例,此时发布新的作业版本后,实例是否会使用最新的作业版本运行。 Hive SQL及Spark SQL执行方式 脚本/作业开发 SQL语句放置在OBS中:将OBS路径返回给MRS。 SQL语句放置在请求的消息体中:将脚本内容返回给MRS。 补数据优先级设置 运维调度-补数据 设置补数据作业的优先级。当系统资源不充足时,可以优先满足优先级较高的作业的计算资源,数字越大优先级越高,当前只支持对DLI SQL算子设置优先级。 历史作业实例取消策略 运维调度 配置等待运行作业实例的超期天数。当作业实例等待运行的时间,超过了所配置的期限天数时,作业实例将取消执行。超期天数,最小需配置2天,即至少需要等待2天,才可取消未运行的作业实例。超期天数默认为60天,单位:天。 历史作业实例告警策略 运维调度 配置“通知管理”中通知告警能监控的天数范围。 通知管理中配置的告警通知能监控的作业实例天数范围,默认配置为7天,即对7天内满足触发条件的作业实例都能正常上报通知告警,但7天之前的作业实例不会再上报告警。 作业告警通知主题 通知配置 按责任人发送通知时所使用的主题。 作业算子失败重试默认策略 运维调度 设置作业算子失败重试默认策略。 作业每次重试失败即告警 运维调度 当作业配置失败告警的时候,该配置项会触发作业每次重试失败即告警,可作用于全部作业、实时作业和批作业。 若选择不支持,则作业达到最大失败重试次数时才触发失败告警。 作业运行自动传递脚本名称 作业开发(作业运行) 开关打开后,系统自动传参将生效:将对当前空间内作业运行时,将Hive SQL脚本set mapreduce.job.name=脚本名称,自动传递至MRS。 作业依赖规则 作业调度 作业能被其他空间作业依赖,需要该空间作业列表的查询权限。工作空间内的默认角色均有该权限,自定义角色需要在有数据开发下的作业查询权限。 脚本执行历史展示 脚本/作业开发 对脚本执行历史结果进行权限管控。 仅自己可见:脚本执行历史只显示本用户的执行历史。 所有用户可见:脚本执行历史显示所有用户的执行历史。 作业测试运行使用的身份 作业开发(作业测试运行) 配置作业测试运行使用的身份。 公共委托或 IAM 账号:使用配置的公共委托或公共IAM账号身份执行作业。 个人账号:使用点击测试作业用户的身份执行作业。 Spark SQL作业/脚本默认模板配置 Spark SQL脚本/作业开发 Spark SQL作业/脚本配置运行,是否允许用户设置任意参数。 Hive SQL作业/脚本默认模板配置 Hive SQL脚本/作业开发 Hive SQL作业/脚本配置运行,是否允许用户设置任意参数。 作业/脚本变更管理 作业/脚本的导入和导出 工作空间是否开启作业/脚本变更管理。 是:表示作业/脚本变化时记录变更事件,支持根据时间点增量导出和导入所有变化的作业/脚本。 否:表示作业/脚本变化时不记录变更事件,只支持选定作业/脚本的导出和导入。 Flink调试OBS桶 Flink SQL实时作业开发 在进行Flink SQL作业调试时,调试OBS桶必须选择并行桶。 展示层脱敏配置 脚本开发和作业开发 进行脚本和作业开发执行结果、表数据预览操作时,支持配置是否开启前端展示层脱敏。
  • 整库迁移支持的数据源类型 整库迁移适用于将本地数据中心或在ECS上自建的数据库,同步到云上的数据库服务或大数据服务中,适用于数据库离线迁移场景,不适用于在线实时迁移。 数据集成支持整库迁移的数据源如表2所示。 表2 整库迁移支持的数据源 数据源分类 数据源 读取 写入 说明 数据仓库 数据仓库服务(DWS) 支持 支持 - Hadoop (仅支持本地存储,不支持存算分离场景,不支持Ranger场景,不支持ZK开启SSL场景) MRS HBase 支持 支持 整库迁移仅支持导出到MRS HBase。 建议使用的版本: 2.1.X 1.3.X 当前暂不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群,请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。 MRS Hive 支持 支持 整库迁移仅支持导出到关系型数据库。 暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X 当前暂不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群,请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。 FusionInsight HBase 支持 不支持 建议使用的版本: 2.1.X 1.3.X FusionInsight Hive 支持 不支持 整库迁移仅支持导出到关系型数据库。 暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X Apache HBase 支持 不支持 建议使用的版本: 2.1.X 1.3.X Apache Hive 支持 不支持 整库迁移仅支持导出到关系型数据库。 暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X 关系数据库 云数据库 MySQL 支持 支持 不支持OLTP到OLTP迁移,此场景推荐通过 数据复制服务 DRS进行迁移。 云数据库 PostgreSQL 支持 支持 云数据库 SQL Server 支持 支持 MySQL 支持 不支持 PostgreSQL 支持 不支持 Microsoft SQL Server 支持 不支持 Oracle 支持 不支持 SAP HANA 支持 不支持 仅支持2.00.050.00.1592305219版本。 仅支持Generic Edition。 不支持BW/4 FOR HANA。 仅支持英文字母的数据库名、表名与列名,不支持存在空格、符号等特殊字符。 仅支持日期、数字、布尔、字符(除SHORTTEXT) 类型的数据类型,不支持二进制类型等其他数据类型。 迁移时不支持目的端自动建表。 达梦数据库 DM 支持 不支持 仅支持导出到DWS、Hive NoSQL Redis 支持 支持 - 文档数据库服务(DDS) 支持 支持 仅支持DDS和MRS之间迁移。 表格存储服务 (CloudTable) 支持 支持 -
  • 表/文件迁移支持的数据源类型 表/文件迁移可以实现表或文件级别的数据迁移。 表/文件迁移时支持的数据源如表1所示。 表1 表/文件迁移支持的数据源 数据源分类 源端数据源 对应的目的端数据源 说明 数据仓库 数据仓库服务(DWS) 数据仓库:数据仓库服务(DWS), 数据湖探索 (DLI),MRS ClickHouse Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储: 对象存储服务 (OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL: 表格存储 服务(CloudTable) 搜索:Elasticsearch, 云搜索服务 (CSS) 不支持DWS物理机纳管模式。 数据湖探索(DLI) - MRS ClickHouse 数据仓库:MRS ClickHouse,数据湖探索(DLI) MRS ClickHouse建议使用的版本:21.3.4.X。 当前暂不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群,请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。 Hadoop MRS HDFS 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch, 云搜索 服务(CSS) 支持本地存储,仅MRS Hive、MRS Hudi支持存算分离场景。 仅MRS Hive支持Ranger场景。 不支持ZK开启SSL场景。 MRS HDFS建议使用的版本: 2.8.X 3.1.X MRS HBase建议使用的版本: 2.1.X 1.3.X MRS Hive、MRS Hudi暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X 当前暂不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群,请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。 MRS HBase MRS Hive 数据仓库:数据仓库服务(DWS),数据湖探索(DLI),MRS Clickhouse Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) MRS Hudi 数据仓库:数据仓库服务(DWS) FusionInsight HDFS 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) FusionInsight数据源不支持作为目的端。 仅支持本地存储,不支持存算分离场景。 不支持Ranger场景。 不支持ZK开启SSL场景。 FusionInsight HDFS建议使用的版本: 2.8.X 3.1.X FusionInsight HBase建议使用的版本: 2.1.X 1.3.X FusionInsight Hive建议使用的版本: 1.2.X 3.1.X FusionInsight HBase FusionInsight Hive Apache HBase 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) Apache数据源不支持作为目的端。 仅支持本地存储,不支持存算分离场景。 不支持Ranger场景。 不支持ZK开启SSL场景。 Apache HBase建议使用的版本: 2.1.X 1.3.X Apache Hive暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X Apache HDFS建议使用的版本: 2.8.X 3.1.X Apache Hive Apache HDFS 对象存储 对象存储服务(OBS) 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) 对象存储服务之间的迁移,推荐使用 对象存储迁移 服务 OMS 。 不支持二进制文件导入到数据库或NoSQL。 文件系统 FTP 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) 文件系统不支持作为目的端。 FTP/SFTP到搜索的迁移仅支持如CSV等文本文件,不支持二进制文件。 HTTP到OBS的迁移推荐使用obsutil工具,请参见obsutil简介。 SFTP HTTP Hadoop:MRS HDFS 关系型数据库 云数据库 MySQL 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive,MRS Hudi 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server 搜索:Elasticsearch,云搜索服务(CSS) 云数据库 MySQL不支持SSL模式。 Microsoft SQL Server建议使用的版本:2005以上。 金仓和 GaussDB 数据源可通过PostgreSQL连接器进行连接,支持的迁移作业的源端、目的端情况与PostgreSQL数据源一致。 云数据库 SQL Server 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server 搜索:Elasticsearch,云搜索服务(CSS) 云数据库 PostgreSQL MySQL 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive,MRS Hudi 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) PostgreSQL Oracle Microsoft SQL Server 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) SAP HANA 数据仓库:数据湖探索(DLI) Hadoop:MRS Hive SAP HANA数据源存在如下约束: SAP HANA不支持作为目的端。 仅支持2.00.050.00.1592305219版本。 仅支持Generic Edition。 不支持BW/4 FOR HANA。 仅支持英文字母的数据库名、表名与列名,不支持存在空格、符号等特殊字符。 仅支持日期、数字、布尔、字符(除SHORTTEXT) 类型的数据类型,不支持二进制类型等其他数据类型。 迁移时不支持目的端自动建表。 分库 数据仓库:数据湖探索(DLI) Hadoop:MRS HBase,MRS Hive 搜索:Elasticsearch,云搜索服务(CSS) 对象存储:对象存储服务(OBS) 分库数据源不支持作为目的端。 分库指的是同时连接多个后端数据源,该连接可作为作业源端,将多个数据源的数据合一迁移到其他数据源上。 NoSQL Redis Hadoop:MRS HDFS,MRS HBase,MRS Hive 除了表格存储服务(CloudTable)外,其他NoSQL数据源不支持作为目的端。 文档数据库服务(DDS) MongoDB 表格存储服务(CloudTable HBase) 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server,MySQL,PostgreSQL,Microsoft SQL Server,Oracle NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) Cassandra 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) 消息系统 数据接入服务 (DIS) 搜索:云搜索服务(CSS) 消息系统不支持作为目的端。 Apache Kafka DMS Kafka MRS Kafka 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) MRS Kafka不支持作为目的端。 仅支持本地存储,不支持存算分离场景。 不支持Ranger场景。 不支持ZK开启SSL场景。 当前暂不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群,请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。 搜索 Elasticsearch 数据仓库:数据仓库服务(DWS),数据湖探索(DLI) Hadoop:MRS HDFS,MRS HBase,MRS Hive 对象存储:对象存储服务(OBS) 关系型数据库:云数据库 MySQL,云数据库 PostgreSQL,云数据库 SQL Server NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) Elasticsearch仅支持非安全模式。 云搜索服务(CSS) 导入数据到CSS推荐使用Logstash,请参见使用Logstash导入数据到Elasticsearch。 上表中非云服务的数据源,例如MySQL,既可以支持用户本地数据中心自建的MySQL,也可以是用户在ECS上自建的MySQL,还可以是第三方云的MySQL服务。
  • 通用计算增强型C3 概述 C3型弹性云服务器是新推出的一系列性能更高、计算能力更稳定的弹性云服务器规格,搭载英特尔® 至强® 可扩展处理器,配套高性能网络,综合性能及稳定性全面提升,满足对业务稳定性及计算性能要求较高的企业级应用诉求。 适用场景 对稳定性要求较高的中小型数据库、缓存和搜索集群,以及多种类型和规模的企业级应用场景。 规格 表14 C3型弹性云服务器的规格 规格名称 vCPU 内存 (GiB) 最大带宽/基准带宽 (Gbps) 最大收发包能力 (万PPS) 网卡多队列数 云硬盘基础带宽 (Gbps) 虚拟化类型 c3.large.2 2 4 1.5/0.6 30 2 1 KVM c3.xlarge.2 4 8 3/1 50 2 1.5 KVM c3.2xlarge.2 8 16 5/2 90 4 2 KVM c3.3xlarge.2 12 24 7/3 110 4 2.5 KVM c3.4xlarge.2 16 32 10/4 130 4 3 KVM c3.6xlarge.2 24 48 12/6 200 8 3.5 KVM c3.8xlarge.2 32 64 15/8 260 8 4 KVM c3.15xlarge.2 60 128 16/16 500 16 8 KVM c3.large.4 2 8 1.5/0.6 30 2 1 KVM c3.xlarge.4 4 16 3/1 50 2 1.5 KVM c3.2xlarge.4 8 32 5/2 90 4 2 KVM c3.3xlarge.4 12 48 7/3 110 4 2.5 KVM c3.4xlarge.4 16 64 10/4 130 4 3 KVM c3.6xlarge.4 24 96 12/6 200 8 3.5 KVM c3.8xlarge.4 32 128 15/8 260 8 4 KVM c3.15xlarge.4 60 256 16/16 500 16 8 KVM
  • 通用计算增强型C3ne 概述 C3ne型弹性云服务器提供高计算和高网络转发能力,搭载英特尔® 至强® 可扩展处理器,配套25GE智能高速网卡,网络性能较C3全面提升,最大内网带宽40Gbps,最大PPS网络包转发能力1000万,满足对网络性能要求较高的企业级应用诉求。 适用场景 对计算与网络有更高性能要求的网站和Web应用 通用数据库及缓存服务器 中重载企业应用 游戏、渲染等 规格 表13 C3ne型弹性云服务器的规格 规格名称 vCPU 内存 (GiB) 最大带宽/基准带宽 (Gbps) 最大收发包能力 (万PPS) 网卡多队列数 网卡个数上限 虚拟化类型 c3ne.large.2 2 4 4/1.3 40 2 2 KVM c3ne.xlarge.2 4 8 8/2.5 80 2 3 KVM c3ne.2xlarge.2 8 16 15/5 150 4 4 KVM c3ne.4xlarge.2 16 32 20/10 280 8 8 KVM c3ne.8xlarge.2 32 64 30/20 550 16 8 KVM c3ne.15xlarge.2 60 128 40/40 1000 32 8 KVM c3ne.large.4 2 8 4/1.3 40 2 2 KVM c3ne.xlarge.4 4 16 8/2.5 80 2 3 KVM c3ne.2xlarge.4 8 32 15/5 150 4 4 KVM c3ne.4xlarge.4 16 64 20/10 280 8 8 KVM c3ne.8xlarge.4 32 128 30/20 550 16 8 KVM c3ne.15xlarge.4 60 256 40/40 1000 32 8 KVM
  • 通用计算增强型C6h 概述 C6h型云服务器搭载第二代英特尔® 至强® 可扩展处理器,基于华为云vRoCE技术支持微秒级RDMA网络,满足HPC仿真类紧耦合业务对于高带宽、低时延的网络诉求。 适用场景 高性能计算场景、仿真计算 大数据类应用 AI训练与推理 规格 表11 C6h型弹性云服务器的规格 规格名称 vCPU 内存 (GiB) 最大带宽/基准带宽 (Gbps) 最大收发包能力 (万PPS) 网卡多队列数 网卡个数上限 虚拟化类型 c6h.22xlarge.2.physical 88 192 44/40 1000 16 33 裸金属 c6h.22xlarge.4.physical 88 384 44/40 1000 16 33 裸金属
  • 通用计算增强型C6 概述 C6搭载第二代英特尔® 至强® 可扩展处理器,多项技术优化,计算性能强劲稳定,配套25GE智能高速网卡,提供超高网络带宽和PPS收发包能力。 适用场景 对计算与网络有更高性能要求的网站和Web应用 通用数据库及缓存服务器 中重载企业应用 游戏、渲染等 规格 表12 C6型弹性云服务器的规格 规格名称 vCPU 内存 (GiB) 最大带宽/基准带宽 (Gbps) 最大收发包能力 (万PPS) 网络连接数 (万) 网卡多队列数 网卡个数上限 云硬盘基础带宽/突发带宽 (Gbps) 虚拟化类型 c6.large.2 2 4 4/1.2 40 50 2 2 1/5 KVM/QingTian虚拟化 c6.xlarge.2 4 8 8/2.4 80 50 2 3 1.5/5 KVM/QingTian虚拟化 c6.2xlarge.2 8 16 15/4.5 150 100 4 4 2/5 KVM/QingTian虚拟化 c6.3xlarge.2 12 24 17/7 200 150 4 6 2.5/5 KVM/QingTian虚拟化 c6.4xlarge.2 16 32 20/9 280 150 8 8 3.5/5 KVM/QingTian虚拟化 c6.6xlarge.2 24 48 25/14 400 200 8 8 4/5 KVM/QingTian虚拟化 c6.8xlarge.2 32 64 30/18 550 300 16 8 7/10 KVM/QingTian虚拟化 c6.12xlarge.2 48 96 35/27 750 400 16 8 10/15 KVM/QingTian虚拟化 c6.16xlarge.2 64 128 40/36 1000 500 32 8 20/无 KVM/QingTian虚拟化 c6.22xlarge.2 88 176 44/40 1200 1000 28 8 20/无 KVM/QingTian虚拟化 c6.22xlarge.2.physical 88 192 44/40 1000 1000 16 33 20/无 裸金属 c6.large.4 2 8 4/1.2 40 50 2 2 1/5 KVM/QingTian虚拟化 c6.xlarge.4 4 16 8/2.4 80 50 2 3 1.5/5 KVM/QingTian虚拟化 c6.2xlarge.4 8 32 15/4.5 150 100 4 4 2/5 KVM/QingTian虚拟化 c6.3xlarge.4 12 48 17/7 200 150 4 6 2.5/5 KVM/QingTian虚拟化 c6.4xlarge.4 16 64 20/9 280 150 8 8 3.5/5 KVM/QingTian虚拟化 c6.6xlarge.4 24 96 25/14 400 200 8 8 4/5 KVM/QingTian虚拟化 c6.8xlarge.4 32 128 30/18 550 300 16 8 7/10 KVM/QingTian虚拟化 c6.12xlarge.4 48 192 35/27 750 400 16 8 10/15 KVM/QingTian虚拟化 c6.16xlarge.4 64 256 40/36 1000 500 32 8 20/无 KVM/QingTian虚拟化 c6.22xlarge.4 88 352 44/40 1200 1000 28 8 20/无 KVM/QingTian虚拟化 c6.22xlarge.4.physical 88 384 44/40 1000 1000 16 33 20/无 裸金属
  • 通用计算增强型C6s 概述 C6s型云服务器搭载第二代英特尔® 至强® 可扩展处理器,兼具高性能、高稳定性、低时延、高性价比的特点,适用于互联网、游戏、渲染等场景,特别是对计算及网络稳定性有较高要求的场景。 适用场景 适用于互联网、游戏、渲染等场景,特别是对计算及网络稳定性有较高要求的场景。 游戏业务场景:满足游戏行业高性能、高稳定性要求。 渲染场景:优质渲染效果下提供极致性价比。 其他场景:游戏加速器、视频弹幕、建站、APP开发等。 规格 表10 C6s型弹性云服务器的规格 规格名称 vCPU 内存 (GiB) 最大带宽/基准带宽 (Gbps) 最大收发包能力 (万PPS) 网络连接数 (万) 网卡多队列数 网卡个数上限 虚拟化类型 c6s.large.2 2 4 1/1 30 50 2 2 KVM c6s.xlarge.2 4 8 2/2 60 50 2 3 KVM c6s.2xlarge.2 8 16 4/4 120 100 4 4 KVM c6s.3xlarge.2 12 24 5.5/5.5 180 150 4 6 KVM c6s.4xlarge.2 16 32 7.5/7.5 240 150 8 8 KVM c6s.6xlarge.2 24 48 11/11 350 200 8 8 KVM c6s.8xlarge.2 32 64 15/15 450 300 16 8 KVM c6s.12xlarge.2 48 96 22/22 650 400 16 8 KVM c6s.16xlarge.2 64 128 30/30 850 500 32 8 KVM
  • 通用计算增强型X1e 概述 Flexus云服务器X实例是新一代面向中小企业和开发者打造的柔性算力云服务器,可智能感知业务负载,适用于电商直播、企业建站、开发测试环境、游戏服务器、音视频服务等中重负载场景。更多信息,请参见什么是Flexus云服务器X实例。 通用计算增强型X1e,是Flexus云服务器X实例开启性能模式后,在ECS中的规格名称。 适用场景 适用于对计算与网络有更高性能要求的Web应用、电商平台、短视频平台、在线游戏、保险金融等各类中重载企业应用。 规格 由于Flexus云服务器X实例引入了自定义规格能力,因此X1e型弹性云服务器规格较多,下面按照CPU维度呈现X1e实例的规格信息。 表9 X1e型弹性云服务器的规格 vCPU 最大带宽/基准带宽 (Gbps) 最大收发包能力 (万PPS) 网卡多队列数 网卡个数上限 辅助网卡个数上限 虚拟化类型 2 2/1 40 2 2 16 KVM 4 3/1.5 60 2 3 32 KVM 8 6/2.5 100 4 4 64 KVM 12 8/4 150 4 6 96 KVM 16 12/5 200 8 8 128 KVM 20 13/5 220 8 8 128 KVM 24 14/6 250 8 8 192 KVM 28 15/6 280 8 8 192 KVM 32 16/8 300 16 8 256 KVM
  • 通用计算增强型C7n 概述 搭载第三代英特尔® 至强® 可扩展处理器,在性能、安全、稳定性等方面全面升级,最大核数升级至96U,内存频率升级至3200MHz,支持安全启动,提供安全可信的云上环境。 适用场景 适用于对计算与网络有更高性能要求的Web应用、电商平台、短视频平台、在线游戏、保险金融等各类中重载企业应用。 规格 表8 C7n型云主机规格 规格名称 vCPU 内存 (GiB) 最大带宽/基准带宽 (Gbps) 最大收发包能力 (万PPS) 网络连接数 (万) 网卡多队列数 网卡个数上限 辅助网卡个数上限 云硬盘基础带宽/突发带宽 (Gbps) 虚拟化类型 c7n.large.2 2 4 4/0.8 40 50 2 2 16 1.5/6 KVM c7n.xlarge.2 4 8 8/1.6 80 50 2 3 32 2/6 KVM c7n.2xlarge.2 8 16 15/3 150 100 4 4 64 3/6 KVM c7n.3xlarge.2 12 24 17/5 200 150 4 6 96 4/6 KVM c7n.4xlarge.2 16 32 20/6 280 150 8 8 128 5/6 KVM c7n.6xlarge.2 24 48 25/9 400 200 8 8 192 6/无 KVM c7n.8xlarge.2 32 64 30/12 550 300 16 8 256 8/无 KVM c7n.12xlarge.2 48 96 35/18 750 400 16 8 256 12/无 KVM c7n.16xlarge.2 64 128 36/24 800 500 28 8 256 16/无 KVM c7n.24xlarge.2 96 192 40/36 850 800 32 8 256 24/无 KVM c7n.large.4 2 8 4/0.8 40 50 2 2 16 1.5/6 KVM c7n.xlarge.4 4 16 8/1.6 80 50 2 3 32 2/6 KVM c7n.2xlarge.4 8 32 15/3 150 100 4 4 64 3/6 KVM c7n.3xlarge.4 12 48 17/5 200 150 4 6 96 4/6 KVM c7n.4xlarge.4 16 64 20/6 280 150 8 8 128 5/6 KVM c7n.6xlarge.4 24 96 25/9 400 200 8 8 192 6/无 KVM c7n.8xlarge.4 32 128 30/12 550 300 16 8 256 8/无 KVM c7n.12xlarge.4 48 192 35/18 750 400 16 8 256 12/无 KVM c7n.16xlarge.4 64 256 36/24 800 500 28 8 256 16/无 KVM c7n.24xlarge.4 96 384 40/36 850 800 32 8 256 24/无 KVM
  • 通用计算增强型aC7 概述 搭载新一代可扩展处理器,在性能、安全、稳定性等方面全面升级,最大核数升级至232U,内存频率升级至3200MHz。 使用须知 aC7型云服务器的内网最大带宽可达100Gbps,最大收发包能力支持2000万PPS。当带宽高于50Gbps,收发包超过1000万PPS时,可以通过DPDK方式屏蔽云服务器内核协议栈差异,获取真实网络性能。 适用场景 适用于对计算与网络有更高性能要求的Web应用、电商平台、短视频平台、在线游戏、保险金融等各类中重载企业应用。 规格 表7 aC7型弹性云服务器的规格 规格名称 vCPU 内存 (GiB) 最大带宽/基准带宽 (Gbps) 最大收发包能力 (万PPS) 网卡多队列数 网卡个数上限 辅助网卡个数上限 虚拟化类型 ac7.large.2 2 4 2/1 40 2 2 16 KVM ac7.xlarge.2 4 8 3/1.5 60 2 3 32 ac7.2xlarge.2 8 16 4/2.5 100 4 4 64 ac7.3xlarge.2 12 24 6/4 150 4 6 96 ac7.4xlarge.2 16 32 8/5 200 8 8 128 ac7.6xlarge.2 24 48 12/6 250 8 8 192 ac7.8xlarge.2 32 64 15/8 300 16 8 256 ac7.12xlarge.2 48 96 22/12 400 16 8 256 ac7.16xlarge.2 64 128 28/16 550 24 12 256 ac7.24xlarge.2 96 192 40/25 800 24 12 256 ac7.29xlarge.2 116 216 50/30 950 32 16 256 ac7.32xlarge.2 128 256 55/35 1000 32 16 256 ac7.48xlarge.2 192 384 100/80 1600 32 16 256 ac7.58xlarge.2 232 432 120/100 2000 32 16 256 ac7.large.4 2 8 2/1 40 2 2 16 ac7.xlarge.4 4 16 3/1.5 60 2 3 32 ac7.2xlarge.4 8 32 4/2.5 100 4 4 64 ac7.3xlarge.4 12 48 6/4 150 4 6 96 ac7.4xlarge.4 16 64 8/5 200 8 8 128 ac7.6xlarge.4 24 96 12/6 250 8 8 192 ac7.8xlarge.4 32 128 15/8 300 16 8 256 ac7.12xlarge.4 48 192 22/12 400 16 8 256 ac7.16xlarge.4 64 256 28/16 550 24 12 256 ac7.24xlarge.4 96 384 40/25 800 24 12 256 ac7.29xlarge.4 116 464 50/30 950 32 16 256 ac7.32xlarge.4 128 512 55/35 1000 32 16 256 ac7.48xlarge.4 192 768 100/80 1600 32 16 256 ac7.58xlarge.4 232 928 120/100 2000 32 16 256
  • 通用计算增强型C7h 概述 C7h型弹性云服务器搭载第三代英特尔® 至强® 可扩展处理器,基于华为云vRoCE技术支持微秒级RDMA网络,满足HPC仿真类紧耦合业务对于高带宽、低时延的网络诉求。 适用场景 高性能计算场景、仿真计算 大数据类应用 AI训练与推理 规格 表6 C7h型弹性云服务器的规格 规格名称 vCPU 内存 (GiB) 最大带宽/基准带宽 (Gbps) 最大收发包能力 (万PPS) 网卡多队列数 网卡个数上限 虚拟化类型 c7h.32xlarge.2.physical 128 256 44/40 1000 16 33 裸金属 c7h.38xlarge.2.physical 152 512 100/90 3000 32 32 裸金属 c7h.32xlarge.4.physical 128 512 44/40 1000 16 33 裸金属 c7h.38xlarge.4.physical 152 768 100/90 3000 32 32 裸金属
  • 通用计算增强型C7t 概述 搭载第三代英特尔® 至强® 可扩展处理器及华为云最新QingTian架构虚拟化技术,在安全可信、高速互联场景取得重大提升,可以更好地满足 可信计算 /互联网场景的业务诉求。 适用场景 金融、政企场景:满足金融、政企场景可信计算要求。 互联网通信场景:满足指标弹幕、实时语音等高网络收发包诉求。 规格 表5 C7t型弹性云服务器的规格 规格名称 vCPU 内存 (GiB) 最大带宽/基准带宽 (Gbps) 最大收发包能力 (万PPS) 网络连接数 (万) 网卡多队列数 网卡个数上限 辅助网卡个数上限 云硬盘基础带宽/突发带宽 (Gbps) 虚拟化类型 c7t.large.2 2 4 10/1.28 80 50 2 2 16 1.5/6 基于QingTian架构的自研极简虚拟化 c7t.xlarge.2 4 8 16/2.56 150 50 2 3 32 2/6 c7t.2xlarge.2 8 16 20/4 200 100 4 4 64 3/6 c7t.3xlarge.2 12 24 34/6.4 300 150 4 6 96 4/6 c7t.4xlarge.2 16 32 40/8 400 150 8 8 128 5/6 c7t.6xlarge.2 24 48 50/14.4 600 200 8 8 192 6/无 c7t.8xlarge.2 32 64 60/16 800 300 16 8 256 8/无 c7t.12xlarge.2 48 96 70/28.8 1200 400 16 8 256 10/无 c7t.16xlarge.2 64 128 72/32 1500 500 28 8 256 16/无 c7t.24xlarge.2 96 192 80/40 2400 800 32 8 256 20/无 c7t.32xlarge.2 128 256 90/48 3000 1000 32 8 256 24/无 c7t.large.4 2 8 10/1.28 80 50 2 2 16 1.5/6 基于QingTian架构的自研极简虚拟化 c7t.xlarge.4 4 16 16/2.56 150 50 2 3 32 2/6 c7t.2xlarge.4 8 32 20/4 200 100 4 4 64 3/6 c7t.3xlarge.4 12 48 34/6.4 300 150 4 6 96 4/6 c7t.4xlarge.4 16 64 40/8 400 150 8 8 128 5/6 c7t.6xlarge.4 24 96 50/14.4 600 200 8 8 192 6/无 c7t.8xlarge.4 32 128 60/16 800 300 16 8 256 8/无 c7t.12xlarge.4 48 192 70/28.8 1200 400 16 8 256 10/无 c7t.16xlarge.4 64 256 72/32 1500 500 28 8 256 16/无 c7t.24xlarge.4 96 384 80/40 2400 800 32 8 256 20/无
共100000条