检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
嵌入水印任务的名称,只能包含英文字母、数字、中文字符、下划线或中划线,且长度为1~64个字符。 为便于水印嵌入任务管理,建议名称中标明要嵌入水印的对象和水印标识。 描述 为更好地识别嵌入水印任务,此处加以描述信息。 *水印标识 系统会将水印标识嵌入到数据表中,标识长度不超过16个字符即可。
步骤4:元数据采集 为了在DataArts Studio平台中对迁移到云上的原始数据进行管理和监控,我们必须先在DataArts Studio数据目录模块中对SDI贴源层数据进行元数据采集并监控。 采集并监控元数据 在DataArts Studio控制台首页,选择对应工作空间的“数据目录”模块,进入数据目录页面。
小,只按照数据条数计算。在debezium.max.queue.size无法有效限制内存占用时,考虑显式设置该值来限制缓存数据的大小。 目的端优化 Kafka写入优化 Kafka写入通常速率极快,若有阻塞的场景请优先增加并发解决。 父主题: 任务性能调优
BINARY_FILE:二进制格式,不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。 当选择“BINARY_FILE”时,目的端也必须为文件系统。 fromJobConfig.lineSeparator 否 String 文件中的换行符,默认自动识别"\\n"、"\
CSV_FILE:CSV格式。 PARQUET_FILE:PARQUET格式。 BINARY_FILE:二进制格式。 当选择“BINARY_FILE”时,目的端也必须为文件系统。 fromJobConfig.columnList 否 String 需要抽取的列号,列号之间使用“&”分割,并由小到大排序,例如:“1&3&5”。
作业名称不得包含中文字符、超出长度限制等。如果作业名称不符合规则,将导致提交MRS作业失败。 Jar包资源 是 选择Jar包。在选择Jar包之前,您需要先将Jar包上传至OBS桶中,并在“资源管理”页面中新建资源将Jar包添加到资源管理列表中,具体操作请参考新建资源。 Jar包参数 否 Jar包的参数。 输入数据路径
准备工作简介 您需要完成注册华为账号、购买DataArts Studio实例、访问DataArts Studio实例控制台、管理工作空间、授权用户使用DataArts Studio等一系列准备工作,才能开始DataArts Studio的正式使用。 需要进行的准备工作如下图所示,具体操作请参考后续章节。
CDM有哪些优势? 云数据迁移(Cloud Data Migration,简称CDM)服务基于分布式计算框架,利用并行化处理技术,使用CDM迁移数据的优势如表1所示。 表1 CDM优势 优势项 用户自行开发 CDM 易使用 自行准备服务器资源,安装配置必要的软件并进行配置,等待时间长。
查看并修改CDM集群配置 操作场景 CDM集群已经创建成功后,您可以查看集群基本信息,并修改集群的配置。 查看集群基本信息: 集群信息:集群版本、创建时间、项目ID、实例ID和集群ID等。 节点配置:集群规格、CPU和内存配置等信息。 网络信息:网络配置。 支持修改集群的以下配置:
配置SQLServer源端参数 支持从云端的数据库服务导出数据。 这些非云服务的数据库,既可以是用户在本地数据中心自建的数据库,也可以是用户在ECS上部署的,还可以是第三方云上的数据库服务。 表1 SQLServer作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数
配置PostgreSQL源端参数 支持从云端的数据库服务导出数据。 这些非云服务的数据库,既可以是用户在本地数据中心自建的数据库,也可以是用户在ECS上部署的,还可以是第三方云上的数据库服务。 表1 PostgreSQL作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数
配置Redis源端参数 第三方云的Redis服务无法支持作为源端。如果是用户在本地数据中心或ECS上自行搭建的Redis支持作为源端或目的端。 作业中源连接为从本地Redis导出的数据时,源端作业参数如表1所示。 表1 Redis作为源端时的作业参数 参数类型 参数名 说明 取值样例
步骤1:数据准备 使用DataArts Studio前的准备 如果您是第一次使用DataArts Studio,请参考购买并配置DataArts Studio章节完成注册华为账号、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列
示例场景说明 本示例是一个DataArts Studio全流程入门教程,旨在介绍如何在DataArts Studio平台完成端到端的全流程数据运营。 本案例基于某市的出租车出行数据,选择MRS Hive作为数据湖底座,使用DataArts Studio实施全流程数据治理。期望通过实施数据治理达到以下目标:
此版本规格,执行调度批处理作业或者启动实时作业时就会提示作业节点调度次数/天超过配额。 [3] 技术资产数量:该规格指的是数据目录中表和OBS文件的数量,可以通过“技术资产数量增量包”进行扩容,如何购买请参考购买技术资产数量增量包。 [4] 数据模型数量:该规格指的是数据架构中逻
创建CDM集群 CDM采用独立集群的方式为用户提供安全可靠的数据迁移服务,各集群之间相互隔离,不可相互访问。 CDM集群可用于如下场景: 用于创建并运行数据迁移作业。 作为管理中心组件连接数据湖时的Agent代理。 前提条件 已申请VPC、子网和安全组。CDM集群连接云上其它服务
(可选)购买DataArts Studio功能增量包 DataArts Studio采用基础包+增量包的计费模式。如果购买的基础包无法满足您的使用需求,您可以额外购买增量包。在购买增量包前,请确保您已购买DataArts Studio实例。 增量包大体可分为功能增量包与规格增量包,功能增量包用于拓展DataArts
度受限。 技术资产数量增量包: 不同版本的DataArts Studio实例,提供了不同的技术资产数量规格限制。该规格是以数据目录中表和OBS文件的数量计算的,您可以在新商业模式的DataArts Studio实例卡片上通过“更多 > 配额使用量”查看使用量。当您的技术资产数量接
如何查看审计日志 概述 云审计服务(Cloud Trace Service,CTS)可以记录DataArts Studio相关的操作事件,用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 在您开启了云审计服务后,系统开始记录DataArts Studio的相关操作,
Elasticsearch连接参数说明 Elasticsearch连接适用于第三方云的Elasticsearch服务,以及用户在本地数据中心或ECS上自建的Elasticsearch。 Elasticsearch连接器仅支持非安全模式的Elasticsearch集群。 作业运行中