检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OBS连接 OBS桶 选择待采集数据归属的OBS桶。 OBS路径 选择待采集数据在OBS桶中的存储路径。 采集范围 选择待采集数据的采集范围。 选择“当前文件夹”,采集任务仅采集OBS路径中设置的文件夹下的对象。
单击“请选择”按钮,您可以选择一个已创建的OBS桶和对象,系统将基于工作空间全局配置作业日志OBS桶。 如果不配置该参数,DataArts Studio数据开发的作业日志默认存储在以“dlf-log-{projectId}”命名的OBS桶中。
华为联合亿信华辰提供数据入表全方位助力 作为Gartner认可的数据资产管理标杆厂商、IDC认证的中国数据治理解决方案市场第一厂商,亿信华辰一直走在数据资产化前列。面对数据入表的需求,亿信华辰不仅提供全套数据治理软件,让数据采集、加工、治理、应用更加便捷。还为企业搭建数据入表所需的信息系统及提供成本法入表服务
单击“请选择”按钮,您可以选择一个已创建的OBS桶和对象,系统将基于工作空间全局配置作业日志OBS桶。 如果不配置该参数,DataArts Studio数据开发的作业日志默认存储在以“dlf-log-{projectId}”命名的OBS桶中。
Oracle同步到MRS Hudi作业配置 消息系统 DMS Kafka 对象存储:OBS DMS Kafka同步到OBS作业配置 Apache Kafka Hadoop:MRS Kafka 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。
管理配置中心 约束与限制 配置中心中各类对象的自定义项配额如下: 主题自定义项10条。 表自定义项30条。 属性自定义项10条。 业务指标自定义项50条。 主题流程配置 主题流程配置用于自定义主题设计中的主题层级和自定义属性。
数据湖 数据仓库 应用场景 可以探索性分析所有类型的数据,包括机器学习、数据发现、特征分析、预测等 通过历史的结构化数据进行数据分析 使用成本 起步成本低,后期成本较高 起步成本高,后期成本较低 数据质量 包含大量原始数据,使用前需要清洗和标准化处理 质量高,可作为事实依据 适用对象
需要通过CDM配置字段转换器,将日期字段的格式转换为云搜索服务的目的端格式。 解决方案 编辑作业,进入作业的字段映射步骤,在源端的时间格式字段后面,选择新建转换器,如图3所示。
归档到OBS:将脏数据存储到OBS中,并打印到任务日志中。 不归档 脏数据写入连接 “脏数据策略”选择归档到OBS时显示该参数。 脏数据要写入的连接,目前只支持写入到OBS连接。 - 脏数据目录 脏数据写入的OBS目录。 - 脏数据阈值 是否写入脏数据为是时显示该参数。
解决方案 作业日志在OBS桶中存储,您需要先在工作空间中配置作业日志的桶目录,然后确认当前账户是否具有OBS读权限(可以通过检查IAM中OBS权限、OBS桶策略来确认)。 OBS路径仅支持OBS桶,不支持并行文件系统。
环境准备 已开通对象存储服务OBS,并创建桶,例如“obs://dlfexample”,用于存放Spark作业的JAR包。 已开通数据湖探索服务DLI,并创建Spark集群“spark_cluster”,为Spark作业提供运行所需的物理资源。
单击“请选择”按钮,您可以选择一个已创建的OBS桶和对象,系统将基于工作空间全局配置DLI脏数据OBS桶。 如果不配置该参数,DataArts Studio数据开发的DLI SQL脏数据默认存储在以“dlf-log-{projectId}”命名的OBS桶中。
文件加密仅支持OBS上的CSV类型文件,文件大小限制在4M内,字符编码限制为UTF-8。 dlg_agency委托需要具备OBS服务中获取对象元数据和上传文件的权限。 文件加密任务在单Region内,加密中的任务限制在200个,超出该数量的任务,将状态置为加密失败。
设置作业的告警规则包括设置告警规则名称、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。本节介绍了设置实时集成作业告警规则的具体方法。
对象存储服务(OBS) 连接OBS时,具体参数请参见OBS连接参数说明。 MRS HDFS FusionInsight HDFS Apache HDFS 连接MRS、Apache Hadoop或FusionInsight HD上的HDFS时,具体参数请参见HDFS连接参数说明。
RDS数据连接方式依赖于OBS。如果没有与DataArts Studio同区域的OBS,则不支持RDS数据连接。 主机连接当前仅支持Linux系统主机。 当所连接的数据湖发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保存该连接。
正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统,且“文件格式”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,并按照解析后的结果写入目的端。
正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统,且“文件格式”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,并按照解析后的结果写入目的端。
(可选)修改作业日志存储路径 作业日志和DLI脏数据默认存储在以dlf-log-{Project id}命名的OBS桶中,您也可以自定义日志和DLI脏数据存储路径,支持基于工作区全局配置OBS桶。 约束限制 该功能依赖于OBS服务。
(可选)修改作业日志存储路径 作业日志和DLI脏数据默认存储在以dlf-log-{Project id}命名的OBS桶中,您也可以自定义日志和DLI脏数据存储路径,支持基于工作区全局配置OBS桶。 约束限制 该功能依赖于OBS服务。