检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
做切分来实现均衡。例如:有10个文件,9个10M,1个200M,在并发任务数中指定“throttlingConfig.numExtractors”(抽取并发数)为“2”,则会分两个分片,一个处理9个10M的文件,一个处理1个200M的文件。 fromJobConfig.jsonReferenceNode
保障任务在承诺时间前运行完成 可以将任务添加至基线上,并设置基线承诺时间,当系统预测到基线上任务无法在承诺时间前完成,或上游任务有出错或变慢的情况,将发送报警信息,用户可以根据报警信息及时处理问题,保障任务在承诺时间前运行完成。 相关概念 基线:用户将重要任务加到基线上并设置承诺时
单击“资源管理”,进入资源管理页面。 在“实时资源管理”页签中,找到指定的数据集成资源组,单击右侧操作栏中的“关联工作空间”。 图1 关联工作空间入口 在弹出框中,搜索需要使用的DataArts Studio工作空间,单击“关联”按钮,即可在对应工作空间中选到该数据集成资源组。 一个数据集成资源组可以关联到多个DataArts
云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 可用区(AZ,Availability Zone)是同一区域内,电力和网络互相隔离的物理区域,一个可用区不受其他可用区故障的影响。一个区域内可以有多个可用区,不同可用区之间物
越大优先级越高。当前只支持对DLI SQL算子设置优先级。 在数据开发主界面的左侧导航栏,选择“配置管理 > 配置”。 单击“默认项设置”,可设置“补数据优先级设置”配置项。 配置补数据的优先级策略。 单击“保存”,对设置的配置项进行保存。 补数据优先级设置和DLI的spark.sql
发布作业任务 在企业模式中,开发者提交作业版本后,系统会对应产生一个作业类型的发布任务。开发者确认发布后,待拥有管理员、部署者、DAYU Administrator、Tenant Administrator权限的用户审批通过,然后将修改后的作业同步到生产环境。 管理员导入作业时,选择导入提交态,会生成对应的待发布项。
解决方案:解决方案为用户提供便捷的、系统的方式管理作业,更好地实现业务需求和目标。每个解决方案可以包含一个或多个业务相关的作业,一个作业可以被多个解决方案复用。 作业:作业由一个或多个节点组成,执行作业可以完成对数据的一系列操作。 脚本:脚本(Script)是一种批处理文件的延伸
首行为标题行 文件格式为CSV格式时支持此参数。 如果指定了该参数,程序在抽取数据时将读取第一行作为标题行。 否 编码类型 文件格式为CSV格式或JSON格式时支持此参数。 文件编码类型。 只有文本文件可以设置编码类型,否则设置无效。 支持的文件编码类型有UTF-8 、 GBK。 UTF-8
从FTP/SFTP/OBS导出文件时,CDM支持指定文件名迁移,用户可以单次迁移多个指定的文件(最多50个),导出的多个文件只能写到目的端的同一个目录。 在创建表/文件迁移作业时,如果源端数据源为FTP/SFTP/OBS,CDM源端的作业参数“源目录或文件”支持输入多个文件名(最多50个)
如果您已创建数据标准,在“数据标准”列,单击按钮可以选择一个数据标准与字段相关联。在“配置中心 > 功能配置”页面中的“模型设计业务流程步骤 > 创建质量作业”勾选的情况下,将字段关联数据标准后,表发布上线后,就会自动生成一个质量作业,每个关联了数据标准的字段会生成一个质量规则,基于数
从FTP/SFTP/OBS导出文件时,CDM支持指定文件名迁移,用户可以单次迁移多个指定的文件(最多50个),导出的多个文件只能写到目的端的同一个目录。 在创建表/文件迁移作业时,如果源端数据源为FTP/SFTP/OBS,CDM源端的作业参数“源目录或文件”支持输入多个文件名(最多50个)
为1~128个字符。 实例所属Region 是 选择一个已存在的实例所属Region。 ROMA实例 是 选择一个已存在的ROMA实例。 DataArts Studio支持跨资源空间选择ROMA实例。 FDI任务 是 选择一个已存在的ROMA FDI任务。 DataArts Studio支持跨资源空间选择FDI任务。
账号是您访问华为云的责任主体,有关账号的详细介绍请参见账号中心。此处介绍如何注册一个华为账号。若您已有华为账号,可以略过此部分内容。 打开华为云网站www.huaweicloud.com。 单击页面右上角的“注册”按钮。 在注册页面,根据页面提示完成账号注册。 为了能够给您提供更好的云服务使
账号是您访问华为云的责任主体,有关账号的详细介绍请参见账号中心。此处介绍如何注册一个华为账号。若您已有华为账号,可以略过此部分内容。 打开华为云网站www.huaweicloud.com。 单击页面右上角的“注册”按钮。 在注册页面,根据页面提示完成账号注册。 为了能够给您提供更好的云服务使
发布脚本任务 在企业模式中,开发者提交脚本版本后,系统会对应产生一个脚本类型的发布任务。开发者确认发包后,待拥有管理员、部署者、DAYU Administrator、Tenant Administrator权限的用户审批通过,然后将修改后的脚本同步到生产环境。 管理员导入脚本时,选择导入提交态,会生成对应的待发布项。
只有文本文件可以设置编码类型,当“文件格式”选择为“二进制格式”时,该参数值无效。 GBK 压缩格式 选择对应压缩格式的源文件: 无:表示传输所有格式的文件。 GZIP:表示只传输GZIP格式的文件。 ZIP:表示只传输ZIP格式的文件。 TAR.GZ:表示只传输TAR.GZ格式的文件。
getNodeOutput("maxtime")} 保存并提交版本。作业创建完成。 在CDM作业中通过where子句配置获取最大时间值数据并传递给目的端作业 打开已创建的子作业。 单击CDM作业名称后面的跳转到CDM作业配置界面。 图5 编辑CDM作业 在源端作业配置的高级属性里面,通过配置where子句获取
上取整,1)。 其中,要注意的是: 需要使用的是表的总数据大小,而不是压缩以后的文件大小。 桶的设置以偶数最佳,非分区表最小桶数请设置4个,分区表最小桶数请设置1个。 同时,可通过在Hudi的目的端配置中单击“Hudi表属性全局配置”或在映射后的单表“表属性编辑”中,添加优化参数。
管理中心API进行连接管理。 功能介绍 将存放在OBS桶的连接文件导入到数据开发模块中,一次可以导入一个或多个连接。执行本接口之前,需要将连接文件放到OBS的桶中。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。 URI URI格式 POST /v1/{p
例的操作系统。 密钥加密:用户在CDM上创建连接输入的各种数据源的密钥,CDM均采用高强度加密算法保存在CDM数据库。 无中间存储:数据在迁移的过程中,CDM只处理数据映射和转换,而不会存储任何用户数据或片段。 父主题: 数据集成(CDM作业)