检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统,且“文件格式”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,并
For循环节点输入的数据集,是一个二维数组。 #{Loop.current}:由于For循环节点在处理数据集的时候,是一行一行进行处理的,那Loop.current就表示当前处理到的某行数据,Loop.current是一个一维数组,一般定义格式为#{Loop.current[0]}、#{Loop
的方法进行配置。 配置方法 在DataArts Studio中配置一个按月调度执行的作业,然后在作业里面新增一个Dummy节点(空节点,不处理实际的业务数据),在Dummy节点与后续执行任务的节点的连线上,您可以配置条件表达式,判断当前的调度时间是否为一年中的指定的某一天进行调度
当作业失败时,用户无法及时得知并处理。 作业补数窗口期较短:上游作业失败重跑过多导致下游核心业务执行时间超过基线,导致影响业务时发现时间太晚,无法及时执行补救措施。 为了解决这些痛点,您可以通过配置各类作业告警,及时发现调度运行问题,提高处理问题的窗口期。 配置作业节点失败重试
景,二进制格式适用于文件迁移场景。 CSV格式 换行符处理方式 指定在写入文本文件表的数据包含换行符,特指(\n|\r|\r\n)的情况下处理换行符的策略。 删除 不处理 替换为其他字符串 删除 换行符替换字符串 当换行符处理方式选择为替换时,指定替换的字符串。 - 高级属性 写入到临时文件
消息管理接口 查询消息列表 处理消息 获取消息详情 父主题: 数据服务API
配置增量元数据采集任务 配置、运行采集任务是构建数据资产的前提,下面举例说明如何通过配置采集任务达到灵活采集元数据的目的。 场景一:仅添加新元数据 用户的数据库中新增的数据表,采集任务仅采集新增的表。 例如新增table4的情况下: 采集前的数据表元数据:table1,table2,table3
定义数据密级 为了方便对数据进行管理,在对数据进行操作前,需要您为数据定义密级,并对保密等级做相应的描述,例如明确涉密的范围。本章主要介绍如何定义数据密级并配置默认密级。 值得注意的是,数据密级、数据分类和识别规则,均为DataArts Studio实例级别配置,各工作空间之间数
开发一个Hive SQL作业 本章节介绍如何在数据开发模块上进行Hive SQL开发。 场景说明 数据开发模块作为一站式大数据开发平台,支持多种大数据工具的开发。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能;可
新建一个质量作业 场景说明 开发质量作业是为了监控数据质量。本章以新建一个质量作业为例,介绍如何开发质量作业。 操作步骤 在DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。 创建规则模板。 单击左侧导航“规则模板”,默认展示系统自定
查看敏感数据分布 本章主要介绍如何查看敏感数据发现结果以及手工修正。 查看敏感数据发现结果:敏感数据识别任务完成后,需要查看任务的运行结果。 手工修正:发现敏感数据后,您必须根据具体情况进行手工修正,通过对任务中的识别规则进行“确认”,使规则状态变更为“有效”,才能使该识别规则在静态脱敏任务中生效。
免费版:基于DLI的电商BI报表数据开发流程 示例场景说明 步骤1:数据准备 步骤2:数据开发处理 步骤3:服务退订
运维管理接口 获取任务执行结果列表 获取实例结果 数据质量运维管理操作处理&记录 父主题: 数据质量API
String 项目编号,获取方法请参见项目ID和账号ID。 job_name 是 String 作业名称。 如果要查询指定批处理作业的实例列表,job_name就是批处理作业名称; 如果要查询实时作业下某个节点关联的子作业,job_name格式为[实时作业名称]_[节点名称]。 min_plan_time
审计日志 如何查看审计日志 支持云审计的关键操作
间隔1分钟) 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 在作业目录中,右键单击目录名称,选择“新建作业”,创建一个批处理的Pipeline作业,分钟作业的名称为job_3417_kk01。 进入作业画布界面后,选择MRS Spark作业算子,配置算子相关参数,配置指导请参见MRS
AppKey:通过认证前准备获取。认证用的ak和sk编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全,本示例从环境变量中获取。 AppSecret:通过认证前准备获取。认证用的ak和sk编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变
Job节点可以使用引入了脚本模板的Flink SQL脚本。 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 右键单击作业,创建一个pipeline模式的批处理作业,进入作业开发界面。 选择“MRS_Flink_Job”节点。 “作业类型”选择“Flink SQL作业”,“脚本路径”选择刚创建的Flink
与“依赖的作业失败后,当前作业处理策略”参数有关,具体如下: “依赖的作业失败后,当前作业处理策略”参数配置为“挂起”或“取消执行”后,当其依赖的作业B在某段时间内存在运行失败实例,则作业A“挂起”或“取消执行”。 “依赖的作业失败后,当前作业处理策略”参数配置为“继续执行”,只
OBS计费说明 OBS服务支持按需和包周期计费,套餐包暂不支持退订。本例中使用按需计费,完成后删除新建的存储桶即可;另外,DataArts Studio作业日志和DLI脏数据默认存储在以dlf-log-{Project id}命名的OBS桶中,在退订DataArts Studio后可以一并删除。