检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统,且“文件格式”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,并
于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统,且“文件格式”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,并
景,二进制格式适用于文件迁移场景。 CSV格式 换行符处理方式 指定在写入文本文件表的数据包含换行符,特指(\n|\r|\r\n)的情况下处理换行符的策略。 删除 不处理 替换为其他字符串 删除 换行符替换字符串 当换行符处理方式选择为替换时,指定替换的字符串。 - 高级属性 写入到临时文件
配置增量元数据采集任务 配置、运行采集任务是构建数据资产的前提,下面举例说明如何通过配置采集任务达到灵活采集元数据的目的。 场景一:仅添加新元数据 用户的数据库中新增的数据表,采集任务仅采集新增的表。 例如新增table4的情况下: 采集前的数据表元数据:table1,table2,table3
定义数据密级 为了方便对数据进行管理,在对数据进行操作前,需要您为数据定义密级,并对保密等级做相应的描述,例如明确涉密的范围。本章主要介绍如何定义数据密级并配置默认密级。 值得注意的是,数据密级、数据分类和识别规则,均为DataArts Studio实例级别配置,各工作空间之间数
消息管理接口 查询消息列表 处理消息 获取消息详情 父主题: 数据服务API
查看敏感数据分布 本章主要介绍如何查看敏感数据发现结果以及手工修正。 查看敏感数据发现结果:敏感数据识别任务完成后,需要查看任务的运行结果。 手工修正:发现敏感数据后,您必须根据具体情况进行手工修正,通过对任务中的识别规则进行“确认”,使规则状态变更为“有效”,才能使该识别规则在静态脱敏任务中生效。
免费版:基于DLI的电商BI报表数据开发流程 示例场景说明 步骤1:数据准备 步骤2:数据开发处理 步骤3:服务退订
String 项目编号,获取方法请参见项目ID和账号ID。 job_name 是 String 作业名称。 如果要查询指定批处理作业的实例列表,job_name就是批处理作业名称; 如果要查询实时作业下某个节点关联的子作业,job_name格式为[实时作业名称]_[节点名称]。 min_plan_time
运维管理接口 获取任务执行结果列表 获取实例结果 数据质量运维管理操作处理&记录 父主题: 数据质量API
审计日志 如何查看审计日志 支持云审计的关键操作
AppKey:通过认证前准备获取。认证用的ak和sk编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全,本示例从环境变量中获取。 AppSecret:通过认证前准备获取。认证用的ak和sk编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变
间隔1分钟) 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 在作业目录中,右键单击目录名称,选择“新建作业”,创建一个批处理的Pipeline作业,分钟作业的名称为job_3417_kk01。 进入作业画布界面后,选择MRS Spark作业算子,配置算子相关参数,配置指导请参见MRS
Job节点可以使用引入了脚本模板的Flink SQL脚本。 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 右键单击作业,创建一个pipeline模式的批处理作业,进入作业开发界面。 选择“MRS_Flink_Job”节点。 “作业类型”选择“Flink SQL作业”,“脚本路径”选择刚创建的Flink
单击CDM集群后的“作业管理”,进入作业管理界面,再选择“连接管理 > 新建连接”,进入选择连接器类型的界面,如图3所示。 图3 选择连接器类型 连接器类型选择“对象存储服务(OBS)”后,单击“下一步”配置OBS连接参数,如图5所示。 名称:用户自定义连接名称,例如“obslink”。 OBS服务器、端口:配置为OBS实际的地址信息。
与“依赖的作业失败后,当前作业处理策略”参数有关,具体如下: “依赖的作业失败后,当前作业处理策略”参数配置为“挂起”或“取消执行”后,当其依赖的作业B在某段时间内存在运行失败实例,则作业A“挂起”或“取消执行”。 “依赖的作业失败后,当前作业处理策略”参数配置为“继续执行”,只
OBS计费说明 OBS服务支持按需和包周期计费,套餐包暂不支持退订。本例中使用按需计费,完成后删除新建的存储桶即可;另外,DataArts Studio作业日志和DLI脏数据默认存储在以dlf-log-{Project id}命名的OBS桶中,在退订DataArts Studio后可以一并删除。
更多压缩级别详细说明请参见压缩级别。 存储模式:可以根据具体应用场景,建表的时候选择行存储还是列存储表。一般情况下,如果表的字段比较多(大宽表),查询中涉及到的列不多的情况下,适合列存储。如果表的字段个数比较少,查询大部分字段,那么选择行存储比较好。 扩大字符字段长度:当目的端和
如果一个任务先变慢、再出错,会生成两个事件。 事件状态: 新发现:基线监控的任务产生变慢或者失败。 已恢复:超过基线任务的承诺完成时间,但基线任务最终完成。 处理中:基线运行产生的该条事件正在处理中。 已忽略:基线运行产生的该条事件已忽略。 单击“事件标识”,进入“事件详情”界面,用户可以查看事件的详细信息。 父主题:
数据目录 数据目录组件有什么用? 数据目录支持采集哪些对象的资产? 什么是数据血缘关系? 数据目录如何可视化展示数据血缘?