检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在创建表/文件迁移作业时,对简单CSV格式的文件,CDM可以使用字段分隔符进行字段分隔。但是对于一些复杂的半结构化文本,由于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统,且“文件格式”必须选择“CSV格式”。
时间宏变量使用解析 在创建表/文件迁移作业时,CDM支持在源端和目的端的以下参数中配置时间宏变量: 源端的源目录或文件 源端的表名 “通配符”过滤类型中的目录过滤器和文件过滤器 “时间过滤”中的起始时间和终止时间 分区过滤条件和Where子句 目的端的写入目录 目的端的表名 支持
在创建表/文件迁移作业时,对简单CSV格式的文件,CDM可以使用字段分隔符进行字段分隔。但是对于一些复杂的半结构化文本,由于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统,且“文件格式”必须选择“CSV格式”。
否 String OBS桶类型。 对象桶:OB。 并行文件系统:PFS。 说明: 桶类型分为对象桶和并行文件系统,对象桶过滤文件会比较慢,建议客户使用并行文件桶。 linkConfig.server 是 String OBS服务器的终端节点(Endpoint)。 linkConfig
Studio数据血缘解析方案包含自动分析血缘和手动配置血缘两种方式。一般推荐使用自动血缘解析的方式,无需手动配置即可生成血缘关系,在不支持自动血缘解析的场景下,再手动配置血缘关系。 自动血缘解析,是由系统解析数据开发作业中的数据处理和数据迁移类型节点后自动产生的,无需进行手动配置。支持自动血缘解析的节点类型和场景请参见自动血缘解析。
在导出窗口中单击“确认”导出全量API,单击确认即可以Excel文件的形式导出API。 图1 全量导出API 打开下载到本地的Excel文件,可以查看导出的API。不同类型的API会分别导出到文件页签中,单击下方页签可以切换查看并编辑。 图2 Excel文件样式 导出API 在DataArts Stu
Parquet格式:按Parquet格式写入,适用于数据表到文件的迁移。 ORC格式:按ORC格式写入,适用于数据表到文件的迁移。 二进制格式:选择“二进制格式”时不解析文件内容直接传输,CDM会原样写入文件,不改变原始文件格式,适用于文件到文件的迁移。 如果是文件类数据源(FTP/SFTP/HDFS/
选择待采集数据的采集范围。 选择“当前文件夹”,采集任务仅采集OBS路径中设置的文件夹下的对象。 选择“当前文件夹和所有子文件夹”,采集任务会采集OBS路径中设置的文件夹下所有的对象,包括其子文件夹下的对象 采集内容 选择待采集数据的采集内容。 选择“文件夹和对象”,采集任务采集文件夹和对象。 选择“
对象自动存储在以“备份日期”命名的文件夹内。环境变量,资源,脚本和作业分别存储在1_env,2_resources,3_scripts和4_jobs文件夹内。 备份成功后,在以“备份日期”命名的文件夹内,自动生成backup.json文件,该文件按照节点类型存储了作业信息,支持恢复作业前进行修改。
后的表生效。 上传模板 选择所需导入的文件。所需导入的文件,可以通过以下两种方式获得。 下载关系建模导入模板并填写模板 在“导入配置”页签内,单击“下载关系建模导入模板”下载模板,然后根据业务需求填写好模板中的相关参数并保存。 导出的表文件 您可以将某个DataArts Stud
导入作业 功能介绍 将存放在OBS桶的作业文件导入到DLF,一次可以导入一个或多个作业。 执行本接口之前,需要将作业文件放到OBS的桶中。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。 URI URI格式 POST /v1/{project_id}/jobs/import
消息通知:CDM的迁移作业(目前仅支持表/文件迁移的作业)失败时,或者EIP异常时,会发送短信或邮件通知用户。该功能产生的消息通知不会计入收费项。 用户隔离:控制其他用户是否能够查看、操作该集群中的迁移作业和连接。 开启该功能时,该集群中的迁移作业、连接会被隔离,华为账号下的其他IAM用户无法查看、操作该集群中的迁移作业和连接。
执行DLI脚本,报Invalid authentication怎么办? 可能原因 执行DLI脚本,提示报错信息Invalid authentication,可能是由于权限不足引起的。 解决方案 请确认当前用户在IAM中是否具有DLI Service User或者DLI Service
新增访问密钥”,如图1所示。 图1 单击新增访问密钥 单击“确定”,根据浏览器提示,保存密钥文件。密钥文件会直接保存到浏览器默认的下载文件夹中。打开名称为“credentials.csv”的文件,即可查看访问密钥(Access Key Id和Secret Access Key)。 说明:
创建API时提示代理调用失败,怎么办? 可能原因 数据连接中的CDM代理异常,例如内存占用过高等。 解决方案 短期内建议您在空余时间对CDM集群进行重启,长期措施需降低CDM集群的工作负载。 父主题: 数据服务
字符、“_”、“-”,且长度为1~32个字符。 类型 是 选择资源的文件类型: jar:用户jar文件。 pyFile:用户Python文件。 file:用户文件。 archive:用户AI模型文件。支持的文件后缀名为:zip、tgz、tar.gz、tar、jar。 资源位置 是
调用数据开发接口报错“Workspace does not exists”怎么处理? 问题描述 调用数据开发接口,报错“Workspace does not exists”。 解决方案 代码的request请求的header要添加项目Id,即header.add("X-Project-Id",项目Id)。
日志提示解析日期格式失败时怎么处理? 问题描述 在使用CDM迁移其他数据源到云搜索服务(Cloud Search Service)的时候,作业执行失败,日志提示“Unparseable date”,如图1所示。 图1 日志提示信息 原因分析 云搜索服务对于时间类型有一个特殊处理:
标。 免运维 需要自行开发完善运维功能,自行保证系统可用性,尤其是告警及通知功能,否则只能人工值守。 使用CDM服务,用户不需要维护服务器、虚拟机等资源。CDM的日志,监控和告警功能,有异常可以及时通知相关人员,避免7*24小时人工值守。 高效率 在迁移过程中,数据读写过程都是由
IAM用户操作时报错“无xx权限”怎么办? 可能原因 DataArts Studio基于DAYU系统角色+工作空间角色实现授权的能力。为使IAM用户权限正常,IAM用户所在的用户组需要在IAM控制台中被授予DAYU User或DAYU Administrator的系统角色,另外也必须确保DAYU