检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据服务 数据服务共享版仅供开发测试使用,专享版性能优于共享版,推荐使用数据服务专享版。 DataArts Studio实例下最多支持创建5个数据服务专享版集群,且集群需要与某个工作空间绑定,不能多空间共用同一集群。 数据服务专享版集群创建后暂不支持修改规格或升级版本。 DataArts
企业模式业务流程 当前DataArts Studio企业模式,主要涉及管理中心和数据开发组件,业务流程由管理员、开发者、部署者、运维者等角色共同完成。 图1 企业模式架构 管理员:管理员需要进行准备数据湖、配置数据连接和环境隔离、数据的导入导出、配置项目用户权限等操作。 开发者:
JSON格式:以JSON格式解析源文件,一般都是用于迁移文件到数据表的场景。 CSV格式 列表文件 当“文件格式”选择为“二进制格式”时,才有该参数。 打开列表文件功能时,支持读取OBS桶中文件(如txt文件)的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径(不支持目录),例如直接写为如下内容:
表4 FlavorDTO 参数 参数类型 描述 id String 规格ID。 name String 规格名称。 disk Integer 磁盘大小。 cpu Integer CPU大小。 mem Integer 内存大小。 表5 InstanceNodeDTO 参数 参数类型 描述
huawei.opengauss.jdbc.Driver:连接GaussDB数据源时,选择此驱动程序名称。 驱动文件来源 是 选择驱动文件的来源方式。 驱动文件路径 是 驱动文件在OBS上的路径。需要您自行到官网下载.jar格式驱动并上传至OBS中。 MySQL驱动:获取地址https://downloads
新增访问密钥”,如图5所示。 图5 单击新增访问密钥 单击“确定”,根据浏览器提示,保存密钥文件。密钥文件会直接保存到浏览器默认的下载文件夹中。打开名称为“credentials.csv”的文件,即可查看访问密钥(Access Key Id和Secret Access Key)。 说明:
表6 FlavorDTO 参数 参数类型 描述 id String 规格ID。 name String 规格名称。 disk Integer 磁盘大小。 cpu Integer CPU大小。 mem Integer 内存大小。 表7 InstanceNodeDTO 参数 参数类型 描述
发布API 功能介绍 发布API。API只有发布后,才能够被调用。API发布时,可以将API发送至指定网关。 共享版,必须发送至API网关共享版。 专享版,可以依据自身需要,选择将API发送至API网关专享版、ROMA-APIC、或不发布网关。 发布请求的发起者若非审核人,需要API的审核人完成申请的审核。
问题描述 数据开发节点运行中报TOKEN不合法。 解决方案 请确认当前用户在IAM的权限管理中权限是否有变更、是否退出用户组,或者用户所在的用户组权限策略是否有变更? 如果有变更,请重新登录即可解决。 父主题: 数据开发
spark.sql.mergeSmallFiles.enabled(启用合并小文件功能,可以通过将小文件合并成较大的文件来提高性能,可以减少处理许多小文件的时间,并通过减少需要从远程存储中读取的文件数量来提高数据本地性。) 如果不使用的话,可以手动配置相关参数进行关闭,参数值设置为false。
DDL配置 配置任务属性。 表10 任务配置参数说明 参数 说明 默认值 执行内存 作业执行分配内存,跟随处理器核数变化而自动变化。 8GB 处理器核数 范围:2-32。 每增加1处理核数,则自动增加4G执行内存和1并发数。 2 并发数 作业执行支持并发数。该参数无需配置,跟随处理器核数变化而自动变化。
导出包含API信息的EXCEL文件 功能介绍 导出包含API信息的EXCEL文件。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/service/export/excel 表1 路径参数 参数 是否必选 参数类型 描述 project_id
实时处理集成作业 1分钟 作业CPU使用率 展示用户Flink作业的CPU使用率 ≥ 0% 实时处理集成作业 1分钟 作业内存使用率 展示用户Flink作业的内存使用率 ≥ 0% 实时处理集成作业 1分钟 作业最大算子时延 展示用户Flink作业的最大算子时延时间,单位ms ≥ 0ms
运行程序参数 否 为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 说明: 数据连接为MRS API连接时支持为Spark SQL作业独立配置需要的资源(例如线程、内存、CPU核数并指定MRS资源队列等)。代理连接时不支持配置。
创建集群进度,例如:29%。 GROWING String 扩容集群进度,例如:29%。 RESTORING String 恢复集群进度,例如:29%。 SNAPSHOTTING String 集群快照进度,例如:29%。 REPAIRING String 修复集群进度,例如:29%。
文件增量迁移 CDM支持对文件类数据源进行增量迁移,全量迁移完成之后,第二次运行作业时可以导出全部新增的文件,或者只导出特定的目录/文件。 目前CDM支持以下文件增量迁移方式: 增量导出指定目录的文件 适用场景:源端数据源为文件类型(OBS/HDFS/FTP/SFTP)。这种增量
文件增量迁移 CDM支持对文件类数据源进行增量迁移,全量迁移完成之后,第二次运行作业时可以导出全部新增的文件,或者只导出特定的目录/文件。 目前CDM支持以下文件增量迁移方式: 增量导出指定目录的文件 适用场景:源端数据源为文件类型(OBS/HDFS/FTP/SFTP)。这种增量
查询作业文件 功能介绍 从OBS路径上导入作业前,可以通过此接口查询导入作业文件中是否有作业和脚本。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。 URI URI格式 POST /v1/{project_id}/jobs/check-file 参数说明 表1
huawei.opengauss.jdbc.Driver:连接GaussDB数据源时,选择此驱动程序名称。 驱动文件来源 是 选择驱动文件的来源方式。 驱动文件路径 是 驱动文件在OBS上的路径。需要您自行到官网下载.jar格式驱动并上传至OBS中。 MySQL驱动:获取地址https://downloads
管理文件水印 本章主要介绍如何进行文件水印相关操作。 对结构化数据文件(csv、xml和json)注入暗水印,水印内容不可见,需要进行水印提取。 对非结构化数据文件(docx、pptx、xlsx和pdf)注入明水印,可在本地打开文件,查看水印内容。 约束与限制 结构化数据文件暗水