检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
csv 否 目录层次 自定义目录层次选择是时显示该参数。 指定文件的目录层次,支持时间宏(时间格式为yyyy/MM/dd)。源端为关系型数据库数据源时,目录层次为源端表名+自定义目录,其他场景下为自定义目录。 ${dateformat(yyyy/MM/dd, -1, DAY)} 文件名前缀
开发一个MRS Spark Python作业 本章节介绍如何在数据开发模块上进行MRS Spark Python作业开发。 案例一:通过MRS Spark Python作业实现统计单词的个数 前提条件: 开发者具有OBS相关路径的访问权限。 数据准备: 准备脚本文件"wordcount
当前工作空间可见 当前项目可见 当前租户可见 访问日志 勾选,则此API的查询结果将会产生记录并被保留7天,可以在“运营管理 > 访问日志”处通过选择“请求日期”的方式查看对应日期的日志。 最低保留期限 API解绑前预留的最低期限。 API进行停用/下线/取消授权时, 会通知已授权用户,
配置MRS Kafka目的端参数 表1 Kafka作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 Topic 输入Topic数据库名称。 default 数据格式 写入目的端时使用的数据格式。 CSV:将列按照字段分隔符拼接。 JSON: 将所有列按照指定字段名称拼接为JSON字符串。
guest agent版本。 DWS连接用户权限 非三权分立模式,连接中的用户至少需具备数据库dbadmin权限, 三权分立模式,连接中的用户需具备系统管理员权限。 非三权分立模式,参考数据库用户设置dbadmin管理员用户。 三权分立模式,参考设置三权分立设置系统管理员用户。 查看DWS集群guest
是:重新执行节点,请配置以下参数。 最大重试次数 重试间隔时间(秒) 否:默认值,不重新执行节点。 说明: 建议仅对文件类作业或启用了导入阶段表的数据库作业配置自动重试,避免自动重试重复写入数据导致数据不一致。 如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后,系统支持再重试。
ob.getNodeOutput('preNodeName')}”,即前一个节点的输出值。 子作业参数:参数名即子作业中定义的变量;参数值一般配置为数据集中的某组数据,每次运行中会将参数值传递到子作业以供使用。例如参数值填写为:#{Loop.current[0]},即将数据集中每行数据的第一个数值遍历传递给子作业。
com”。 端口:OBS服务器的端口,例如“443”。 OBS桶类型:根据实际情况下拉选择即可。 访问标识(AK)、密钥(SK):访问OBS数据库的AK、SK。可在管理控制台单击用户名,选择“我的凭证 > 访问密钥”后获取。 单击“保存”,系统回到连接管理界面。 选择“表/文件迁移 >
在创建数据连接前,请确保您已具备连接所需的Agent代理(即CDM集群),且待连接的数据湖与CDM集群之间网络互通。 如果数据湖为云下的数据库,则需要通过公网或者专线打通网络。请确保数据源所在的主机和CDM集群均能访问公网,并且防火墙规则已开放连接端口。 如果数据湖为云上服务(如
ob.getNodeOutput('preNodeName')}”,即前一个节点的输出值。 子作业参数:参数名即子作业中定义的变量;参数值一般配置为数据集中的某组数据,每次运行中会将参数值传递到子作业以供使用。例如参数值填写为:#{Loop.current[0]},即将数据集中每行数据的第一个数值遍历传递给子作业。
您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。 如何选择区域? 选择区域时,您需要考虑以下几个因素: 地理位置 一般情况下,建议就近选择靠近您或者您的目标用户的区域,这样可以减少网络时延,提高访问速度。不过,在基础设施、BGP网络品质、资源的操作与配置等
数据类型 选择数据类型。 例如,双精度(DOUBLE)。 数据对象配置 *数据连接类型 选择数据连接类型。 *数据连接 选择数据连接。 *数据库 选择数据库。 Schema 选择Schema。 只有部分数据连接类型需要配置该参数。比如DWS、POSTGRESQL。 *队列 选择队列。 当
传输数据时所用的文件格式,目前支持以下文件格式: CSV_FILE:CSV格式,用于迁移文件到数据表的场景。 JSON_FILE:JSON格式,一般都是用于迁移文件到数据表的场景。 BINARY_FILE:二进制格式,不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。
角色描述:补充对该角色的相关说明,此处填写为“基于开发者角色,仅保留数据服务权限”。 角色类型:该角色仅在简单模式空间下使用,选择为“开发&生产模式,自定义角色”。 复用预置角色:选择“开发者”,然后去勾选其他组件的新增、删除、操作、编辑权限,仅为该角色保留数据服务组件的权限和其他组件的查看权限。 图2
选择需要执行的脚本。如果脚本未创建,请参考新建脚本和开发SQL脚本先创建和开发脚本。 数据连接 是 默认选择SQL脚本中设置的数据连接,支持修改。 数据库 是 默认选择SQL脚本中设置的数据库,支持修改。 MRS资源队列 否 选择已创建好的MRS资源队列。 说明: 需要先在数据安全服务队列权限功能中,配置对应
角色描述:补充对该角色的相关说明,此处填写为“基于开发者角色,仅保留数据服务权限”。 角色类型:该角色仅在简单模式空间下使用,选择为“开发&生产模式,自定义角色”。 复用预置角色:选择“开发者”,然后去勾选其他组件的新增、删除、操作、编辑权限,仅为该角色保留数据服务组件的权限和其他组件的查看权限。 图2
CreateDatabaseEvent 创建数据库 CreateFunctionEvent 创建函数 CreateTableEvent 创建表 DropConstraintEvent 删除约束 DropDatabaseEvent删除数据库 DropFunctionEvent删除函数
管理样本库 数据安全支持将您提供的OBS或HDFS样本文件生成样本库。当新建随机脱敏或字符替换类型的脱敏算法时,可以选择将敏感数据脱敏为样本库文件中的值。 本章主要介绍如何创建样本。 前提条件 已在OBS或HDFS中上传样本文件。样本文件只支持txt格式,大小建议不超过10MB,其中数据可通过换行“\n”、空格“
连接时,请选择一个CDM集群。如果没有可用的CDM集群,请参考创建CDM集群进行创建。 数据集成配置 域名 是 表示通过内部网络访问集群数据库的访问地址,可填写域名。内网访问域名地址在创建集群时自动生成,您可以通过管理控制台获取访问地址: 根据注册的账号登录DWS云服务管理控制台。
数据连接id,可通过数据连接列表中获取。 表2 Query参数 参数 是否必选 参数类型 描述 database_name 是 String 数据库名称。 table_name 否 String 指定查询表的名称。 limit 否 String 数据条数限制。 offset 否 String