检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Server,简称ECS)进行CDM集群和数据服务集群的创建,另外DataArts Studio可以通过主机连接在ECS上执行Shell或Python脚本。 虚拟私有云服务 DataArts Studio使用虚拟私有云服务(Virtual Private Cloud,简称VPC)来创建隔离的网络环境。 弹性公网IP服务
Migration,简称CDM)是一种高效、易用的数据集成服务。CDM围绕大数据迁移上云和智能数据湖解决方案,提供了简单易用的迁移能力和多种数据源到数据湖的集成能力,降低了客户数据源迁移和集成的复杂性,有效的提高您数据迁移和集成的效率。更多详情请参见云数据迁移服务。 CDM进行数
在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在华为云,且与Migration资源组不同Region场景下,通过云连接打通网络的方案。 图1 网络示意图
脚本(分析10大用户关注最多的产品) 关键参数说明: 数据连接:步骤4中创建的DLI数据连接。 数据库:步骤6中创建的数据库。 资源队列:可使用提供的默认资源队列“default”。 当前由于DLI的“default”队列默认Spark组件版本较低,可能会出现无法支持建表语句执行的报错,这种情况
CDM集群作为网络代理,必须和Oracle网络互通才可以成功创建Oracle连接。 数据源认证及其他功能配置 用户名 是 待连接数据库的用户。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。 说明: CONNECT权限的用户(只读用户)创建连接时会出现“表或视图不存在”的提示,需要执行如下操作进行授权:
ters[0].clusterId,后续的Rest Client节点就可以用${clusterId}的方式引用到集群列表中的第一个集群的cluster Id。 响应消息体解析为参数传递定义时,传递的参数名(例如clusterId)在该作业的所有节点参数中需要保持唯一性,避免和其他参数同名。
ters[0].clusterId,后续的Rest Client节点就可以用${clusterId}的方式引用到集群列表中的第一个集群的cluster Id。 响应消息体解析为参数传递定义时,传递的参数名(例如clusterId)在该作业的所有节点参数中需要保持唯一性,避免和其他参数同名。
*用户组/用户 指定当前工作空间成员中的用户或用户组。 指定的用户或用户组按照所选的“SQL操作”进行操作时,只能操作满足“表达式”条件的行级数据。 当选择SELECT时,SELECT类操作受行访问控制的影响,所选用户组/用户只能查看到满足表达式条件的行数据,受影响的操作包括SELECT,UPDATE
选择对应的连接名称与topic,当有新的kafka消息时将会触发作业运行一次 配置为:KAFKA 事件类型,当前只支持监听DIS通道的新上报数据事件,每上报一条数据,触发作业运行一次。 配置为:DIS 选择要监听的OBS路径,如果该路径下有新增文件,则触发调度;新增的文件的路径名,可以通过变量Job
选择通知的消息主题。该主题是指SMN消息通知服务的主题。 单击“添加”,弹出一个选择主题的框,单击该框进入选择主题的界面,可以通过搜索关键字快速的选择所需要的主题名称。 说明: 当前仅支持“短信”、“邮件”、“HTTP”这三种协议的订阅终端订阅主题。 用户可以对已选择的主题名称进行删除并重新添加。
最小通知间隔可设置为5~60。 运行成功:作业的状态为“成功”时,发送通知。 未完成:该功能仅支持按天调度的作业配置。如果作业执行时间超过设置的未完成时间,则发送通知。 运行取消:作业的状态为“已取消”时,则发送通知。 说明: 调度中的作业手动停止调度时触发告警通知,运行中的作业实例手动停止时触发告警通知。
操作场景 CDM在配置字段映射时提示字段的数据类型不支持,要求删除该字段。如果需要使用该字段,可在源端作业配置中使用SQL语句对字段类型进行转换,转换成CDM支持的类型,达到迁移数据的目的。 操作步骤 修改CDM迁移作业,通过使用SQL语句的方式迁移。 SQL语句格式为:“select
该连接的作业时,数据连接及连接相关配置不可见。 委托 选择需要授权的IAM委托,仅限于委托对象为“数据湖治理中心 DGC”的云服务类型委托。如需新建委托,请参考参考:创建委托。 说明: 对于未选择的委托,则默认该委托权限放开,不做权限管控。 对于选择的委托,则非授权对象的普通用户(即非DAYU
在导航树上选择数据库后,勾选所需的数据表,单次申请时支持选择不同数据库下的表。 说明: 当前仅支持按照数据表粒度,申请数据表的查询数据(SELECT)权限。因此权限申请前,请确保空间权限集已配置所选数据表中所有列的SELECT权限。 另外,导航树上的快速模式开启后,库表列的元数据会从数据目录获
在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在华为云,且与Migration资源组同Region不同租户的场景下,通过对等连接打通网络的方案。 图1 网络示意图
数据开发,左侧列表选择“配置管理 > 资源管理”。在资源的目录树上,可以查看到当前已经创建的目录,默认在根目录/。 响应参数 表4 参数说明 参数名 是否必选 参数类型 说明 resourceId 是 String 资源ID 请求示例 创建资源名称为test的资源,资源类型为jar,资源文件所在O
文件迁移的作业)失败时,或者EIP异常时,会发送短信或邮件通知用户。该功能产生的消息通知不会计入收费项。 用户隔离:控制其他用户是否能够查看、操作该集群中的迁移作业和连接。 开启该功能时,该集群中的迁移作业、连接会被隔离,华为账号下的其他IAM用户无法查看、操作该集群中的迁移作业和连接。
本步骤通过电影信息和评分信息的原始数据,分析评分最高的Top10电影和最活跃的Top10电影,然后通过作业定期调度执行并将结果每日导出到表中,以支撑信息分析。 创建DWS SQL脚本top_rating_movie(用于存放评分最高的Top10电影) 评分最高Top10电影的计算方法是:先计
查询guid的资产,并点击资产名进入资产详情页。 在Network请求中,寻找Name形如“09318f28-939f-4ab6-a374-9e621096652c”的长字符串。 图5 寻找长字符串 点击该字符串,弹出具体请求的弹窗。在Request URL中,可以确认该字符串即为该资产的guid。
取决于元数据采集任务的参数配置,详情请参见配置元数据采集任务。 技术资产中的数据血缘关系更新依赖于作业调度,数据血缘关系是基于最新的作业调度实例产生的。需要注意的是,数据血缘关系删除需要通过删除作业或删除作业元数据的方式进行,仅将作业停止调度不会触发血缘关系的删除。 资产搜索 通