检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
st-demo”的OBS桶。 为保证网络互通,OBS桶区域请选择和DataArts Studio实例相同的区域。如果需要选择企业项目,也请选择与DataArts Studio实例相同的企业项目。 使用OBS控制台创建桶的操作,请参见《对象存储服务控制台指南》中的创建桶。 上传数据
VPC,确保网络安全的同时,方便网络配置。 弹性公网IP 专享版实例的API如果要允许外部调用,则需要购买一个弹性公网IP,并在购买时绑定给实例,作为实例的公网入口。 安全组 安全组类似防火墙,控制谁能访问实例的指定端口,以及控制实例的通信数据流向指定的目的地址。安全组入方向规则
encryption”(加密方式)选择“AES-256-GCM”时有该参数,密钥由长度64的十六进制数组成。 请您牢记这里配置的密钥,解密时的密钥与这里配置的必须一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 toJobConfig.iv 否 String 初始化向量,“toJobConfig
选择对应压缩格式的源文件: 无:表示传输所有格式的文件。 GZIP:表示只传输GZIP格式的文件。 无 加密方式 选择是否对上传的数据进行加密,以及加密方式: 无:不加密,直接写入数据。 KMS:使用数据加密服务中的KMS进行加密。如果启用KMS加密则无法进行数据的MD5校验。 详细使用方法请参见迁移文件时加解密。
功能介绍 该接口用以获取脚本实例的执行状态和结果。 查询时,需要指定脚本名称和脚本实例ID。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。 URI URI格式 GET /v1/{project_id}/scripts/{script_name}/instances/{instance_id}
配置HDFS目的端参数 表1 HDFS作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 写入目录 写入数据到HDFS服务器的目录。 /user/cdm/output 文件格式 传输数据时使用的格式。其中CSV和JSON仅支持迁移到数据表场景,二进制格式适用于文件迁移场景。
CDM集群所在VPC、子网、安全组,选择与MRS集群所在的网络一致。 CDM集群创建完成后,选择集群操作列的“绑定弹性IP”,CDM通过EIP访问MRS HDFS。 图1 集群列表 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。 创建MRS HDFS连接
初级版:基于DWS的电影评分数据集成与开发流程 示例场景说明 步骤1:数据准备 步骤2:数据集成 步骤3:数据开发处理 步骤4:服务退订
CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 CDM集群创建完成后,选择集群操作列的“绑定弹性IP”,CDM通过EIP访问MySQL。 图1 集群列表 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。
配置OBS目的端参数 作业中目的连接为OBS连接时,即导入数据到云服务OBS时,目的端作业参数如表1所示。 高级属性里的参数为可选参数,默认隐藏,单击界面上的“显示高级属性”后显示。 表1 OBS作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 桶名 写入数据的OBS桶名。
采集任务。 技术资产中的数据血缘关系更新依赖于作业调度,数据血缘关系是基于最新的作业调度实例产生的。需要注意的是,数据血缘关系删除需要通过删除作业或删除作业元数据的方式进行,仅将作业停止调度不会触发血缘关系的删除。 资产搜索 通过资产名称和描述的关键字或按所有属性搜索资产,支持模糊搜索。
配置ElasticSearch目的端参数 表1 Elasticsearch作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 索引 待写入数据的Elasticsearch的索引,类似关系数据库中的数据库名称。CDM支持自动创建索引和类型,索引和类型名称只能全部小写,不能有大写。
是否必选 类型 说明 toJobConfig.index 是 String 写入数据的索引,类似关系数据库中的数据库名称。 toJobConfig.type 是 String 写入数据的类型,类似关系数据库中的表名。 toJobConfig.shouldClearType 否 Boolean
Hive连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 hivelink Manager IP MRS Manager的浮动IP地址,可以单击输入框后的“选择”来选定已创建的MRS集群,CDM会自动填充下面的鉴权参数。 说明:
于存放最活跃的Top10电影) 开发并调度作业,通过编排作业和配置作业调度策略,定期执行作业,使得用户可以每天获取到最新的Top10电影结果。 服务退订,如果不再使用DataArts Studio及相关服务,请及时进行退订和资源删除。 父主题: 初级版:基于DWS的电影评分数据集成与开发流程
ans*桶的读、写、创建目录对象等权限,否则会导致迁移失败。dli-trans*内部临时桶的权限策略添加请参见新增dli-trans*内部临时桶授权策略。 表1 DLI作为目的端时的作业参数 参数名 说明 取值样例 资源队列 选择目的表所属的资源队列。 DLI的default队列
CSS)作为目的端时的作业参数 参数名 说明 取值样例 索引 待写入数据的Elasticsearch的索引,类似关系数据库中的数据库名称。CDM支持自动创建索引和类型,索引和类型名称只能全部小写,不能有大写。 index 类型 待写入数据的Elasticsearch的类型,类似关
Studio服务后不会再产生通知,您也可以直接删除SMN服务已产生的主题和订阅。 EIP EIP计费说明 EIP服务支持按需和包周期计费,本例中使用按需计费,完成后删除EIP即可。如果使用包周期计费,您需要参考云服务退订退订包年包月套餐,并删除EIP。 DEW DEW计费说明 KMS密钥管理按密钥
如何降低CDM使用成本? 如果是迁移公网的数据上云,可以使用NAT网关服务,实现CDM服务与子网中的其他弹性云服务器共享弹性IP,可以更经济、更方便的通过Internet迁移本地数据中心或第三方云上的数据。 具体操作如下: 假设已经创建好了CDM集群(无需为CDM集群绑定专用弹性IP),记录下CDM集群所在的VPC和子网。
式提醒,此处不再展开描述。 至此,基于电影评分的数据集成与开发流程示例完成。此外,您还可以根据原始数据,分析不同类型电影的评分、浏览情况等,为营销决策、广告推荐、用户行为预测等提供高质量的信息。 父主题: 初级版:基于DWS的电影评分数据集成与开发流程