检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发一个Python作业 本章节介绍如何在数据开发模块上开发并执行Python作业示例。 环境准备 已开通弹性云服务器,并创建ECS,ECS主机名为“ecs-dgc”。 本示例主机选择“CentOS 8.0 64bit with ARM(40GB)”的公共镜像,并且使用ECS自带
IP即弹性公网IP,由虚拟私有云(Virtual Private Cloud,简称VPC)负责其计费。 如果CDM需要访问本地数据源、Internet的数据源,或者跨VPC的云服务,则必须要为CDM集群绑定一个弹性IP,或者使用NAT网关让CDM集群与其他弹性云服务器共享弹性IP
单击左侧导航“质量作业”。 单击“新建”,配置质量作业的基本信息,如下图所示。 单击“下一步”,进入规则配置页面。您需要单击规则卡片中的,然后配置规则信息,如下图所示。 单击“下一步”,配置告警信息,如下图所示。 单击“下一步”,配置订阅信息,如下图所示。 单击“下一步”,配置调度信息,如下图所示。
单击左侧导航“业务场景管理”。 单击页面上方的“新建”,输入场景的基本配置参数,如下图所示。 单击“下一步”,输入规则组的配置参数,如下图所示。 单击“下一步”,配置订阅信息,如下图所示。 单击“下一步”,配置调度信息,如下图所示。 单击“提交”,完成作业场景的创建。 在业务场景
账作业”。 单击“新建”,配置对账作业的基本信息,如下图所示。 图1 配置基本信息 单击“下一步”,进入规则配置页面。您需要单击规则卡片中的,然后配置对账规则,如下图所示。 需要分别配置源端和目的端的信息。配置源端连接请参见DWS数据连接参数说明,配置目的端连接请参见DLI数据连接参数说明。
SQL脚本构建一个周期执行的作业,使得该脚本能定期执行。 创建一个数据开发模块空作业,作业名称为“job_hive_sql”。 图2 创建job_hive_sql作业 然后进入到作业开发页面,拖动MRS Hive SQL节点到画布中并单击,配置节点的属性。 图3 配置MRS Hive
SQL脚本开发完成后,我们为DWS SQL脚本构建一个周期执行的作业,使得该脚本能定期执行。 创建一个批处理作业,作业名称为“job_dws_sql”。 然后进入到作业开发页面,拖动DWS SQL节点到画布中并单击,配置节点的属性。 图2 配置DWS SQL节点属性 关键属性说明: SQL脚本:关联开发DWS
-tongji/python/ 创建一个数据开发模块空作业,作业名称为“job_MRS_Spark_Python”。 图2 新建作业 进入到作业开发页面,拖动“MRS Spark Python”节点到画布中并单击,配置节点的属性。 图3 配置MRS Spark Python节点属性
在数据开发主界面的左侧导航栏,选择“配置管理 > 资源管理”。单击“新建资源”,在数据开发模块中创建一个资源关联到1的JAR包,资源名称为“spark-example”。 图1 创建资源 提交Spark作业 用户需要在数据开发模块中创建一个作业,通过作业的DLI Spark节点提交Spark作业。
文件上传路径为:lkj_test/input/word.txt。 创建一个数据开发模块空作业,作业名称为“job_MRS_Flink”。 图1 新建作业 进入到作业开发页面,拖动“MRS Flink”节点到画布中并单击,配置节点的属性。 图2 配置MRS Flink节点属性 参数设置说明: --Flink作业名称
一个空间可以创建同一数据源的多个连接吗? 工作空间内允许创建多个同一数据源的连接,但是连接的名字不能相同。 需要注意的是,为便于后续开发过程中选择到正确的数据连接,建议您为连接做好命名区分,避免出现混淆。 父主题: 管理中心
CDM迁移近一个月的数据 备HBase集群中约10TB数据,最近一个月新增的数据量约60TB,总共约70TB。H公司安装的云专线为20GE端口,支持CDM超大规格的集群(cdm.xlarge),综合考虑迁移时间、成本、性能等,这里使用2个CDM超大规格集群并行迁移。CDM集群规格如表1所示。
DES迁移一个月前的历史数据 迁移流程 通过脚本将一个月前的历史数据导入到DES盒子。DES盒子的相关操作请参见数据快递服务 DES。 DES将数据快递到华为云数据中心。 使用华为云CDM将DES中的数据迁移到华为云OBS。 使用华为云CDM将OBS数据迁移到MRS。 其中CDM
私网网段示例 数据源公网IP 其他云数据源的公网IP,请用户根据实际情况自行获取。 14.x.x.x/32 弹性公网IP 资源组不具有公网网段,只能通过公网NAT转换成固定的弹性公网IP以访问公网。若未开通弹性公网IP,请登录弹性公网IP控制台,单击“购买弹性公网IP”,参考通过VP
如何将一个空间的数据开发作业和数据连接迁移到另一空间? 您需要通过导入导出功能,分别将旧空间的数据连接和作业数据导入到新空间内。 数据连接数据,需要在管理中心的资源迁移进行导入导出。具体操作请参考资源迁移。 作业数据,需要在数据开发中将作业导入导出。具体操作请参考导出导入作业。 父主题:
在数据开发子模块中,新建的DLI SQL脚本默认队列是一个已删除的队列,怎么处理? 问题描述 新建的DLI SQL脚本默认队列是一个已删除的队列。 图1 DLI SQL脚本 问题分析 新建的DLI SQL脚本队列显示的逻辑是这样的,在该工作空间,上一次使用DLI SQL脚本或打开DLI
我们用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供
或越权操作,完善服务安全管理。 弹性云服务器服务 DataArts Studio使用弹性云服务器(Elastic Cloud Server,简称ECS)进行CDM集群和数据服务集群的创建,另外DataArts Studio可以通过主机连接在ECS上执行Shell或Python脚本。
私网网段示例 数据源公网IP 本地IDC数据源的公网IP,请用户根据实际情况自行获取。 14.x.x.x/32 弹性公网IP 资源组不具有公网网段,只能通过公网NAT转换成固定的弹性公网IP以访问公网。若未开通弹性公网IP,请登录弹性公网IP控制台,单击“购买弹性公网IP”,参考通过V
要注意如下网络配置: VPC 虚拟私有云。专享版实例需要配置虚拟私有云(VPC),在同一VPC中的资源(如ECS),可以使用专享版实例的私有地址调用API。 在购买时专享版实例时,建议配置和您其他关联业务相同VPC,确保网络安全的同时,方便网络配置。 弹性公网IP 专享版实例的A