云服务器内容精选

  • 在作业中引用Python脚本 创建一个作业。 选择Python节点,并配置节点属性。 选择已创建好的Python脚本,配置相关节点参数。在“参数”里面可以配置脚本参数,例如: 配置的参数是指执行Python语句时,向语句传递的参数,参数之间使用空格分隔,例如:Microsoft Oracle。此处的“参数”需要在Python语句中引用,否则配置无效。 图5 配置Python节点属性 单击“测试运行”,查看该作业的运行结果。 图6 查看作业运行结果 单击“保存”,作业配置信息创建完成。 单击“提交”,提交版本后对该作业进行调度。
  • 建立主机数据连接 开发Python脚本前,我们需要建立一个到弹性 云服务器ECS 的连接。 参考访问 DataArts Studio 实例控制台登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。 在管理中心页面,单击“数据连接”,进入数据连接页面并单击“创建数据连接”。 参见表1配置相关参数,创建主机连接名称为“ecs”的数据连接,如图1所示。 表1 主机连接 参数 是否必选 说明 数据连接类型 是 主机连接固定选择为主机连接。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 默认全选。全选适用组件后,在支持该数据源的组件内都可以使用本连接。各组件支持的数据源请参考DataArts Studio支持的数据源。 基础与网络连通配置 主机地址 是 Linux操作系统主机的IP地址。 请参考查看云服务器详细信息获取。 绑定Agent 是 选择 CDM 集群,CDM集群提供Agent。 说明: CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 在调度Shell、Python脚本时,Agent会访问E CS 主机,如果Shell、Python脚本的调度频率很高,ECS主机会将Agent的内网IP加入黑名单。为了保障作业的正常调度,强烈建议您使用ECS主机的root用户将绑定Agent(即CDM集群)的内网IP加到/etc/hosts.allow文件里面。 CDM集群的内网IP获取方式请参见查看集群基本信息/修改集群配置。 端口 是 主机的SSH端口号。 Linux操作系统主机的默认登录端口为22,如有修改可通过主机路径“/etc/ssh/sshd_config”文件中的port字段确认端口号。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中已创建的密钥。 数据源认证及其他功能配置 用户名 是 主机的登录用户名。 登录方式 是 选择主机的登录方式: 密钥对 密码 密钥对 是 “登录方式”为“密钥对”时,显示该配置项。 主机的登录方式为密钥对时,您需要获取并上传其私钥文件至OBS,在此处选择对应的OBS路径。 说明: 此处上传的私钥文件应和主机上配置的公钥是一个密钥对,详情请参见密钥对使用场景介绍。 密钥对密码 是 如果密钥对未设置密码,则不需要填写该配置项。 密码 是 “登录方式”为“密码”时,显示该配置项。 主机的登录方式为密码时,填写主机的登录密码。 主机连接描述 否 主机连接的描述信息。 图1 新建主机连接 关键参数说明: 主机地址:已开通ECS主机中开通的ECS主机的IP地址。 绑定Agent:已开通批量数据迁移增量包中开通的CDM集群。 单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。 测试通过后,单击“确定”,创建数据连接。
  • 环境准备 已开通弹性云服务器,并创建ECS,ECS主机名为“ecs-dgc”。 本示例主机选择“CentOS 8.0 64bit with ARM(40GB)”的公共镜像,并且使用ECS自带的Python环境,您可登录主机后使用python命令确认服务器的Python环境。 已开通数据集成增量包,CDM集群名为“cdm-dlfpyhthon”,提供数据开发模块与ECS主机通信的代理。 请确保ECS主机与CDM集群网络互通,互通需满足如下条件: CDM集群与ECS主机同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。 CDM集群与ECS主机处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 此外,您还必须确保该ECS主机与CDM集群所属的企业项目必须相同,如果不同,需要修改工作空间的企业项目。
  • 环境变量 环境变量中支持定义变量和常量,环境变量的作用范围为当前工作空间。 变量是指不同的空间下取值不同,需要重新配置值,比如“工作空间名称”变量,这个值在不同的空间下配置不一样,导出导入后需要重新进行配置。 常量是指在不同的空间下都是一样的,导入的时候,不需要重新配置值。 图1 环境变量 具体应用如下: 在环境变量中已新增一个变量,“参数名”为“sdqw”,“参数值”为“wqewqewqe”。 打开一个已创建好的作业,从左侧节点库中拖拽一个“Create OBS”节点。 在节点属性页签中配置属性。 图2 Create OBS 单击“保存”后,选择“前往监控”页面监控作业的运行情况。
  • 创建CDM集群并绑定EIP 如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为DataArts Studio服务CDM组件使用,参考创建集群创建CDM集群。 关键配置如下: CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 CDM集群所在VPC、子网、安全组,选择与 MRS 集群所在的网络一致。 CDM集群创建完成后,选择集群操作列的“绑定弹性IP”,CDM通过EIP访问MySQL。 图2 集群列表 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。
  • 在MRS Hive上创建Hive分区表 在MRS的Hive上使用下面SQL语句创建一张Hive分区表,表名与MySQL上的表trip_data一致,且Hive表比MySQL表多建三个字段y、ym、ymd,作为Hive的分区字段。SQL语句如下: 1 create table trip_data(TripID int,Duration int,StartDate timestamp,StartStation varchar(64),StartTerminal int,EndDate timestamp,EndStation varchar(64),EndTerminal int,Bike int,SubscriberType varchar(32),ZipCodev varchar(10))partitioned by (y int,ym int,ymd int); Hive表trip_data有三个分区字段:骑行起始时间的年、骑行起始时间的年月、骑行起始时间的年月日,例如一条骑行记录的起始时间为2018/5/11 9:40,那么这条记录会保存在分区trip_data/2018/201805/20180511下面。对trip_data按时间维度统计汇总时,只需要对局部数据扫描,从而提升性能。
  • 操作场景 假设MySQL上有一张表trip_data,保存了自行车骑行记录,里面有起始时间、结束时间,起始站点、结束站点、骑手ID等信息,trip_data表字段定义如图1所示。 图1 MySQL表字段 使用CDM将MySQL中的表trip_data导入到MRS Hive分区表,流程如下: 在MRS Hive上创建Hive分区表 创建CDM集群并绑定EIP 创建MySQL连接 创建Hive连接 创建迁移作业
  • 操作场景 假设MySQL上有一张表trip_data,保存了自行车骑行记录,里面有起始时间、结束时间,起始站点、结束站点、骑手ID等信息,trip_data表字段定义如图1所示。 图1 MySQL表字段 使用CDM将MySQL中的表trip_data导入到MRS Hive分区表,流程如下: 在MRS Hive上创建Hive分区表 创建CDM集群并绑定EIP 创建MySQL连接 创建Hive连接 创建迁移作业
  • 在MRS Hive上创建Hive分区表 在MRS的Hive上使用下面SQL语句创建一张Hive分区表,表名与MySQL上的表trip_data一致,且Hive表比MySQL表多建三个字段y、ym、ymd,作为Hive的分区字段。SQL语句如下: 1 create table trip_data(TripID int,Duration int,StartDate timestamp,StartStation varchar(64),StartTerminal int,EndDate timestamp,EndStation varchar(64),EndTerminal int,Bike int,SubscriberType varchar(32),ZipCodev varchar(10))partitioned by (y int,ym int,ymd int); Hive表trip_data有三个分区字段:骑行起始时间的年、骑行起始时间的年月、骑行起始时间的年月日,例如一条骑行记录的起始时间为2018/5/11 9:40,那么这条记录会保存在分区trip_data/2018/201805/20180511下面。对trip_data进行按时间维度统计汇总时,只需要对局部数据扫描,大大提升性能。
  • 创建CDM集群并绑定EIP 如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为DataArts Studio服务CDM组件使用,参考创建集群创建CDM集群。 关键配置如下: CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 CDM集群创建完成后,选择集群操作列的“绑定弹性IP”,CDM通过EIP访问MySQL。 图1 集群列表 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。
  • 创建CDM集群并绑定EIP 如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为DataArts Studio服务CDM组件使用,参考创建集群创建CDM集群。 关键配置如下: CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 CDM集群创建完成后,选择集群操作列的“绑定弹性IP”,CDM通过EIP访问MySQL。 图1 集群列表 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。
  • 场景二:更新数据目录中的元数据,添加新元数据 用户的数据库中新增了数据表,采集数据源中指定的所有表。 例如新增table4的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table1,table2,table3,table4 按照如下配置,采集任务会采集default下所有的表(table1-table4)。 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”,进入任务管理页面。 在任务管理页面单击“新建”,新建一个元数据采集任务。 配置任务信息,如下图所示。 图3 配置任务信息 单击“下一步”,配置调度属性如下图所示。 图4 配置调度属性 单击“提交”,完成采集任务的创建。 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
  • 场景一:仅添加新元数据 用户的数据库中新增的数据表,采集任务仅采集新增的表。 例如新增table4的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table1,table2,table3,table4 按照下面的配置,采集任务仅会采集table4。(前提:table1-table3已经在数据目录中) 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”,进入任务管理页面。 在任务管理页面单击“新建”,新建一个元数据采集任务。 配置任务信息,如下图所示。 图1 配置任务信息 单击“下一步”,配置调度属性如下图所示。 图2 配置调度属性 单击“提交”,完成采集任务的创建。 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
  • 场景四:更新数据目录中的元数据,添加新元数据 ,并从数据目录中删除元数据 用户的数据库中数据表有删除的情况,采集任务能够删除数据目录中对应的数据表。 例如数据库删除table1的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table2,table3 按照如下配置,采集任务会删除数据目录中的table1。 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”,进入任务管理页面。 在任务管理页面单击“新建”,新建一个元数据采集任务。 配置任务信息,如下图所示。 图7 配置任务信息 单击“下一步”,配置调度属性如下图所示。 图8 配置调度属性 单击“提交”,完成采集任务的创建。 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
  • 场景三:仅更新数据目录中的元数据 用户的数据库中数据表有新增的情况,采集任务仅采集数据目录中已经存在的表。 例如新增table4的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table1,table2,table3 按照如下配置,采集任务仅采集table1,table2和table3。 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”,进入任务管理页面。 在任务管理页面单击“新建”,新建一个元数据采集任务。 配置任务信息,如下图所示。 图5 配置任务信息 单击“下一步”,配置调度属性如下图所示。 图6 配置调度属性 单击“提交”,完成采集任务的创建。 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。