云服务器内容精选

  • 创建 CDM 集群 如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为 DataArts Studio 服务CDM组件使用,参考创建集群创建CDM集群。 该场景下,如果CDM集群只是用于迁移OBS数据到 DLI ,不需要迁移其他数据源,则CDM集群所在的VPC、子网、安全组选择任一个即可,没有要求,CDM通过内网访问DLI和OBS。主要是选择CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。
  • 指标设计:新建并发布技术指标 在本示例中,您需要新建如表15和表16所示的技术指标: 表15 原子指标 *指标名称 *指标英文名称 数据表 *所属主题 *设定表达式 描述 总车费 sum_total_amount 行程订单 行程事实 sum (总车费) 无 表16 衍生指标 指标 *数据表 *所属主题 *原子指标 统计维度 时间限定 通用限定 基于付款方式维度统计总车费 行程订单 记录统计 总车费 付款方式 无 无 基于费率代码维度统计总车费 行程订单 记录统计 总车费 费率代码 无 无 基于供应商和下车时间维度统计总车费 行程订单 记录统计 总车费 供应商,行程订单.下车时间 无 无 在数据架构控制台,单击左侧导航树中的“技术指标”,进入技术指标页面。 新建一个原子指标“总车费”,用于统计总车费。 在技术指标页面,进入“原子指标”标签页,然后单击“新建”按钮。 在新建原子指标页面配置如下,配置完成后单击“发布”。 图45 原子指标 等待审核人审核通过。审核通过后,原子指标就创建好了。 当原子指标通过审核后,新建以下3个衍生指标。 总车费(付款方式):基于付款方式维度统计总车费 在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。 图46 总车费(付款方式) 总车费(费率代码):基于费率代码维度统计总车费 在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。 图47 总车费(费率代码) 截止当日_总车费(供应商,行程订单.下车时间):基于供应商维度统计总车费 在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。 图48 总车费(供应商) 返回技术指标页面的“衍生指标”标签页后,勾选建好的3个衍生指标,单击“发布”,在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,事实表发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
  • 新建数据标准并发布 在本示例中,您需要新建如表7所示的3个数据标准: 表7 数据标准 目录 *标准名称 *标准编码(自定义) *数据类型 数据长度 引用码表 *码表字段 描述 付款方式 付款方式 payment_type 长整型(BIGINT) 无 付款方式 付款方式编码 无 供应商 供应商 vendor 长整型(BIGINT) 无 供应商 供应商id 无 费率 费率代码 rate_code 长整型(BIGINT) 无 费率代码 费率id 无 在数据架构控制台,单击左侧导航树中的“数据标准”,进入数据标准页面。 首次进入“数据标准”页面,需要定制模板,定制的模板后续可以在配置中心进行更改。本示例需要额外勾选“引用码表”,如图所示。 图16 新建数据标准目录 请参考以下步骤,分别新建3个数据标准的目录:付款方式、供应商、费率。 在数据标准页面的目录树上方,单击新建目录,然后在弹出框中输入目录名称“付款方式”并选择目录,单击“确定”完成目录的新建。 图17 新建数据标准目录 请参考以下步骤,分别新建3个数据标准:付款方式、供应商、费率。 在数据标准页面的目录树中,选中所需要的目录,然后在右侧页面中单击“新建”。 在新建数据标准页面中,3个数据标准可分别参考如下配置,配置完成后单击“保存”。在本示例中,数据标准模板只选取了几个参数,您可以参考配置中心的“标准模板管理”定制数据标准模板。 图18 数据标准-付款方式 图19 数据标准-供应商 图20 数据标准-费率代码 返回数据标准页面后,在列表中勾选刚才新建的3个数据标准,然后单击“发布”发布数据标准。 在“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,数据标准发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
  • 主题设计 在本示例中,主题设计如表2所示,说明如下: 新建1个主题域分组:城市交通。 在主题域分组“城市交通”下,新建4个主题域:行程记录、集团、时空、公共维度。 在主题域“行程记录”下,新建4个业务对象:原始记录、标准记录、行程事实、记录统计。 在主题域“集团”下,新建1个业务对象:供应商。 在主题域“时空”下,新建1个业务对象:时间。 在主题域“公共维度”下,新建1个业务对象:公共维度。 表2 主题设计信息 主题域分组名称(L1) 主题域分组编码(L1) 主题 域名 称(L2) 主题域编码(L2) 业务对象名称(L3) 业务对象编码(L3) 城市交通 city_traffic 行程记录 stroke_reminder 原始记录 origin_stroke 标准记录 stand_stroke 行程事实 stroke_fact 记录统计 stroke_statistic 集团 people 供应商 vendor 时空 time_location 时间 date 公共维度 public_dimension 公共维度 public_dimension 图3 主题设计 操作步骤如下: 登录DataArts Studio控制台。找到已创建的DataArts Studio实例,单击实例卡片上的“进入控制台”。 在工作空间概览列表中,找到所需要的工作空间,单击“数据架构”,进入数据架构控制台。 在数据架构控制台,单击左侧菜单栏的“配置中心”。选择“ 主题流程配置”,使用默认的3层层级。 L1-L7表示主题层级,默认3层,最大7层,最少2层,最后一层是业务对象,其他层级名称可编辑修改。配置中心配置的层级数,将在“主题设计”模块生效。 图4 配置主题层级 在数据架构控制台,单击左侧菜单栏的“主题设计”,进入相应页面后,单击“新建”创建L1层主题,即主题域分组。 图5 新建L1层主题 在弹出窗口中,按图5所示填写参数,然后单击“确定”完成主题域分组的创建。 主题域分组创建完成后,您需要勾选主题域分组,并单击“发布”,发布主题域分组。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,主题域分组发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。 图6 发布主题域分组 在L1层主题“城市交通”下,依次新建4个L2层主题,即主题域:行程记录、集团、时空、公共维度。 以主题域“行程记录”为例,新建主题域的步骤如下,其他主题域也请参照以下步骤进行添加: 选中已创建的L1层主题“城市交通”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。 图7 创建L2层主题 在弹出窗口中,“名称”和“编码”请参照表2中的“主题域名称”和“主题域编码”进行填写,其他参数可根据实际情况进行填写,配置完成后单击“确定”完成主题域的新建。 主题域创建完成后,您需要勾选主题域,并单击“发布”,发布主题域。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,主题域发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。 图8 发布主题域 新建业务对象。 在主题域“行程记录”下,新建4个业务对象:原始记录、标准记录、行程事实、记录统计。 在主题域“集团”下,新建1个业务对象:供应商。 在主题域“时空”下,新建1个业务对象:时间。 在主题域“公共维度”下,新建1个业务对象:公共维度。 以在主题域“行程记录”下新建业务对象“原始记录”为例,新建业务对象的步骤如下,其他业务对象也请参照以下步骤进行添加: 选中已创建的L2层主题“行程记录”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。 在弹出窗口中,“名称”和“编码”请参照表2中的“业务对象名称”和“业务对象编码”进行填写,其他参数可根据实际情况进行填写,配置完成后单击“确定”完成业务对象新建。 业务对象创建完成后,您需要勾选业务对象,并单击“发布”,发布业务对象。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,业务对象发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。 图9 发布业务对象
  • 添加审核人 在数据架构中,数据建模流程中的步骤都需要经过审批,因此,需要先添加审核人。DAYU Administrator角色或该工作空间管理员,具备对应的添加审核人的权限。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 单击左侧导航树中的“配置中心”,进入相应页面后,在“审核人管理”页签,单击“添加”按钮。 选择审核人(工作空间管理员、开发者、自定义角色审批),输入正确的电子邮箱和手机号,单击“确定”完成审核人添加。 您也可以添加自己当前账号为审核人,在后续提交审批的相关操作中,支持进行“自助审批”。根据需要,可以添加多个审核人。 图1 添加审核人
  • 创建CDM集群 如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为DataArts Studio服务CDM组件使用,参考创建集群创建CDM集群。 该场景下,如果CDM集群只是用于迁移OBS数据到DLI,不需要迁移其他数据源,则CDM集群所在的VPC、子网、安全组选择任一个即可,没有要求,CDM通过内网访问DLI和OBS。主要是选择CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。
  • 操作场景 假设MySQL上有一张表trip_data,保存了自行车骑行记录,里面有起始时间、结束时间,起始站点、结束站点、骑手ID等信息,trip_data表字段定义如图1所示。 图1 MySQL表字段 使用CDM将MySQL中的表trip_data导入到 MRS Hive分区表,流程如下: 在MRS Hive上创建Hive分区表 创建CDM集群并绑定EIP 创建MySQL连接 创建Hive连接 创建迁移作业
  • 在MRS Hive上创建Hive分区表 在MRS的Hive上使用下面SQL语句创建一张Hive分区表,表名与MySQL上的表trip_data一致,且Hive表比MySQL表多建三个字段y、ym、ymd,作为Hive的分区字段。SQL语句如下: 1 create table trip_data(TripID int,Duration int,StartDate timestamp,StartStation varchar(64),StartTerminal int,EndDate timestamp,EndStation varchar(64),EndTerminal int,Bike int,SubscriberType varchar(32),ZipCodev varchar(10))partitioned by (y int,ym int,ymd int); Hive表trip_data有三个分区字段:骑行起始时间的年、骑行起始时间的年月、骑行起始时间的年月日,例如一条骑行记录的起始时间为2018/5/11 9:40,那么这条记录会保存在分区trip_data/2018/201805/20180511下面。对trip_data进行按时间维度统计汇总时,只需要对局部数据扫描,大大提升性能。
  • 创建CDM集群 如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为DataArts Studio服务CDM组件使用,参考创建集群创建CDM集群。 关键配置如下: CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 CDM集群的VPC必须和 云搜索服务 集群所在VPC一致,且推荐子网、安全组也与 云搜索 服务一致。 如果安全控制原因不能使用相同子网和安全组,那么需要确保安全组规则能允许CDM访问云搜索服务集群。