云服务器内容精选
-
创建 CDM 集群 如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为 DataArts Studio 服务CDM组件使用,参考创建集群创建CDM集群。 该场景下,如果CDM集群只是用于迁移OBS数据到 DLI ,不需要迁移其他数据源,则CDM集群所在的VPC、子网、安全组选择任一个即可,没有要求,CDM通过内网访问DLI和OBS。主要是选择CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。
-
指标设计:新建并发布技术指标 在本示例中,您需要新建如表15和表16所示的技术指标: 表15 原子指标 *指标名称 *指标英文名称 数据表 *所属主题 *设定表达式 描述 总车费 sum_total_amount 行程订单 行程事实 sum (总车费) 无 表16 衍生指标 指标 *数据表 *所属主题 *原子指标 统计维度 时间限定 通用限定 基于付款方式维度统计总车费 行程订单 记录统计 总车费 付款方式 无 无 基于费率代码维度统计总车费 行程订单 记录统计 总车费 费率代码 无 无 基于供应商和下车时间维度统计总车费 行程订单 记录统计 总车费 供应商,行程订单.下车时间 无 无 在数据架构控制台,单击左侧导航树中的“技术指标”,进入技术指标页面。 新建一个原子指标“总车费”,用于统计总车费。 在技术指标页面,进入“原子指标”标签页,然后单击“新建”按钮。 在新建原子指标页面配置如下,配置完成后单击“发布”。 图45 原子指标 等待审核人审核通过。审核通过后,原子指标就创建好了。 当原子指标通过审核后,新建以下3个衍生指标。 总车费(付款方式):基于付款方式维度统计总车费 在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。 图46 总车费(付款方式) 总车费(费率代码):基于费率代码维度统计总车费 在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。 图47 总车费(费率代码) 截止当日_总车费(供应商,行程订单.下车时间):基于供应商维度统计总车费 在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。 图48 总车费(供应商) 返回技术指标页面的“衍生指标”标签页后,勾选建好的3个衍生指标,单击“发布”,在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,事实表发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
-
主题设计 在本示例中,主题设计如表2所示,说明如下: 新建1个主题域分组:城市交通。 在主题域分组“城市交通”下,新建4个主题域:行程记录、集团、时空、公共维度。 在主题域“行程记录”下,新建4个业务对象:原始记录、标准记录、行程事实、记录统计。 在主题域“集团”下,新建1个业务对象:供应商。 在主题域“时空”下,新建1个业务对象:时间。 在主题域“公共维度”下,新建1个业务对象:公共维度。 表2 主题设计信息 主题域分组名称(L1) 主题域分组编码(L1) 主题 域名 称(L2) 主题域编码(L2) 业务对象名称(L3) 业务对象编码(L3) 城市交通 city_traffic 行程记录 stroke_reminder 原始记录 origin_stroke 标准记录 stand_stroke 行程事实 stroke_fact 记录统计 stroke_statistic 集团 people 供应商 vendor 时空 time_location 时间 date 公共维度 public_dimension 公共维度 public_dimension 图3 主题设计 操作步骤如下: 登录DataArts Studio控制台。找到已创建的DataArts Studio实例,单击实例卡片上的“进入控制台”。 在工作空间概览列表中,找到所需要的工作空间,单击“数据架构”,进入数据架构控制台。 在数据架构控制台,单击左侧菜单栏的“配置中心”。选择“ 主题流程配置”,使用默认的3层层级。 L1-L7表示主题层级,默认3层,最大7层,最少2层,最后一层是业务对象,其他层级名称可编辑修改。配置中心配置的层级数,将在“主题设计”模块生效。 图4 配置主题层级 在数据架构控制台,单击左侧菜单栏的“主题设计”,进入相应页面后,单击“新建”创建L1层主题,即主题域分组。 图5 新建L1层主题 在弹出窗口中,按图5所示填写参数,然后单击“确定”完成主题域分组的创建。 主题域分组创建完成后,您需要勾选主题域分组,并单击“发布”,发布主题域分组。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,主题域分组发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。 图6 发布主题域分组 在L1层主题“城市交通”下,依次新建4个L2层主题,即主题域:行程记录、集团、时空、公共维度。 以主题域“行程记录”为例,新建主题域的步骤如下,其他主题域也请参照以下步骤进行添加: 选中已创建的L1层主题“城市交通”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。 图7 创建L2层主题 在弹出窗口中,“名称”和“编码”请参照表2中的“主题域名称”和“主题域编码”进行填写,其他参数可根据实际情况进行填写,配置完成后单击“确定”完成主题域的新建。 主题域创建完成后,您需要勾选主题域,并单击“发布”,发布主题域。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,主题域发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。 图8 发布主题域 新建业务对象。 在主题域“行程记录”下,新建4个业务对象:原始记录、标准记录、行程事实、记录统计。 在主题域“集团”下,新建1个业务对象:供应商。 在主题域“时空”下,新建1个业务对象:时间。 在主题域“公共维度”下,新建1个业务对象:公共维度。 以在主题域“行程记录”下新建业务对象“原始记录”为例,新建业务对象的步骤如下,其他业务对象也请参照以下步骤进行添加: 选中已创建的L2层主题“行程记录”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。 在弹出窗口中,“名称”和“编码”请参照表2中的“业务对象名称”和“业务对象编码”进行填写,其他参数可根据实际情况进行填写,配置完成后单击“确定”完成业务对象新建。 业务对象创建完成后,您需要勾选业务对象,并单击“发布”,发布业务对象。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,业务对象发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。 图9 发布业务对象
-
新建数据标准并发布 在本示例中,您需要新建如表7所示的3个数据标准: 表7 数据标准 目录 *标准名称 *标准编码(自定义) *数据类型 数据长度 引用码表 *码表字段 描述 付款方式 付款方式 payment_type 长整型(BIGINT) 无 付款方式 付款方式编码 无 供应商 供应商 vendor 长整型(BIGINT) 无 供应商 供应商id 无 费率 费率代码 rate_code 长整型(BIGINT) 无 费率代码 费率id 无 在数据架构控制台,单击左侧导航树中的“数据标准”,进入数据标准页面。 首次进入“数据标准”页面,需要定制模板,定制的模板后续可以在配置中心进行更改。本示例需要额外勾选“引用码表”,如图所示。 图16 新建数据标准目录 请参考以下步骤,分别新建3个数据标准的目录:付款方式、供应商、费率。 在数据标准页面的目录树上方,单击新建目录,然后在弹出框中输入目录名称“付款方式”并选择目录,单击“确定”完成目录的新建。 图17 新建数据标准目录 请参考以下步骤,分别新建3个数据标准:付款方式、供应商、费率。 在数据标准页面的目录树中,选中所需要的目录,然后在右侧页面中单击“新建”。 在新建数据标准页面中,3个数据标准可分别参考如下配置,配置完成后单击“保存”。在本示例中,数据标准模板只选取了几个参数,您可以参考配置中心的“标准模板管理”定制数据标准模板。 图18 数据标准-付款方式 图19 数据标准-供应商 图20 数据标准-费率代码 返回数据标准页面后,在列表中勾选刚才新建的3个数据标准,然后单击“发布”发布数据标准。 在“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,数据标准发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
-
添加审核人 在数据架构中,数据建模流程中的步骤都需要经过审批,因此,需要先添加审核人。DAYU Administrator角色或该工作空间管理员,具备对应的添加审核人的权限。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 单击左侧导航树中的“配置中心”,进入相应页面后,在“审核人管理”页签,单击“添加”按钮。 选择审核人(工作空间管理员、开发者、自定义角色审批),输入正确的电子邮箱和手机号,单击“确定”完成审核人添加。 您也可以添加自己当前账号为审核人,在后续提交审批的相关操作中,支持进行“自助审批”。根据需要,可以添加多个审核人。 图1 添加审核人
-
创建CDM集群 如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为DataArts Studio服务CDM组件使用,参考创建集群创建CDM集群。 该场景下,如果CDM集群只是用于迁移OBS数据到DLI,不需要迁移其他数据源,则CDM集群所在的VPC、子网、安全组选择任一个即可,没有要求,CDM通过内网访问DLI和OBS。主要是选择CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。
-
操作场景 假设MySQL上有一张表trip_data,保存了自行车骑行记录,里面有起始时间、结束时间,起始站点、结束站点、骑手ID等信息,trip_data表字段定义如图1所示。 图1 MySQL表字段 使用CDM将MySQL中的表trip_data导入到 MRS Hive分区表,流程如下: 在MRS Hive上创建Hive分区表 创建CDM集群并绑定EIP 创建MySQL连接 创建Hive连接 创建迁移作业
-
在MRS Hive上创建Hive分区表 在MRS的Hive上使用下面SQL语句创建一张Hive分区表,表名与MySQL上的表trip_data一致,且Hive表比MySQL表多建三个字段y、ym、ymd,作为Hive的分区字段。SQL语句如下: 1 create table trip_data(TripID int,Duration int,StartDate timestamp,StartStation varchar(64),StartTerminal int,EndDate timestamp,EndStation varchar(64),EndTerminal int,Bike int,SubscriberType varchar(32),ZipCodev varchar(10))partitioned by (y int,ym int,ymd int); Hive表trip_data有三个分区字段:骑行起始时间的年、骑行起始时间的年月、骑行起始时间的年月日,例如一条骑行记录的起始时间为2018/5/11 9:40,那么这条记录会保存在分区trip_data/2018/201805/20180511下面。对trip_data进行按时间维度统计汇总时,只需要对局部数据扫描,大大提升性能。
更多精彩内容
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格