华为云用户手册

  • 约束限制 仅支持Flink1.15版本使用委托授权访问临时凭证: 在创建作业时,请配置作业使用Flink1.15版本 已在作业中配置允许 DLI 访问DEW的委托信息。flink.dli.job.agency.name=自定义委托名称。 自定义委托请参考自定义DLI委托权限。 请注意配置参数不需要用"" 或 '' 包裹。 Flink1.15基础镜像内置了3.1.62版本的huaweicloud-sdk-core。
  • 功能描述 DLI提供了一个通用接口,可用于获取用户在启动Flink作业时设置的委托的临时凭证。该接口将获取到的该作业委托的临时凭证封装到com.huaweicloud.sdk.core.auth.BasicCredentials类中。 获取到的委托的临时认证封装到com.huaweicloud.sdk.core.auth.ICredentialProvider接口的getCredentials()返回值中。 返回类型为com.huaweicloud.sdk.core.auth.BasicCredentials。 仅支持获取AK、SK、SecurityToken。 Flink作业,您可以使用该接口获取自定义委托
  • 约束限制 仅支持Spark3.3.1版本(Spark通用队列场景)使用委托授权访问临时凭证: 在创建作业时,请配置作业使用Spark3.3.1版本 已在作业中配置允许DLI访问DEW的委托信息。spark.dli.job.agency.name=自定义委托名称。 自定义委托请参考自定义DLI委托权限。 请注意配置参数不需要用"" 或 '' 包裹。 Spark3.3.1基础镜像内置了3.1.62版本的huaweicloud-sdk-core。
  • 功能描述 DLI提供了一个通用接口,可用于获取用户在启动Spark作业时设置的委托的临时凭证。该接口将获取到的该作业委托的临时凭证封装到com.huaweicloud.sdk.core.auth.BasicCredentials类中。 获取到的委托的临时认证封装到com.huaweicloud.sdk.core.auth.ICredentialProvider接口的getCredentials()返回值中。 返回类型为com.huaweicloud.sdk.core.auth.BasicCredentials。 仅支持获取AK、SK、SecurityToken。
  • 排查思路 DLI提供优惠的资源套餐包,购买套餐包后,资源按照套餐包类型计费。 套餐包是用户预先购买的资源使用量配额,超出当前套餐包的额度,将自动转为按需收费。 建议您按以下顺序排查原因。 可能原因 处理措施 未购买对应的套餐包 请参考判断是否经购买了对应的套餐包 套餐包额度已用完 请参考判断套餐包额度是否超出 购买的套餐包没有涵盖到DLI所有计费项 请参考判断是否产生了套餐包未涵盖的计费项 如果处理完某个可能原因仍未解决问题,请继续排查其他可能原因。
  • 判断是否经购买了对应的套餐包 目前DLI支持的套餐包类型如表1所示。 不同套餐包抵扣的费用不同,详见套餐包计费。请确认是否已经购买了产生按需费用的计费项所对应的套餐包。 如果未购买,产生按需计费为正常现象;如果已购买,请继续排查判断套餐包额度是否超出。 表1 套餐包类型及适用场景 类型 说明 适用场景 重置规则 扫描数据量套餐包 按照用户每个作业的数据扫描量(单位为“GB”)收取计算费用。 仅适用于default 队列。 扫描数据量套餐的额度按订购周期会重置。 弹性资源池CU时套餐包 按照“CU时”收取计算费用,用户在弹性资源池添加的队列上运行作业时按照弹性资源池CU时计费。 适用于可预估队列使用量的场景、或测试项目等资源消耗不高的场景。 弹性资源池CU时套餐包的额度按订购周期重置。 存储量套餐包 按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。 适用于在DLI 存储表数据的场景,例如时延敏感类的业务将表存储在DLI,使用存储量套餐包可以节省存储费用。 存储套餐的额度每个小时会重置。
  • 计费示例 示例价格仅供参考,实际价格请以DLI产品价格详情中的信息为准。 更多示例参考DLI产品价格详情。 假设用户A预先购买了4000CU时的套餐包,有效期为1个月,在套餐包用完之前,用户A使用CU时的计算资源时,都将从套餐包中扣除。 如果套餐包剩余10CU时,用户使用了16CU时,则其中10CU时将从套餐包中扣除,超出的6CU时按需计费。 计费项1:预付费购买套餐包的费用。 计费项2:超出套餐包6CU时的按需费用,假设使用的是队列资源。使用时长1小时。 按需计费弹性资源池费用计算示例: 4000 CU 时套餐包1190/月。 弹性资源池单价:0.4元/小时,超出的CU:6CUs,时长:1小时。 费用合计:1190+2.4=1192.4元。
  • 套餐包类型及适用场景 表1 套餐包类型及适用场景 类型 说明 适用场景 重置规则 扫描数据量套餐包 按照用户每个作业的数据扫描量(单位为“GB”)收取计算费用。 仅适用于default 队列。 扫描数据量套餐的额度按订购周期会重置。 弹性资源池CU时套餐包 按照“CU时”收取计算费用,用户在弹性资源池添加的队列上运行作业时按照弹性资源池CU时计费。 适用于可预估队列使用量的场景、或测试项目等资源消耗不高的场景。 弹性资源池CU时套餐包的额度按订购周期重置。 存储量套餐包 按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。 适用于在DLI 存储表数据的场景,例如时延敏感类的业务将表存储在DLI,使用存储量套餐包可以节省存储费用。 存储套餐的额度每个小时会重置。 按订购周期重置:如重置周期为月,且按订购周期重置,即如果用户1月5日订购的套餐包,之后每个月5日同一时间重置免费资源。 按自然周期重置:结合重置周期使用,如重置周期为月,且按自然周期重置,即每月1日0点重置免费资源。 DLI的套餐包中仅存储套餐包按自然周期,即每小时重置,其他套餐包按订购周期重置。
  • 计费项 DLI的计费项包括计算计费、存储计费、扫描量计费。DLI的计费详情请参见DLI产品价格详情。您可以通过DLI提供的价格计算器,快速计算出购买资源的参考价格。 表1 DLI计费项 计费项 说明 计算计费 支持三种计费模式: 按照包年/包月的订购周期计费 根据计算资源使用量(CU时)按需计费。 按预购的套餐包计费。 支持包年包月+按需组合使用(超出包周期规格按需计费);支持套餐包+按需计费组合使用(超出套餐包使用量按需计费)。 存储计费 按照存储在DLI服务中的表数据存储量(单位为“GB”)收取存储费用。 在估算存储费用时,请特别注意,DLI采用压缩存储,通常能压缩到原文件大小的 1/5 。DLI存储按照压缩后的大小计费。 如果数据存储在OBS服务中,则DLI服务不收取存储费用,对应的费用由OBS服务收取。 扫描量计费 按照用户每个作业的数据扫描量(单位为“GB”)收取计算费用。 当前仅适用于在默认default队列中提交作业按扫描数据量计费。 CU是弹性资源池的计价单位。 1CU= 1Core 4GMem。不同规格对应的计算能力不一样,规格越高计算能力越好。 default队列中提交作业按扫描数据量计费。
  • 适用场景 通常情况下,建议您针对不同的业务创建项目: 开发项目:在此项目下,大多是工程师开发调试时使用,作业随机性大,数据量小。针对这种情况,建议您使用按CU时计费模式,能够帮您有效控制成本,将资源消耗控制在一定范围内。如果您有短时的专属资源需求,也可以在购买按需队列时勾选专属资源模式,享受资源专属。 生产项目:在此项目下,您的作业相对稳定(经过开发调试再上线),建议您使用包年/包月计费模式,可以更优惠。同时,按需计费的队列,在空闲1小时后(队列空闲是指该队列上没有正在运行的作业),系统会自动释放计算资源,再次使用时,需要重新分配计算资源,可能会耗费5~10min时间。使用包年/包月计费模式则可避免这种情况,节省等待时间。
  • 计费模式 DLI在不同的计费项下有不同的计费模式,具体详见表2说明。 表2 DLI计费模式 计费项 计费模式 计费模式说明 计算计费 包年/包月 按照弹性资源池包年/包月的固定费用计费。 按需计费 按需弹性资源池资源使用CU时进行计费。 计算费用=单价*CU数*小时数 CU时套餐包 DLI提供了弹性资源池CU时套餐包。 CU时套餐包的额度会按订购周期重置。 DLI表的数据存储 按需计费 按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。 存储费用=单价*存储数据量(GB)*小时数 存储套餐包 购买了存储量套餐包,按需使用过程中优先抵扣存储套餐包的规格额度,超过套餐包额度的按照按需计费。存储套餐的额度每个小时会重置。 数据扫描量 按需计费 扫描量计费=单价*扫描量数据(GB) 扫描数据量套餐包 购买了扫描数据量套餐包,按需使用过程中优先抵扣扫描数据量套餐包的规格额度,超过扫描数据量套餐包额度的按照按需计费。扫描数据量套餐的额度会按订购周期重置。 按订购周期重置:如重置周期为月,且按订购周期重置,即如果用户1月5日订购的套餐包,之后每个月5日同一时间重置免费资源。 按自然周期重置:结合重置周期使用,如重置周期为月,且按自然周期重置,即每月1日0点重置免费资源。 DLI的套餐包中仅存储套餐包按自然周期重置,即每小时重置,其他套餐包按订购周期重置。
  • 计费示例 价格仅供参考,实际计算请以 数据湖探索 价格详情中的价格为准。 假设您在2023/04/18 9:59:30购买了一个按需弹性资源池资源(规格:64CUs),并将1TB数据存放在DLI表中。然后在2023/04/18 11:45:46删除队列和DLI表: 第一个计费周期为9:00:00 ~ 10:00:00,该计费周期内的计费时长为1小时。 第二个计费周期为10:00:00 ~ 11:00:00,该计费周期内的计费时长为1小时。 您需要为每个计费周期付费,计费公式如表2所示。 表2 计费公式 资源类型 计费公式 资源单价 计算资源 计算费用=单价*CU数*小时数 请参见DLI产品价格详情。 存储资源 存储费用=单价*存储数据量(GB)*小时数。 请参见DLI产品价格详情。 表3 资源类型 资源类型 计费详情 合计 计算资源 0.4元/小时,实际CUs:64CUs,累计计费时长:2小时 51.2元 存储资源 0.00013889元/小时/GB,实际存储1TB=1000GB,累计计费时长:2小时 0.28元 费用合计:51.48元。
  • 计费构成分析 基于此案例,可详细计算出按需计费和包年/包月两种不同的计费模式的消费情况。 此案例中的单价仅为示例,且计算出的费用为估算值。单价的变动和实际场景中计算出来的费用可能会有偏差。请以华为云官网发布的数据为准。 计费模式 计算规则 付费周期 费用计算 按需计费(专属) 计算费用:计算费用=单价*CU数*小时数 1个月 计算费用:0.4(弹性资源池计算单价:元/时) x 256(CU数) x 24 x 30(小时数) = 73728 元/月 存储费用=单价*存储数据量(GB)*小时数 存储费用:0.00013889(存储单价:元/GB)x 1000(存储数据大小:GB)x 24 x 30(小时数)= 100 元/月 合计 总费用:73828 元/月 包年/包月 计算费用:按照弹性资源池包年/包月的固定费用计费 1个月 计算费用:43520元/月 存储费用:购买了存储量套餐包,按需使用过程中优先抵扣存储套餐包的规格额度,超过套餐包额度的按照按需计费。存储套餐的额度每个小时会重置。 存储费用:100元/月 合计 总费用:43620 元/月 由此可见,购买资源使用包年/包月的方式将为您节省大量成本,购买资源的时长越长优惠越多。
  • 计费场景 某公司用户A申请了256CUs的弹性资源池,并将1TB数据存放在DLI表中。该公司想要了解采用哪种计费模式才是性价比最优的方式。 数据湖 探索服务目前支持三种作业:SQL作业,Flink作业和Spark作业。SQL作业的计费包括存储计费和计算计费,Flink作业和Spark作业的计费只有计算计费。 示例价格仅供参考,实际计算请以DLI产品价格详情中的信息为准。 更多示例参考DLI产品价格详情。
  • 在脚本中调用连接器 在脚本中,调用连接器实现与OCR的对接。 参考开发一个简单脚本实例中操作,创建一个空白脚本。 图5 新建一个空白脚本 在脚本编辑器中,输入如下代码。 //导入该脚本所依赖的标准库文件,ocr是系统预置的标准库。 import * as ocr from 'ocr'; let cli = ocr.newClient("OCR_Test"); try { let url = "https://obs.example.com:443/1.PNG?AccessKeyId=ZK87UUIONJF5ZHWBINUO&Expires=1556001233&Signature=DOwO6djb4Q3EBvCieQFaO3T2GKU%3D&x-obs-security-token=gQpjbi1ub3J0aC0xipYOeC2mcbefHh5I_aMr6DEWQ8-iFyxqatavdiFtYowH-lpJCcxeTynsV_4PTJe9QIx85mlDIDo3sU9PUv3hFtRjQORjGE2PqA4hEtozvMuWxXb5b6RKiFT37-z7NoI4R85XmlTmZGQ6OUZ92bercG5DWEBTDVd3I_UYuNGzF20q6S2COP__Z-uqkhhw8nATd3k6GaIfCqxjcOih_juHBBoM1ON74vpKxCl1sJxnEYbZfkf6FO_xuGaJD7-J7OzD8tsSmFf4jR1TqZFZzrPEc9bkd2bPr8pwOCdDp8Yy0EVauKDvtIXsvzFollOR0rUvZol1sIsQU0gVpFpZyIqYqG6C_qQfXmr5DQwXTsQyifKjXLSj2MbPs6FKLYqu7mj0NhxUVcK5EQh5Vl5x5VHvYGRwgWJL078oXVBKGnQnr05EDHcCiW-6Gris2mHBYdcNmuhJ1UwNekeumBc0S6_33yK-U8OGYLMpR6HnLooyFmtmnOBIIQIkzWfWUNM7nIdWWcPmozJcBZ8iyawE0Cxgz5Xf56hPi-YZda0d1Xu387GA8PBkEPVct1yo5nh2bmVfRH6z0zWzhN-vbFcIHsfYv776DDLKQdSH0Sn-8bHdvPLPd2QieBkgS6wfvTcKMeBA6PwwNBl0Xqds6vQPpSZe6cYyplNuJoY05VLd8tLZMy_bR8Dmf1kArQaSquBzw2eDCfJAazjA4wTnkbccr38k7eM%3D" let resp = cli.idCardWithURL(url, "front"); console.log(resp); } catch (e) { console.log("error: ", e) } 其其中,ocr.newClient("OCR_Test")中,“OCR_Test”为连接器的名称,“url”取值是图片的URL, “front”表示识别的是身份证正面。 单击脚本编辑器页面上方的,保存脚本。 保存成功后,单击,运行脚本。 不用设置输入参数,直接单击测试窗口右上角的。 在输出参数页签,检查是否识别出身份证上文字信息。 识别出身份证上的文字信息,表明成功调用连接器。 单击脚本编辑器页面上方的,启用脚本。
  • 背景信息 文字识别 (Optical Character Recognition,简称OCR)以开放API的方式提供给用户,用户使用Python、Java等编程语言调用OCR服务API将图片识别成文字,帮助用户自动采集关键数据,打造智能化业务系统,提升业务效率。 在AstroZero中,通过应用与华为OCR(Optical Character Recognition)对接,可实现图片或扫描件中文字识别功能。
  • 前台页面常用调测方法 在高级页面的开发中,常借助浏览器内置的 开发者工具 对样式或功能问题进行定位和分析。下面以Chrome浏览器为例,简单介绍浏览器开发者工具中常用的调测方法。在Chrome浏览器中,按下“F12”或者“Ctrl + Shift + I”,开启开发者工具。 DOM和 CSS 样式调试 在Elements面板,可以自由的操作DOM和 CS S,来迭代布局和设计页面。在开发者工具打开的状态下,使用左上角的箭头按钮,可点选页面元素,查看该元素DOM和CSS等。也可以在Elements页签下,修改页面上的元素的DOM标签或CSS样式(修改立即生效),实时查看修改后效果。 图1 Elements页签查看调试DOM和CSS样式 打印日志信息 在Console页签下,可使用控制台打印日志信息。在Sources页签下,调试JavaScript时常用方法是将多个console.log()语句插入代码,重新加载页面后,可以在Console页签中,查看到打印的消息。Sources页签主要包括三个部分,左侧为页面请求文件列表,中间为选择文件的文件内容,右侧为JavaScript调试窗格。 想要在JavaScript中打印日志,需要找到相应文件,查找相关代码,然后插入console.log()。 图2 Sources页签布局 调用低代码平台API 在Console页签下,可使用控制台调用低代码平台提供的API,以获取相关信息进行调试。 图3 调用低代码平台API 断点调试 在Sources页签下,可以设置断点来调试JavaScript。使用断点,DevTools会在暂停时及时显示所有变量值。Chrome开发者工具,提供了代码行断点、条件代码行断点、DOM断点和事件侦听断点等多种断点,请根据调测的实际需求选择合适的断点。断点的类型和使用场景,如表1所示。 表1 Chrome断点类型及使用场景 断点类型 使用场景 代码行 在确切的代码区域中。 条件代码行 在确切的代码区域中,且仅当其他一些条件成立时。 DOM 在更改或移除特定DOM节点或其子级的代码中。 XHR 当XHR网址包含字符串模式时。 事件 在触发点击等事件后运行的代码中。 侦听器 在引发已捕获或未捕获异常的代码行中。 异常函数 任何时候调用特定函数时。 代码行断点调试是最为常见的断点调试方法, 设置代码行断点的方法是找到请求文件,在Sources左侧请求文件列表按照目录查找,也可以借助“Ctrl+F”搜索关键词找到相关文件。在Sources中间文件内容区域,找到要设置断点的代码行,单击行号,出现蓝色图标,这意味着这行代码上有一个代码行断点。如图4所示,在global_BubbleChartWidget.js文件的49行代码处,设置了一个代码行断点。 刷新此网页,脚本运行始终会在执行此行代码之前暂停,可单击右侧调试窗格的按钮进行单步调试,或者单击调试窗格的按钮继续执行脚本。 图4 代码行断点示例 多终端测试 在进行页面自适应测试时,可采用Chrome开发者工具提供的模拟移动设备的功能。借助此功能,可无实物快速对网页进行多个终端测试。 单击,可启动模拟移动设备界面,设备工具栏在打开时默认处于自适应视口模式,可以将视口大小调整为所需的任何尺寸,另外还可以选择多种终端型号。 图5 模拟移动设备
  • 自定义高级组件调试 针对用户本地开发的高级组件,AstroZero提供了Scaffolding脚手架工具,Scaffolding可帮助您快捷实现组件的新建、本地开发、调试、预览、发布和下载等主要功能。 Scaffolding打通了本地开发环境与AstroZero开发环境,实现本地开发组件的实时在线调测,简化了本地开发组件后频繁的打包组件资产包上传至AstroZero环境再查看页面显示效果的过程,可提升高级组件的开发效率。
  • 在脚本中,调用Rest Action Rest Action启用后,可在脚本中调用已创建的Rest Action。 参考登录AstroZero新版应用设计器中操作,登录新版应用设计器。 在左侧导航栏中,选择“逻辑”。 单击脚本后的,设置脚本名称,单击“添加”。 图10 新增一个空脚本 在脚本编辑器中,输入如下代码。 // Here's your code. import * as connector from "connector"; let client = connector.newClient("命名空间__test", "test1"); let result = client.invoke("命名空间_flapRefund", {}); console.log(result) 其中,“命名空间__test”表示连接器的名称,“test1”为创建Rest Service(自定义连接器)配置的认证信息名称,“命名空间__flapRefund”为创建并启用Rest Action中配置的动作名称。 单击脚本编辑器页面上方的,保存脚本。 脚本保存成功后,单击,运行脚本。 在页面底部“输入参数”页签中,输入请求参数,单击测试窗口右上角的。 在“日志”页签,查看打印的日志。
  • 创建并启用Rest Action 通过创建Rest Action,使得系统可以调用第三方提供的Rest协议的接口,实现第三方提供的业务功能。 在创建Rest Service(自定义连接器)中创建的Rest Service列表中,选择Rest Action所在的REST Service,在“动作”页签,单击“新建”。 参照表3,设置动作的基本信息,单击“下一步”。 图4 新建动作设置基本信息 参照表4,设置消息头入参,单击“下一步”。 如果此接口没有消息头输入参数,则不需要配置参数,请删除第一行参数。如果有消息头输入参数,且有多个,请单击。如果之前创建Rest Service时,有定义消息头参数,可选择“从模板中插入”,并定义输入参数的基本信息。消息头入参的参数说明请参见。 图5 消息头入参配置页面 参照表5,设置输入参数,单击“下一步”。 如果此接口没有输入参数,则不需要配置参数,删除第一行参数。如果有输入参数,且有多个,请单击,并定义输入参数的基本信息。 页面上方“消息体格式”参数使用说明:当方法为“PUT”或“POST”时,该参数才会显示。当第三方入参为数组类型或者非JSON类型时,需要将“输入消息体方式”设置为“值”形式。 例如,如果设置“消息体格式”为“键-值”,假设定义了输入参数A、B、C,调用时消息体中传递了参数 {A: 1,B:2, C:3} ,此时被调用方收到的参数信息是 {A: 1,B:2, C:3}。如果设置“输入消息体方式”为“值”,此时默认使用$in输入参数定义,调用时消息体中传递了参数{$in: [1,2,3] },此时被调用方收到的参数信息为[1,2,3]。 图6 输入参数配置页面 参照表6,设置输出参数,单击“保存”。 如果此接口没有输出参数,则不需要配置参数,请删除第一行参数。如果有输出参数,且有多个参数,请单击,并定义输出参数的基本信息。 页面上方“消息体格式”参数使用说明:设置“输出消息体方式”为“值”后,系统会引入一个通用的出参变量“$out”,将body的内容存到“$out”中,作为出参。 例如,若设置“消息体格式”为“键-值”,假设定义了输出参数A、B、C,调用后返回消息体中传递了参数 {A: 1,B:2, C:3} ,此时调用方收到的参数信息是 {A: 1,B:2, C:3};若设置“输出消息体方式”为“值”,此时默认使用$out输出参数定义,调用业务接口返回消息体中传递了参数[1,2,3],此时调用方收到的参数信息为{$out:[1,2,3]}。 图7 输出参数配置页面 在动作页签,单击该Rest Action所在行的,启用Rest Action。 单击“导出”,可导出zip包,zip包中包括该服务的所有Rest接口。单击“导入”,可通过导入yaml文件,导入Rest Action。
  • 创建 CDM 迁移作业 登录控制台,选择实例,单击“进入控制台”,单击相应工作空间后的“数据集成”。 在集群管理页面,单击集群操作列“作业管理”,进入“作业管理”页面,如图1所示。 图1 集群管理 在“连接管理”页签中,单击“新建连接”,分别创建Oracle数据连接和 MRS Hive数据连接,详情请参见新建Oracle数据连接和新建MRS Hive数据连接。 在“表/文件迁移”页签中,单击“新建作业”,创建数据迁移作业。 配置Oracle源端参数、MRS hive目的端参数,并配置传递参数,参数形式为 ${varName},本示例参数为${cur_date},如图2所示。 图2 配置作业 不能在CDM迁移作业中配置“作业失败重试”参数,如有需要请在数据开发中的CDM节点配置“失败重试”参数。
  • 在MRS Hive上创建Hive分区表 在MRS的Hive上使用下面SQL语句创建一张Hive分区表,表名与MySQL上的表trip_data一致,且Hive表比MySQL表多建三个字段y、ym、ymd,作为Hive的分区字段。SQL语句如下: 1 create table trip_data(TripID int,Duration int,StartDate timestamp,StartStation varchar(64),StartTerminal int,EndDate timestamp,EndStation varchar(64),EndTerminal int,Bike int,SubscriberType varchar(32),ZipCodev varchar(10))partitioned by (y int,ym int,ymd int); Hive表trip_data有三个分区字段:骑行起始时间的年、骑行起始时间的年月、骑行起始时间的年月日,例如一条骑行记录的起始时间为2018/5/11 9:40,那么这条记录会保存在分区trip_data/2018/201805/20180511下面。对trip_data按时间维度统计汇总时,只需要对局部数据扫描,从而提升性能。
  • 操作场景 假设MySQL上有一张表trip_data,保存了自行车骑行记录,里面有起始时间、结束时间,起始站点、结束站点、骑手ID等信息,trip_data表字段定义如图1所示。 图1 MySQL表字段 使用CDM将MySQL中的表trip_data导入到MRS Hive分区表,流程如下: 在MRS Hive上创建Hive分区表 创建CDM集群并绑定EIP 创建MySQL连接 创建Hive连接 创建迁移作业
  • 创建CDM集群并绑定EIP 如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为 DataArts Studio 服务CDM组件使用,参考创建集群创建CDM集群。 关键配置如下: CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 CDM集群所在VPC、子网、安全组,选择与MRS集群所在的网络一致。 CDM集群创建完成后,选择集群操作列的“绑定弹性IP”,CDM通过EIP访问MySQL。 图2 集群列表 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。
  • 规格与限制 指标项 限制值 文件管理中上传的文件大小 最多100Kb 上传文件管理的文件个数 最多20个 模板数 最多5000个/租户 自定义镜像 大小 最多5G 单租户下编译构建任务数 最多10000个 单租户下最大并发执行数 不同套餐规格不同。具体可参考套餐规格特性差异。 体验版:最多1个 基础版:最多5个 专业版:最多10个 企业版:最多20个 构建任务执行次数/年 不限制 单个构建任务最大支持构建步骤数 最多50个 说明: 北京区域当前只支持30个。 单个构建任务最大并发执行数 不同套餐规格不同。具体可参考套餐规格特性差异。 体验版:最多1个 基础版:最多5个 专业版:最多10个 企业版:最多20个 单次构建最大时长 不同套餐规格不同。具体可参考套餐规格特性差异。 体验版:最多30分钟 基础版:最多60分钟 专业版:最多240分钟 企业版:最多360分钟 构建任务历史执行记录保留时长 最多1个月 单个构建任务加速最大并发CPU核数 最多256 说明: 最大并发CPU核数,即make -j后面的数字。 浏览器类型 目前适配的主流浏览器类型包括: Chrome浏览器:支持最新的3个版本。 Firefox浏览器:支持最新的3个版本。 Microsoft Edge浏览器:Win10默认浏览器,支持最新的3个版本。 IE浏览器:不再进行支持与测试。 推荐使用Chrome、Firefox浏览器,效果会更好。 分辨率大小 推荐使用1280*1024以上。
  • 使用须知 如果您使用CodeArts Build服务开展在特定行业的业务,比如:教育、医疗和银行等,需同时遵守相关国家规定的用户数据保护法律和内容管理法律。 禁止通过CodeArts Build服务对外部视频或音频网页爬取、加工或上传数据。 禁止通过CodeArts Build服务进行源代码编译构建之外的操作。 禁止使用sleep、usleep、read、timeout、yes、dd、while循环等命令长期(超过10分钟)占用服务器进程。
  • 责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的 云安全 挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的IaaS、PaaS和SaaS类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。华为云租户的安全责任在于对使用的IaaS、PaaS和SaaS类云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、 虚拟主机 和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础设施安全、租户服务与租户安全、工程安全、运维运营安全、生态安全。 图1 华为云安全责任共担模型 父主题: 安全
  • 入门实践 当您参考购买并配置DataArts Studio章节完成 注册华为账号 、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列操作后,可以根据自身的业务需求使用DataArts Studio提供的一系列常用实践。 表1 常用最佳实践 实践 描述 数据迁移 数据迁移进阶实践 本最佳实践提供了数据集成CDM组件的高阶使用技巧,例如如何实现增量迁移、时间宏变量表达式写法等。 数据开发 数据开发进阶实践 本最佳实践提供了数据开发DLF组件的高阶使用技巧,例如如何使用IF条件判断、For Each节点使用等。 DataArts Studio+X 跨工作空间的DataArts Studio数据搬迁 实例内的工作空间包含了完整的功能,工作空间的划分通常按照分子公司(集团、子公司、部门等)、业务领域(采购、生产、销售等)或者实施环境(开发、测试、生产等),没有特定的划分要求。 随着业务的不断发展,您可能进行了更细致的工作空间划分。这种情况下,您可以参考本文档,将原有工作空间的数据(包含管理中心数据连接、数据集成连接和作业、数据架构表、数据开发脚本、数据开发作业、数据质量作业等),搬迁到新建的工作空间中。 如何授权其他用户使用DataArts Studio 某数据运营工程师负责本公司的数据质量监控,仅需要数据质量组件的权限。管理员如果直接赋予该数据运营工程师“开发者”的预置角色,则会出现其他组件权限过大的风险。 为了解决此问题,项目管理员可以创建一个基于“开发者”预置角色的自定义角色“Developer_Test”,在“开发者”角色权限的基础上为其去除其他组件的增删改及操作权限,并赋予该数据运营工程师此角色,既能满足实际业务使用,也避免了权限过大的风险。 如何查看表行数和库大小 在 数据治理 流程中,我们常常需要统计数据表行数或数据库的大小。其中,数据表的行数可以通过SQL命令或数据质量作业获取;数据库大小可以直接在数据目录组件中查看,详情可参考本实践。 通过数据质量对比数据迁移前后结果 数据对账对数据迁移流程中的数据一致性至关重要,数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。本文以DWS数据迁移到MRS Hive分区表为例,介绍如何通过DataArts Studio中的数据质量模块实现数据迁移前后的一致性校验。 通过数据开发使用参数传递灵活调度CDM作业 如果CDM作业接收来自数据开发作业配置的参数,则在数据开发模块可以使用诸如EL表达式传递动态参数来调度CDM作业。 通过数据开发实现数据增量迁移 DataArts Studio服务的DLF组件提供了一站式的大数据协同开发平台,借助DLF的在线脚本编辑、周期调度CDM的迁移作业,也可以实现增量数据迁移。本文以DWS导入到OBS为例,介绍DLF配合CDM实现增量迁移的流程 通过CDM节点批量创建分表迁移作业 业务系统中,数据源往往会采用分表的形式,以减少单表大小,支持复杂的业务应用场景。在这种情况下,通过CDM进行数据集成时,需要针对每张表创建一个数据迁移作业。您可以参考本教程,通过数据开发模块的For Each节点和CDM节点,配合作业参数,实现批量创建分表迁移作业。 基于MRS Hive表构建图数据并自动导入GES 在DataArts Studio中,您可以将原始数据表按照GES数据导入要求处理为标准点数据集和边数据集,并通过自动生成元数据功能,将图数据(点数据集、边数据集和元数据)定期导入到GES服务中,在GES中对最新数据进行可视化图形分析。 案例 案例:贸易数据统计与分析 使用 云数据迁移 (Cloud Data Migration,简称CDM)将本地贸易统计数据导入到OBS,再使用数据湖探索(Data Lake Insight,简称DLI)进行贸易统计分析,帮助H咨询公司以极简、极低成本构建其大数据分析平台,使得该公司更好地聚焦业务,持续创新。 案例:车联网大数据业务上云 为搭建H公司车联网业务集团级的云管理平台,统一管理、部署硬件资源和通用类软件资源,实现IT应用全面服务化、云化,CDM(Cloud Data Migration,简称CDM)助力H公司做到代码“0”改动、数据“0”丢失迁移上云。 案例:搭建实时报警平台 在本实践用户可以了解到如何搭建一个简单的实时报警平台,该平台将应用多个云服务,结合数据开发模块的作业编辑和作业调度功能来实现。
  • 业务调研 在开始使用DataArts Studio前,您可以通过业务调研,明确业务过程中所需的DataArts Studio组件功能,并分析后续的业务负载情况。 表1 业务调研表 序号 收集项 需收集信息描述 调研结果 填写说明 1 工作空间 企业大数据相关部门的组织和关系调查 本示例不涉及 用于合理规划工作空间,降低空间相互依赖的复杂度 各组织部门之间对数据、资源的访问控制 本示例不涉及 涉及到用户的权限和资源权限控制 2 数据集成 有哪些数据源要迁移,数据源版本 CSV格式的数据,存储于OBS桶 - 每种数据源的数据全量数据规模 2,114 字节 - 每种数据源每天的增量数据规模 本示例不涉及 - 迁移目的端数据源种类以及版本 迁移到MRS Hive3.1 - 数据的迁移周期:天、小时、分钟还是实时迁移 天 - 数据源与目的数据源之间的网络带宽 100MB - 数据源和集成工具之间的网络连通性描述 本示例不涉及 - 数据库类迁移,调研表的个数,最大表的规模 本示例不涉及,本示例需要从OBS文件迁移到数据库 了解数据库迁移的作业规模,了解最大表的迁移时间是否可接受 文件类迁移,文件的个数,有没有单文件超过TB级文件 本示例的CSV文件仅1个,未超过TB级 - 3 数据开发 是否需要作业编排调度? 是 - 编排调度会涉及哪些服务,例如MRS、DWS、CDM等? 本示例涉及DataArts Studio数据集成和数据质量、MRS Hive 了解作业的场景,用于进一步调查平台能力与客户场景匹配度 作业数量规模是多少? 本示例作业数量在20个以内 大致了解作业的规模,通常用算子数来描述,可通过表的数量估计 每日作业调度次数是多少? 没有特殊要求,次数不限 根据DataArts Studio各销售版本的调度限额,确定DataArts Studio的版本 数据开发人员的数量是多少? 1个 - 4 数据架构 数据现状,有哪些数据源,多少张表? 本示例的CSV文件仅1个 原始端分析, 了解数据来源与整体概况 业务需求,有哪些业务,有什么需求, 想要获得什么价值? 数据标准化、模型标准化,并灵活统计收入情况 目的端分析,了解数据治理以及数字化是为了什么 数据调研,数据概况,数据标准程度,行业标准概况? 本示例不涉及 过程端分析,了解数据治理过程需要做到的标准与质量的遵从 5 数据质量 有哪些需求,需要获得什么价值? 监控数据质量 支持更多数据源和更多规则的监控 作业数量规模是多少? 本示例仅1个 用户可手动创建几十个作业,也可以在数据架构中配置自动生成数据质量作业。如果调用数据质量监控的创建接口,则可创建超过100个质量作业 用户的使用场景? 对DWI层数据进行标准化清洗 一般在数据加工前后,对数据的质量通过六大维度的规则进行质量监控,当发现不符合规则的异常数据时向用户发送报警 6 数据目录 需要支持哪些数据源? MRS Hive - 数据资产的数量规模有多大? 本示例表在百级以内 最大可支持100w数据表的管理 元数据采集的调度频率是多少? 本示例不涉及 支持按照小时、天、周为周期运行采集任务 元数据采集的重要指标包括什么? 本示例不涉及 表名称、字段名称、责任人、描述信息、创建时间等 标签的使用场景是什么? 本示例不涉及 标签是相关性很强的关键字,帮助用户对资产进行分类和描述,方便用户进行查询 7 数据安全 需要对哪些数据源进行访问管理? 本示例不涉及 仅支持对MRS中HDFS、Hive、HBase、Yarn、Kafka、Storm、Elasticsearch七大主要服务提供权限访问控制 需要识别哪些数据密级? 本示例不涉及 支持最大定义10个数据密级 需要对哪些数据源数据进行脱敏? 本示例需要将MRS标准数据出行表脱敏至DWS 仅支持对DWS和MRS数据源数据进行脱敏。 需要对哪些数据源数据进行水印管理? 本示例不涉及 仅支持对DWS和MRS数据源数据进行水印嵌入。 8 数据服务 需要开放哪些数据源数据? 收入汇总表 这些数据源一般存储的为 数据仓库 建设后的最后一层的表。这种表一般业务含金量比较高,记录条数比较少,可以直接展示 每日数据调用量是多少? 本示例不涉及 若取数逻辑复杂造成数据库响应时间较长,调用量会下降 每秒数据调用量峰值是多少? 本示例不涉及 根据不同规格和具体的取数逻辑有所增减 单次数据调用平均时延是多少? 本示例不涉及 数据库响应耗时与用户取数逻辑相关 是否需要数据访问记录? 本示例不涉及 - 数据访问方式,内网还是外网? 本示例不涉及 - 数据服务开发人员数量是多少? 1 -
  • 需求分析 通过需求分析,可以提炼出数据治理流程的实现框架,支撑具体数据治理实施流程的设计。 在本示例场景下,当前面临的数据问题如下: 未建立标准化模型 数据字段命名不标准、不规范 数据内容不标准,数据质量不可控 统计口径不一致,困扰业务决策 通过DataArts Studio实施数据治理,期望能够达到以下目标: 数据标准化、模型标准化 统一统计口径,提供高质量数据报告 数据质量监控告警 统计每天收入 统计某月收入 统计不同支付类型收入占比
共100000条