检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
已在MapReduce服务创建MRS集群,确保与DataArts Studio实例网络互通。 已创建CDM集群,详情请参见购买批量数据迁移增量包章节。 创建数据迁移连接 登录DataArts Studio控制台,单击相应工作空间后的“数据集成”。 在集群管理页面,单击所创建集群操作列“作业管理”,进入“作业管理”页面。
For Each节点使用介绍 适用场景 当您进行作业开发时,如果某些任务的参数有差异、但处理逻辑全部一致,在这种情况下您可以通过For Each节点避免重复开发作业。 For Each节点可指定一个子作业循环执行,并通过数据集对子作业中的参数进行循环替换。关键参数如下: 子作业:选择需要循环执行的作业。
For Each节点使用介绍 适用场景 当您进行作业开发时,如果某些任务的参数有差异、但处理逻辑全部一致,在这种情况下您可以通过For Each节点避免重复开发作业。 For Each节点可指定一个子作业循环执行,并通过数据集对子作业中的参数进行循环替换。关键参数如下: 子作业:选择需要循环执行的作业。
开发实时处理单任务MRS Flink SQL作业 对已新建的作业进行开发和配置。 开发单任务模式的实时处理Flink SQL作业,请您参考开发SQL脚本、配置作业参数、保存作业和模板章节。 前提条件 已新建作业。 当前用户已锁定该作业,否则需要通过“抢锁”锁定作业后才能继续开发作
Studio实例下允许创建的工作空间数量配额暂无限制,请您根据业务需求自行规划。 存储作业日志和脏数据依赖于OBS服务。 前提条件 请参见购买DataArts Studio基础包,确认已购买DataArts Studio实例。 背景说明 购买DataArts Studio实例的用户,系统将默认为其创建一个默认的工作空
(可选)获取认证信息 DataArts Studio使用过程中,例如在数据集成创建OBS连接、API调用或问题定位时,您可能需要获取访问密钥、项目ID、终端节点等信息,获取方式如下。 获取访问密钥 您可以通过如下方式获取访问密钥。 登录控制台,在用户名下拉列表中选择“我的凭证”。
新建数据库 数据连接创建完成后,您可以基于数据连接,通过可视化模式或SQL脚本方式新建数据库。 (推荐)可视化模式:您可以直接在DataArts Studio数据开发模块通过No Code方式,新建数据库。 SQL脚本方式:您也可以在DataArts Studio数据开发模块或对
步骤2:数据开发处理 本步骤通过BI报表原始数据,分析10大用户关注最多的产品和10大用户评价最差的商品,然后通过作业定期调度执行并将结果每日导出到表中,以支撑信息分析。 分析10大用户关注最多的产品 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
开发一个Hive SQL作业 本章节介绍如何在数据开发模块上进行Hive SQL开发。 场景说明 数据开发模块作为一站式大数据开发平台,支持多种大数据工具的开发。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能;可
通过内置的正则表达式规则,校验数据表中指定字段的合法情况。 正则表达式校验 通过输入自定义的正则表达式,校验数据表中指定字段的合法情况。 IP地址校验 通过内置的正则表达式规则,校验数据表中指定字段的合法情况。 电话格式校验 通过内置的正则表达式规则,校验数据表中指定字段的合法情况。
“mysqltestlink”。创建连接到DWS的连接,例如连接名称为“dwstestlink”。 运行下述代码,依赖HttpClient包,建议使用4.5版本。Maven配置如下: <project> <modelVersion>4.0.0</modelVersion> <groupId>cdm</groupId>
配置开发生产环境隔离 配置两套数据湖服务,进行开发与生产环境隔离。 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS等),DataArts Studio通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务,在开发和生产流程中自动切换对应的数据湖。
新建整库迁移作业 操作场景 CDM支持在同构、异构数据源之间进行整库迁移,迁移原理与新建表/文件迁移作业相同,关系型数据库的每张表、Redis的每个键前缀、Elasticsearch的每个类型、MongoDB的每个集合都会作为一个子任务并发执行。 整库迁移作业每次运行,会根据整库
新建离线处理集成作业 约束限制 离线处理集成作业不支持在企业模式下运行。 离线处理集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 操作步骤 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts
步骤1:数据准备 使用DataArts Studio前的准备 如果您是第一次使用DataArts Studio,请参考购买并配置DataArts Studio章节完成注册华为账号、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列