检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Studio通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务,在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务,且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致,详细操作请参见创建DataArts Studio数据连接。 创建数据连
如果生成API时设置入参位置为Static,则还需设置静态参数值。如果未配置Static参数值,则SDK调用时会使用API入参默认值,API工具调用时会导致缺少Static参数值的报错。 图2 添加授权 授权成功后,可以在应用管理详情页面查看已绑定的API。 如果已绑定API列表中
mrs:cluster:list 创建MRS数据连接 VPC vpc:publicIps:get vpc:publicIps:list vpc:vpcs:get vpc:subnets:get 创建MRS数据连接 RDS rds:*:get rds:*:list 创建RDS数据连接 数据集成 VPC vpc:publicIps:get
则需要使用账号给当前用户添加“查看委托列表”的权限。 先创建自定义策略(查询指定条件下的委托列表),再通过给用户组授予自定义策略来进行精细的访问控制。 登录华为云控制台。 在控制台页面,鼠标移动至右上方的账号名,在下拉列表中选择“统一身份认证”。 在左侧导航窗格中,单击“角色授权”>“创建自定义策略”。
数据集成API 集群管理 作业管理 连接管理 附:公共数据结构
系统加固:CDM实例的操作系统进行了特别的安全加固,攻击者无法从Internet访问CDM实例的操作系统。 密钥加密:用户在CDM上创建连接输入的各种数据源的密钥,CDM均采用高强度加密算法保存在CDM数据库。 无中间存储:数据在迁移的过程中,CDM只处理数据映射和转换,而不会存储任何用户数据或片段。
提交作业版本 “提交”会将当前开发态的最新作业保存并提交为版本,并覆盖之前的作业版本。 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
页面,重新关联可用的脚本。 前提条件 删除脚本前,请确保该脚本未被作业使用。 普通删除 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
数据。 单位:%。 0.001%~90% CDM集群实例 1分钟 tomcat_connect tomcat并发连接数 该指标为从物理机层面采集的tomcat并发连接数。 单位:Count/个。 0~2147483647 CDM集群实例 1分钟 tomcat_thread_count
数据管理 数据管理流程 新建数据连接 新建数据库 (可选)新建数据库模式 新建数据表 父主题: 数据开发
参数描述 *资源类型 选择MRS队列或者DLI队列。 *数据连接 选择队列所在的数据连接。如需新建数据连接,请参考创建DataArts Studio数据连接。 *集群名称 仅当资源类型为MRS队列时显示,无需填写, 系统自动匹配数据连接对应的集群名称。 *队列名称 选择需要授权的队列名称。
产品优势 一站式数据运营平台 贯穿数据全流程的一站式治理运营平台,提供全域数据集成、标准数据架构、连接并萃取数据价值、全流程数据质量监控、统一数据资产管理、数据开发服务等,帮助企业构建完整的数据中台解决方案。 全链路数据治理管控 数据全生命周期管控,提供数据架构定义及可视化的模型
业务指标监控 业务指标监控是对业务指标数据进行质量管理的有效工具,可以灵活的创建业务指标、业务规则和业务场景,实时、周期性进行调度,满足业务的数据质量监控需求。 数据质量监控 数据质量监控是对数据库里的数据质量进行质量管理的工具,您可以配置数据质量检查规则,在线监控数据准确性。 数据
BOOLEAN BOOLEAN - TINYINT INT TINYINT(1)默认会转成BOOLEAN类型,可通过在管理中心MySQL数据连接中添加“连接属性”使其仍保持转成TINYINT(1):tinyInt1isBit = false。 TINYINT UNSIGNED INT -
附:公共数据结构 连接参数说明 源端作业参数说明 目的端作业参数说明 作业任务参数说明 父主题: 数据集成API
split(StringUtil.split(Job.getNodeOutput("count95"),"]")[0],"[")[0],"\\"")[0]} 配置方法 登录DataArts Studio控制台,找到所需要的DataArts Studio实例,单击实例卡片上的“进入控制台”,进入概览页面。 选择
业》创建Spark SQL作业。 图2 创建Spark SQL单任务作业 配置与Hudi相对应的Spark数据连接,并选中需要操作Hudi表对应的数据库。 图3 配置连接与数据库 根据实际情况配置compaction的调度周期。 图4 配置调度周期 填写Spark SQL的compaction语句,提交并运行作业。
操作数据连接、数据集成任务,角色的权限说明请参见权限列表。 配置DLI云服务跨源场景委托权限。 实时数据集成与数据湖探索(DLI)云服务底层使用统一纳管集群资源,首次使用时需要通过DLI云服务创建跨源场景委托,用于底层计算资源访问和使用本租户VPC、子网、路由、对等连接等权限,详细请参见配置DLI云服务委托权限。
数据集成(CDM作业) 数据集成概述 约束与限制 支持的数据源 创建并管理CDM集群 在CDM集群中创建连接 在CDM集群中创建作业 时间宏变量使用解析 优化迁移性能 关键操作指导 使用教程 常见错误码参考
化文本,由于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统,且“文件格式”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分