检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DataArts Studio数据开发作业告警最佳实践 DataArts Studio数据开发作为大数据调度平台,如果每日频繁调度大量的大数据作业,可能会遇到如下痛点: 作业失败无感知:大数据的离线作业大部分会在凌晨执行,当作业失败时,用户无法及时得知并处理。 作业补数窗口期较短
配置实时网络连接 实时迁移任务配置前,您需要确保用于执行迁移任务的资源组与您将要同步的数据来源端与目的端数据库的网络连通性,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。本文为您介绍数据库在不同网络环境中时,可选用的网络连通方案。 操作场景 DataArts
云服务委托可将相关云服务的操作权限委托给DataArts Studio,让DataArts Studio以您的身份使用这些云服务,代替您进行一些任务调度、资源运维等工作。首次进入DataArts Studio控制台首页时,系统会弹出访问授权的对话框,提示您对未授权的云服务进行访问授权。同意授权后,DataArts
如图,在“运维调度 > 通知管理”中配置了作业异常/失败的SMN通知,但却收不到作业失败的告警通知。 图1 通知管理 解决方案 此时可按以下步骤依次排查: 确认失败作业为调度中的作业。测试运行的作业是不发通知的,只有调度中的作业才会发SMN通知。 在“运维调度 > 通知管理”中
使用CDM导出MongoDB或者DDS的数据时,支持导出指定时间段内的数据,配合CDM的定时任务,可以实现MongoDB/DDS的增量迁移。 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而
使用CDM导出MongoDB或者DDS的数据时,支持导出指定时间段内的数据,配合CDM的定时任务,可以实现MongoDB/DDS的增量迁移。 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而
在数据开发主界面的左侧导航栏,选择“运维调度 > 作业监控”。 单击“批作业监控”页签,进入批作业的监控页面。 通过条件筛选,查询CDM作业的调度执行信息。 通过筛选“CDM作业”可以查询CDM作业的调度执行信息。 通过筛选“节点类型 > CDMJob”可以查询CDMJob节点算子的调度执行信息。 图1
户在IAM中的OBS权限是否具有对象存储服务(OBS)的全局权限,保证用户能够创建桶和操作桶。 解决方案 方式1:用户在对象存储OBS中创建以“dlf-log-{projectID}”命名的桶,并将操作权限赋予调度用户。 OBS路径仅支持OBS桶,不支持并行文件系统。 方式2:在
创建了2个作业,但是为什么无法建立依赖关系? 问题描述 创建2个作业,但是无法建立依赖关系。 原因分析 查看所创建的2个作业的调度周期,确认这2个作业是否均为周调度作业或者月调度作业。目前不支持同周期调度,即周依赖周或者月依赖月的作业,不支持建立依赖关系。 解决方案 如果这2个作业是周依赖周或者月依赖月的
购买作业节点调度次数/天增量包用于增加配额,详情请参见购买作业节点调度次数/天增量包。 二. 您可通过如下方式排查哪些作业调度节点次数较高,然后适当调整调度周期或停止调度即可。 在数据开发模块控制台的左侧导航栏,选择 “运维调度 > 实例监控”,日期选择当天,查看哪些作业调度较多。
批处理作业:按调度计划定期处理批量数据,主要用于实时性要求低的场景。批作业是由一个或多个节点组成的流水线,以流水线作为一个整体被调度。被调度触发后,任务执行一段时间必须结束,即任务不能无限时间持续运行。 批处理作业可以配置作业级别的调度任务,即以作业为一整体进行调度,具体请参见配置作业调度任务(批处理作业)。
DataArts Studio的并行执行节点数与作业节点调度次数/天配额有关,对应关系如下表所示。 其中的作业节点调度次数/天配额可通过DataArts Studio实例卡片上的“更多 > 配额使用量”入口查看,其中的“作业节点调度次数/天”总量即为当前实例配额。 表1 DataArts
控里面的作业运行实例版本显示是0。 提交作业版本。 若任务需要进行周期性调度运行,您需要将任务发布至生产环境。关于任务发布,详情请参见:发布作业任务。 调度作业。 对已编排好的作业设置调度方式。关于调度作业,详情请参见:调度作业。 父主题: 离线处理集成作业开发
Job为作业对象,提供了获取作业中上一节点的输出消息、作业调度计划时间、作业执行时间等属性和方法。 属性和方法 表1 属性说明 属性 类型 描述 name String 作业名称。 planTime java.util.Date 作业调度计划时间,即周期调度配置的时间,例如每天凌晨1:01调度作业。 startTime
数据开发 对数据全生命周期管理的流程诉求较低,需要全托管的大数据调度能力,适用于开发者试用、小规模验证等场景。 初级版:基于DWS的电影评分数据集成与开发流程 DWS 初级版 数据集成+数据开发 用于大数据开发场景的数据ETL任务管理等场景,但不涉及数据治理,适用于开发者试用、小规模验证等场景。
Studio实例使用配额接近或达到规格的情况下,您可以购买如下规格增量包: 作业节点调度次数/天增量包: 不同版本的DataArts Studio实例,提供了不同的作业节点调度次数/天规格限制。该规格是以每天执行的数据开发作业、数据质量监控作业和元数据采集作业的调度次数之和计算的,您可以在新商业模式的DataArts
使用DataArts Studio数据开发,用户可进行数据管理、脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。 数据管理 数据管理 脚本开发 脚本开发 作业开发 作业开发 运维调度 运维调度 步骤7:数据质量监控 对业务指标和数据指标进行监控。您可从完整性、有效性
的待审批任务。您可以通过“查看详情”操作,查看当前任务相比上一版本的修改点。 如有问题,可以通过“撤销”驳回发布任务。由开发者修改后重新提交发布任务,再度进行审批。 确认发布任务没有问题后,请通过“发布”操作,将任务审批通过。 图1 审批发布 成功发布之后,您可以查看任务的发布状
例阈值,来决定任务是否成功。 CDM迁移原理 用户使用CDM服务时,CDM管理系统在用户VPC中发放全托管的CDM实例。此实例仅提供控制台和Rest API访问权限,用户无法通过其他接口(如SSH)访问实例。这种方式保证了CDM用户间的隔离,避免数据泄漏,同时保证VPC内不同云服
的后续作业实例都会处于等待运行状态。 是否空跑 否 如果勾选了空跑,该节点不会实际执行,将直接返回成功。 任务组 否 选择任务组。任务组配置好后,可以更细粒度的进行当前任务组中的作业节点的并发数控制,比如作业中包含多个节点、补数据、重跑等场景。 父主题: 节点参考