检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
重置节点后无法正常使用? 问题现象 当ModelArts Lite的CCE集群在资源池上只有一个节点,且用户设置了volcano为默认调度器时,在ModelArts侧进行重置节点的操作后,节点无法正常使用,节点上的POD会调度失败。 原因分析 在ModelArts侧进行节点重置后
自定义镜像训练作业配置节点间SSH免密互信 当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时,需配置训练作业节点间SSH免密互信,否则训练会失败。 配置节点间SSH免密互信涉及代码适配和训练作业参数配置,本文提供了一个操作示例。 准备一个预装OpenSSH的自
节点当前状态。可选值如下: Available:节点可用 Creating:节点创建中 Deleting:节点删除中 Abnormal:节点不正常 Checking: 节点自检中 az String 节点所在的可用区。 privateIp String 节点的IP地址。 resources NodeResource
对单个节点的资源释放。不支持批量释放处于宽限期的节点。 部分“包年/包月”节点会出现“删除”按钮,原因是该节点为存量节点,单击“删除”即可实现节点的资源释放。 删除/退订/释放节点可能导致该节点上运行的作业失败,请保证该节点无任务运行时再进行操作。 当资源池中存在异常节点时,可通
Cluster节点池 为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点。 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。 图1 节点池管理 创建节点池 当
NPU升级。 节点正在执行NPU驱动升级。 A200008 节点管理 节点准入 准入检测。 节点正在进行节点准入检测,包括基本的节点配置检查和简单的业务验证。 A050933 节点管理 容错Failover 当节点具有该污点时,会将节点上容错(Failover)业务迁移走。 当节点标记该
节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1 节点管理 绑定弹性公网IP。 若已有未绑定的弹性公网IP,直接选择即可。如果没有可用的弹性公网IP,需要先购买弹性公网IP,具体操作请参见申请弹性公网IP。 图2 弹性公网IP 单击“购买弹性公网IP”,进入购买页。
ibstat查看网卡非Active状态。 可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 配置节点告警通知 节点故障指标(nt_npg)默认会上报到AOM,您可以在AOM配置短信、邮件等通知方式。 以下步骤基于AOM2.0配置。 登录AOM控制台。 在左侧导航栏选择“告警管理
重试/停止/运行Workflow节点 重试/停止/继续运行Workflow节点 重试 当单个节点运行失败时,用户可以通过重试按钮重新执行当前节点,无需重新启动工作流。在当前节点的运行状况页面,单击“重试”。在重试之前您也可以前往权限管理页面修改配置,节点重试启动后新修改的配置信息可以在当前执行中立即生效。
在ModelArts中1个节点的专属资源池,能否部署多个服务? 支持。 在部署服务时,选择专属资源池,在选择“计算节点规格”时选择“自定义规格”,设置小一些或者选择小规格的服务节点规格,当资源池节点可以容纳多个服务节点规格时,就可以部署多个服务。如果使用此方式进行部署推理,选择的规格务必
配置Lite Server网络 Server创建后,需要进行网络配置,才可使其与Internet通信,本章节介绍网络配置步骤。网络配置主要分为以下两个场景: 单个弹性公网IP用于单个Server服务器:为单台Server服务器绑定一个弹性公网IP,该Server服务器独享网络资源。
是 String 服务状态,取值为: running:running为启动节点实例,只有处于stopped状态的节点实例支持启动。 stopped:stopped为停止节点实例,只有处于running状态的节点实例支持停止。 响应参数 无 请求示例 PUT https://{end
在ModelArts中使用边缘节点部署边缘服务时能否使用http接口协议? 系统默认使用https。如果您想使用http,可以采取以下两种方式: 方式一:在部署边缘服务时添加如下环境变量: MODELARTS_SSL_ENABLED = false 图1 添加环境变量 方式二:在
) ConditionStep支持多条件节点的嵌套使用,用户可以基于不同的场景灵活设计。 条件节点只支持双分支的选择执行,局限性较大,推荐您使用新的分支功能,可以在不添加新节点的情况下完全覆盖ConditionStep的能力,详情请参见配置节点参数控制分支执行章节。 父主题: 构建Workflow多分支运行场景
高可用冗余节点会作为备用节点与节点的故障检测配合使用,为资源池提供故障节点自动切换能力,高可用冗余节点能够在普通节点故障时自动进行切换,切换耗时通常在分钟内。切换后,原“高可用冗余节点”与“故障节点”交换高可用冗余标签,原“高可用冗余节点”自动解隔离成为普通节点,“故障节点”则成为
获取Workflow工作流节点度量信息 功能介绍 获取Workflow工作流节点的度量信息。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /
查找搜索节点 在节点管理页面的搜索栏中,支持通过节点名称、IP地址、资源标签等关键字搜索节点。 设置节点列表显示信息 在节点页面中,单击右上角的设置图标,支持对节点列表中显示的信息进行自定义。 删除/退订/释放节点 具体操作请参见释放游离节点章节。 父主题: 管理Standard专属资源池
Tensorflow多节点作业下载数据到/cache显示No space left 问题现象 创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。 原因分析 TensorFlow多节点任务会启动parameter server(
格、镜像等信息。 在弹性节点Server的节点列表页中,可以查看Server节点的状态、创建时间、计费模式、实例规格名称、核心硬件配置、私网IP地址和绑定的虚拟私有云名称。 图1 查看Server节点 单击某个Server节点名称,进入到Server节点详情页,可以查看更多信息,如表1所示。
查找搜索节点 在节点管理页面的搜索栏中,支持通过节点名称、IP地址、资源标签等关键字搜索节点。 设置节点列表显示信息 在节点页面中,单击右上角的设置图标,支持对节点列表中显示的信息进行自定义。 删除/退订/释放节点 具体操作请参见释放游离节点章节。 父主题: Lite Cluster资源管理