检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
重置节点后无法正常使用? 问题现象 当ModelArts Lite的CCE集群在资源池上只有一个节点,且用户设置了volcano为默认调度器时,在ModelArts侧进行重置节点的操作后,节点无法正常使用,节点上的POD会调度失败。
可选值如下: Available:节点可用 Creating:节点创建中 Deleting:节点删除中 Abnormal:节点不正常 Checking: 节点自检中 az String 节点所在的可用区。 privateIp String 节点的IP地址。
Standard资源池节点故障定位 节点故障定位 对于Standard资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。
每天累计替换的次数不超过资源池节点总数的20%,同时替换的节点数不超过资源池节点总数的5%。 替换节点时需确保有空闲节点资源,否则替换可能失败。 当操作记录里有节点处于重置中时,该资源池无法进行替换节点操作。 重置节点 “节点管理”页签中提供节点重置的功能。
stopped:stopped为停止节点实例,只有处于running状态的节点实例支持停止。
配置多分支节点数据 功能介绍 仅用于存在多分支执行的场景,在编写构建工作流节点时,节点的数据输入来源暂不确定,可能是多个依赖节点中任意一个节点的输出。只有当依赖节点全部执行完成后,才会根据实际执行情况自动获取有效输出作为输入。
可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。 NT_NPU_NET NPU 链路 npu dcmi net异常。 NPU网络链接异常。 可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。
管理Lite Cluster节点池 为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点。 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。
什么是边缘节点? 边缘节点是您自己的边缘计算设备,用于运行边缘应用,处理您的数据,并安全、便捷地和云端应用进行协同。 父主题: 边缘服务
获取Workflow工作流节点度量信息 功能介绍 获取Workflow工作流节点的度量信息。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
重试/停止/运行Workflow节点 重试/停止/继续运行Workflow节点 重试 当单个节点运行失败时,用户可以通过重试按钮重新执行当前节点,无需重新启动工作流。在当前节点的运行状况页面,单击“重试”。
IEF节点边缘服务部署失败 问题现象 部署边缘服务时,出现“异常”状态。 原因分析1 部署边缘服务时,使用到IEF纳管的边缘节点,就需要用户给ModelArts的委托赋予Tenant Administrator权限,否则将无法成功部署边缘服务。具体可参见IEF的权限说明。
部署在线服务时,您可以选择性能更好的“计算节点规格”提高预测速度。例如使用GPU资源代替CPU资源。 部署在线服务时,您可以增加“计算节点个数”。 如果节点个数设置为1,表示后台的计算模式是单机模式;如果节点个数设置大于1,表示后台的计算模式为分布式的。
故障节点处理方式 替换节点:替换节点后,节点名称会发生变化。原有节点会被释放掉。在资源池详情页的“节点”页签中提供了对单个节点替换的功能。可单击节点页签操作列的“替换”,即可实现对单个节点的替换。替换节点操作不会收取费用。 单击“操作记录”可查看当前资源池替换节点的操作记录。
例如:需要根据训练节点输出的精度信息来决定是重新训练还是进行模型的注册操作时可以使用该节点来实现流程的控制。
1个节点的专属资源池,能否部署多个服务? 支持。 在部署服务时,选择专属资源池,在选择“计算节点规格”时选择“自定义规格”,设置小一些或者选择小规格的服务节点规格,当资源池节点可以容纳多个服务节点规格时,就可以部署多个服务。
专属资源池购买后,中途扩容了一个节点,如何计费? 华为云会重新计算一个增加了该节点的账单,付费以后才能使用。 父主题: Standard资源池
勾选节点名称,选择节点列表上方的“添加/编辑资源标签”或“删除资源标签”,操作单个节点或批量操作节点资源标签。 查找搜索节点 在节点管理页面的搜索栏中,支持通过节点名称、IP地址、资源标签等关键字搜索节点。
Tensorflow多节点作业下载数据到/cache显示No space left 问题现象 创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。
勾选节点名称,选择节点列表上方的“添加/编辑资源标签”或“删除资源标签”,操作单个节点或批量操作节点资源标签。 查找搜索节点 在节点管理页面的搜索栏中,支持通过节点名称、IP地址、资源标签等关键字搜索节点。