检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
重置节点后无法正常使用? 问题现象 当ModelArts Lite的CCE集群在资源池上只有一个节点,且用户设置了volcano为默认调度器时,在ModelArts侧进行重置节点的操作后,节点无法正常使用,节点上的POD会调度失败。 原因分析 在ModelArts侧进行节点重置后
节点当前状态。可选值如下: Available:节点可用 Creating:节点创建中 Deleting:节点删除中 Abnormal:节点不正常 Checking: 节点自检中 az String 节点所在的可用区。 privateIp String 节点的IP地址。 resources NodeResource
NPU升级。 节点正在执行NPU驱动升级。 A200008 节点管理 节点准入 准入检测。 节点正在进行节点准入检测,包括基本的节点配置检查和简单的业务验证。 A050933 节点管理 容错Failover 当节点具有该污点时,会将节点上容错(Failover)业务迁移走。 当节点标记该
每天累计替换的次数不超过资源池节点总数的20%,同时替换的节点数不超过资源池节点总数的5%。 替换节点时需确保有空闲节点资源,否则替换可能失败。 当操作记录里有节点处于重置中时,该资源池无法进行替换节点操作。 重置节点 “节点管理”页签中提供节点重置的功能。单击操作列的“重置”,可实现对单个节点的重置。
是 String 服务状态,取值为: running:running为启动节点实例,只有处于stopped状态的节点实例支持启动。 stopped:stopped为停止节点实例,只有处于running状态的节点实例支持停止。 响应参数 无 请求示例 PUT https://{end
可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。 NT_NPU_NET NPU 链路 npu dcmi net异常。 NPU网络链接异常。 可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。 NT_NPU_CARD_LOSE NPU 掉卡 NPU卡丢失。 节点规格的N
Cluster节点池 为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点。 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。 图1 节点池管理 创建节点池 当
获取Workflow工作流节点度量信息 功能介绍 获取Workflow工作流节点的度量信息。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /
配置多分支节点数据 功能介绍 仅用于存在多分支执行的场景,在编写构建工作流节点时,节点的数据输入来源暂不确定,可能是多个依赖节点中任意一个节点的输出。只有当依赖节点全部执行完成后,才会根据实际执行情况自动获取有效输出作为输入。 使用案例 from modelarts import
什么是边缘节点? 边缘节点是您自己的边缘计算设备,用于运行边缘应用,处理您的数据,并安全、便捷地和云端应用进行协同。 父主题: 边缘服务
IEF节点边缘服务部署失败 问题现象 部署边缘服务时,出现“异常”状态。 原因分析1 部署边缘服务时,使用到IEF纳管的边缘节点,就需要用户给ModelArts的委托赋予Tenant Administrator权限,否则将无法成功部署边缘服务。具体可参见IEF的权限说明。 处理方法1
高可用冗余节点会作为备用节点与节点的故障检测配合使用,为资源池提供故障节点自动切换能力,高可用冗余节点能够在普通节点故障时自动进行切换,切换耗时通常在分钟内。切换后,原“高可用冗余节点”与“故障节点”交换高可用冗余标签,原“高可用冗余节点”自动解隔离成为普通节点,“故障节点”则成为
1个节点的专属资源池,能否部署多个服务? 支持。 在部署服务时,选择专属资源池,在选择“计算节点规格”时选择“自定义规格”,设置小一些或者选择小规格的服务节点规格,当资源池节点可以容纳多个服务节点规格时,就可以部署多个服务。如果使用此方式进行部署推理,选择的规格务必满足模型的要求
重试/停止/运行Workflow节点 重试/停止/继续运行Workflow节点 重试 当单个节点运行失败时,用户可以通过重试按钮重新执行当前节点,无需重新启动工作流。在当前节点的运行状况页面,单击“重试”。在重试之前您也可以前往权限管理页面修改配置,节点重试启动后新修改的配置信息可以在当前执行中立即生效。
tion比较的结果为true时允许执行的节点列表,存储的是节点名称;此时else_then_steps中的step跳过不执行。 else_then_step表示的是当Condition比较的结果为false时允许执行的节点列表,存储的是节点名称;此时if_then_steps中的step跳过不执行。
专属资源池购买后,中途扩容了一个节点,如何计费? 华为云会重新计算一个增加了该节点的账单,付费以后才能使用。 父主题: Standard资源池
Tensorflow多节点作业下载数据到/cache显示No space left 问题现象 创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。 原因分析 TensorFlow多节点任务会启动parameter server(
在线服务预测时,如何提高预测速度? 部署在线服务时,您可以选择性能更好的“计算节点规格”提高预测速度。例如使用GPU资源代替CPU资源。 部署在线服务时,您可以增加“计算节点个数”。 如果节点个数设置为1,表示后台的计算模式是单机模式;如果节点个数设置大于1,表示后台的计算模式为分布式的。您可以根据实际需求进行选择。
查找搜索节点 在节点管理页面的搜索栏中,支持通过节点名称、IP地址、资源标签等关键字搜索节点。 设置节点列表显示信息 在节点页面中,单击右上角的设置图标,支持对节点列表中显示的信息进行自定义。 删除/退订/释放节点 具体操作请参见释放游离节点章节。 父主题: 管理Standard专属资源池
查找搜索节点 在节点管理页面的搜索栏中,支持通过节点名称、IP地址、资源标签等关键字搜索节点。 设置节点列表显示信息 在节点页面中,单击右上角的设置图标,支持对节点列表中显示的信息进行自定义。 删除/退订/释放节点 具体操作请参见释放游离节点章节。 父主题: Lite Cluster资源管理