检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
将Notebook的Conda环境迁移到SFS磁盘 本文介绍了如何将Notebook的Conda环境迁移到SFS磁盘上。这样重启Notebook实例后,Conda环境不会丢失。 步骤如下: 创建新的虚拟环境并保存到SFS目录 克隆原有的虚拟环境到SFS盘 重新启动镜像激活SFS盘中的虚拟环境
04每次内核升级后,系统需要重新启动以加载新内核。如果您已经安装了自动更新功能,则系统将自动下载和安装可用的更新,这可能导致系统在不经意间被重启,如果使用的软件依赖于特定版本的内核,那么当系统自动更新到新的内核版本时,可能会出现兼容性问题。在使用Ubuntu20.04时,建议手动控制内核的更新。
NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警。 可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 NT_NPU_NET NPU 链路 npu dcmi net异常。 NPU网络链接异常。 可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 NT_NPU_CARD_LOSE
中的Checkpoint文件下载到训练容器的本地目录。 图1 训练输出设置 断点续训练建议和训练容错检查(即自动重启)功能同时使用。在创建训练作业页面,开启“自动重启”开关。训练环境预检测失败、或者训练容器硬件检测故障、或者训练作业失败时会自动重新下发并运行训练作业。 PyTorch版reload
及日志流,避免LTS日志流超过限额产生额外费用,如后续不再使用,建议删除。 重启服务 只有当在线服务处于“运行中”或“告警”状态时,才可进行重启操作。批量服务、边缘服务不支持重启。您可以通过如下方式重启在线服务: 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署>在
当修改了服务的某些参数配置时,系统会自动重启服务使修改生效。在提交修改服务任务时,如果涉及重启,会有弹窗提醒。 在线服务参数说明请参见部署模型为在线服务。修改在线服务还需要配置“最大无效实例数”设置并行升级的最大节点数,升级阶段节点无效。 修改在线服务参数时,可通过增加一个自定义的环境变量参数,触发服务重启。例如
服务管理权限 表1 服务管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 部署模型服务 POST /v1/{project_id}/services modelarts:service:create - √ √ 查询模型服务列表 GET /v1/
在服务列表中,单击目标服务操作列的“修改”,修改服务基本信息,然后根据提示提交修改任务。 当修改了服务的某些参数配置时,系统会自动重启服务使修改生效。在提交修改服务任务时,如果涉及重启,会有弹窗提醒。批量服务参数说明请参见将模型部署为批量推理服务。 方式二:通过服务详情页面修改服务信息 登录Mod
心等待。 图10 操作记录 重启节点 资源池详情页的“节点”页签中提供节点重启的功能。单击操作列的“重启”,可实现对单个节点的重启。勾选多个节点的复选框,单击操作记录旁的“重启”按钮,可实现对多个节点的重启。 下发重启节点任务时需要选择对应节点,重启节点将影响相关业务的运行,请谨慎操作。
查看在线服务的事件 管理在线服务生命周期 修改在线服务配置 在云监控平台查看在线服务性能指标 集成在线服务API至生产环境中应用 设置在线服务故障自动重启 父主题: 使用ModelArts Standard部署模型并推理预测
用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。 使用ModelArts Standard控制台的创建训练作业页面设置自动重启: 用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启,表示不做重新下发作业,也不会启用环境检测。打开开关后,允许设置重启次数为1~128次。
ModelArts在线服务和批量服务有什么区别? 在线服务 将模型部署为一个Web服务,您可以通过管理控制台或者API接口访问在线服务。 批量服务 批量服务可对批量数据进行推理,完成数据处理后自动停止。 批量服务一次性推理批量数据,处理完服务结束。在线服务提供API接口,供用户调用推理。
ckpoint。 如果要使用自动重启功能,资源规格必须选择八卡规格。 训练作业中的训练故障自动恢复功能包括: 训练容错检查(自动重启),帮助用户隔离故障节点,优化用户训练体验。详细可了解:训练容错检查 无条件自动重启,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。详细可了解:无条件自动重启。
pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题
pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题
单击目标服务名称,进入服务详情页面,单击右上角“删除”按钮进行删除。 删除操作无法恢复,请谨慎操作。 没有委托授权时,无法删除服务。 重启服务 批量服务不支持重启。 父主题: 管理批量推理作业
pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题
pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题
改动任何参数。 如果要使用自动重启功能,资源规格必须选择八卡规格。 注:训练作业中的训练故障自动恢复功能包括: 训练容错检查(自动重启),帮助用户隔离故障节点,优化用户训练体验。详细可了解:训练容错检查 无条件自动重启,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作
ckpoint。 如果要使用自动重启功能,资源规格必须选择八卡规格。 训练作业中的训练故障自动恢复功能包括: 训练容错检查(自动重启),帮助用户隔离故障节点,优化用户训练体验。详细可了解:训练容错检查 无条件自动重启,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。详细可了解:无条件自动重启。