检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
STOPPED: 已停止; STOPPING: 停止中; STOP_FAILED: 停止失败: REBOOTING: 重启中: REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS:
STOPPED: 已停止; STOPPING: 停止中; STOP_FAILED: 停止失败: REBOOTING: 重启中: REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS:
启动探针:用于检测应用实例是否已经启动。如果提供了启动探针(startup probe),则禁用所有其他探针,直到它成功为止。如果启动探针失败,将会重启实例。如果没有提供启动探针,则默认状态为成功Success。 就绪探针:用于检测应用实例是否已经准备好接收流量。如果就绪探针失败,即实例未
使用yaml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数
已完成训练的模型包,及其对应的推理代码和配置文件,且已上传至OBS目录中。 确保您使用的OBS与ModelArts在同一区域。 创建模型操作步骤 登录ModelArts管理控制台,在左侧导航栏中选择“模型管理”,进入模型列表页面。 单击左上角的“创建模型”,进入“创建模型”页面。 在“创建模型”页面,填写相关参数。
时发送消息通知。 可选:配置高级选项。 表3 高级选项参数说明 参数名称 说明 故障自动重启 开启该功能后,系统检测到在线服务异常,会自动重新部署在线服务。详细请参见设置在线服务故障自动重启。 “支持IPV6” 默认关闭。开启该功能后,待在线服务部署完成,服务预测地址中的域名在公网解析时可解析为IPV6地址。
目录,默认为/home/ma-user/work/project名称,可根据自己实际情况更改。 单击“Apply”,配置完成后,重启IDE生效。 重启后初次进行update python interpreter需要耗费20分钟左右。 Step5 使用插件连接云上Notebook
执行训练任务(推荐) 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
error encountered 原因分析 由于ECC错误,导致作业运行失败。 处理方法 当ECC错误且计数超过64时,系统会自动隔离故障节点,重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死,请联系技术支持处理。 父主题: 业务代码问题
STOPPED: 已停止; STOPPING: 停止中; STOP_FAILED: 停止失败: REBOOTING: 重启中: REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS:
STOPPED: 已停止; STOPPING: 停止中; STOP_FAILED: 停止失败: REBOOTING: 重启中: REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS:
创建训练任务 调试代码 创建训练任务之前,建议先调试代码。 由于Notebook的/cache目录只能支持500G的存储,超过后会导致实例重启,ImageNet数据集大小超过该限制,因此建议用线下资源调试、或用小批量数据集在Notebook调试(Notebook调试方法与使用No
及日志流,避免LTS日志流超过限额产生额外费用,如后续不再使用,建议删除。 重启服务 只有当在线服务处于“运行中”或“告警”状态时,才可进行重启操作。批量服务、边缘服务不支持重启。您可以通过如下方式重启在线服务: 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署>在
管理开发环境实例 功能介绍 该接口用于启动、停止、重启、排队、取消排队开发环境Notebook实例。 URI POST /v1/{project_id}/demanager/instances/{instance_id}/action 参数说明如表1所示。 表1 参数说明 参数 是否必选
由于不同GPU预置镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤,您可针对需要安装的软件查看对应的内容: 安装NVIDIA驱动 安装CUDA驱动 安装Docker 安装nvidia-fabricmanager
型,将所得的模型部署为在线服务。其他算法操作步骤类似,可参考“ResNet_v1_50”算法操作。 步骤1:准备训练数据 步骤2:订阅算法 步骤3:使用订阅算法创建训练作业 步骤4:创建AI应用 步骤5:部署为在线服务(CPU) 步骤6:清除资源 费用说明:本案例使用过程中,从AI
用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。 使用ModelArts Standard控制台的创建训练作业页面设置自动重启: 用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启,表示不做重新下发作业,也不会启用环境检测。打开开关后,允许设置重启次数为1~128次。
-o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler 如果重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题
-o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题
心等待。 图10 操作记录 重启节点 资源池详情页的“节点”页签中提供节点重启的功能。单击操作列的“重启”,可实现对单个节点的重启。勾选多个节点的复选框,单击操作记录旁的“重启”按钮,可实现对多个节点的重启。 下发重启节点任务时需要选择对应节点,重启节点将影响相关业务的运行,请谨慎操作。