检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图3 超参 步骤三 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图4 开启故障重启 断点续训练是通过checkpoi
更新团队标注验收任务状态 功能介绍 在团队标注任务完成验收前确认验收范围以及是否覆盖已标注的数据,以此更新样本状态。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT
STOPPED: 已停止; STOPPING: 停止中; STOP_FAILED: 停止失败: REBOOTING: 重启中: REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS:
STOPPED: 已停止; STOPPING: 停止中; STOP_FAILED: 停止失败: REBOOTING: 重启中: REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS:
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
单击“提交”,在“信息确认”页面,确认训练作业的参数信息,确认无误后单击“确定”。 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。 训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。训练作业执行成功后,日志信息如下所示。 父主题:
批量更新团队标注样本的标签 功能介绍 批量更新团队标注样本的标签。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v2/{project_id}/data
更新消息订阅Subscription 功能介绍 更新Workflow工作流已订阅的订阅信息。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断点续训练是通过checkpoi
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
STOPPED: 已停止; STOPPING: 停止中; STOP_FAILED: 停止失败: REBOOTING: 重启中: REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS:
创建Workflow服务部署节点 功能介绍 通过对ModelArts服务管理能力的封装,实现Workflow新增服务和更新服务的能力。主要应用场景如下: 将模型部署为一个Web Service。 更新已有服务,支持灰度更新等能力。 属性总览 您可以使用ServiceStep来构建服务部署节点,ServiceStep结构如下
ModelArts预置镜像更新说明 本章节提供了ModelArts预置镜像的变更说明 ,比如依赖包的变化,方便用户感知镜像能力的差异,减少镜像使用问题。 统一镜像更新说明 表1 统一镜像更新说明 镜像名称 更新时间 更新说明 mindspore_2.3.0-cann_8.0.rc1-py_3
STOPPED: 已停止; STOPPING: 停止中; STOP_FAILED: 停止失败: REBOOTING: 重启中: REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS:
ata/output 必须修改。训练完成后指定的输出模型的路径。 LOG /home/ma-user/work/data/log 保存训练过程记录的日志 LOG 文件。 Step3 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将
更新工作流定时调度信息 功能介绍 更新WorkflowSchedule信息。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v2/{proj
更新可视化作业描述 功能介绍 更新可视化作业的描述。 URI PUT /v1/{project_id}/visualization-jobs/{job_id} 参数说明如表1所示。 表1 参数说明 参数 是否为必选 参数类型 说明 project_id 是 String 用户项目
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断点续训练是通过checkpoi