检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
模型将会自动进入训练,无需人工介入,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。 在“图像分类”节点中,待训练状态由“运行中”变为“运行成功”,即完成了模型的自动训练。 训练完成后,您可以单击“图像分类”节点上方的按钮,查看相关指标信息,如“准确率”、
使用Server-Sent Events协议的方式访问在线服务 背景说明 Server-Sent Events(SSE)是一种服务器向客户端推送数据的技术,它是一种基于HTTP的推送技术,服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据,例如聊天应用、实时新闻更新等。
参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total
单击“提交”,确认训练作业的参数信息,确认无误后单击“确定”。 页面自动返回“训练作业”列表页,当训练作业状态变为“已完成”时,即完成了模型训练过程。 本案例的训练作业预计运行十分钟。 如果训练作业状态一直在等待中状态,表示当前所选的资源池规格资源紧张,作业需要进行排队,请耐心等待。请参考训练作业一直在等待中(排队)?。
单击“提交”,完成Notebook的创建操作。 进入Notebook列表,正在创建中的Notebook状态为“创建中”,创建过程需要几分钟,请耐心等待。当Notebook状态变为“运行中”时,表示Notebook已创建并启动完成。 打开运行中的Notebook实例。 图1 打开Notebook实例
[ { "name" : "tulips" } ] } ] } 响应示例 状态码: 200 OK { "success" : true } 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not
升级周期可能比较长。 强制升级:忽略资源池中正在运行的作业,直接进行驱动升级,可能会导致运行中作业失败,需谨慎选择。 约束限制 专属资源池状态处于运行中,且专属池中的节点需要含有GPU/Ascend资源。 驱动升级操作 登录ModelArts管理控制台,在左侧导航栏中选择“专属资源池
参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total
tom”,引擎包选择准备镜像中上传的推理镜像。 系统运行架构选择“ARM”。 图2 设置AI应用 单击“立即创建”开始AI应用创建,待应用状态显示“正常”即完成AI应用创建。 若权重文件大于60G,创建AI应用会报错,提示模型大于60G,请提工单扩容。 Step3 部署在线服务 将Step2
单击“提交”,确认训练作业的参数信息,确认无误后单击“确定”。 页面自动返回“训练作业”列表页,当训练作业状态变为“已完成”时,即完成了模型训练过程。 本案例的训练作业预计运行十分钟。 如果训练作业状态一直在等待中状态,表示当前所选的资源池规格资源紧张,作业需要进行排队,请耐心等待。请参考训练作业一直在等待中(排队)?。
[ { "name" : "yunbao" } ] } ] } 响应示例 状态码: 200 OK { "success" : true } 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not
参数配置完成后,单击“创建”,创建自定义模型。 在模型列表,单击模型名称可以进入详情页查看模型详细信息和任务。 当模型“状态”变成“创建成功”时,表示模型创建完成。 图3 查看我的模型状态 调优模型,使用6种不同的调优参数去训练模型。 模型创建成功后,在我的模型列表,单击操作列的“更多 > 调优”,进入创建调优作业页面。
支持多选。 图1 自动分组 启动任务提交成功后,界面右上角显示此任务的进度。等待任务执行完成后,您可以查看自动分组任务的历史记录,了解任务状态。 查看自动分组结果 在数据集详情页面的“全部”页签中,展开“筛选条件”,将“样本属性”设置为自动分组任务中的“属性名称”,并通过设置样本属性值,筛选出分组结果。
断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint接续训练。 当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置接续训练
"error_message": "Error string", "error_code": "ModelArts.0105" } 状态码 状态码请参见表1。 父主题: 训练作业参数配置
参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total
参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total
断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint接续训练。 当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置接续训练
断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint接续训练。 当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置接续训练
责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。