检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器
使用华为云账号登录CCE管理控制台。 在CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图8 节点管理 单击“远程登录”,在弹出的窗口中,单击“CloudShell登录”。 图9 远程登录 在CloudShell中设置密码等参
单击目录左侧“用户组”,然后在页面右上角单击“创建用户组”。 填写“用户组名称”并单击“确定”。 在操作列单击“用户组管理”,将需要配置权限的用户加入用户组中。 单击用户组名称,进入用户组详情页。 在权限管理页签下,单击“授权”。 图2 “配置权限” 在搜索栏输入“ModelArts
${dockerfile_image_name} 进行表示。 在ECS中Docker登录。 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图5 复制登录指令 修改并上传镜像。 在ECS服务器中输入登录指令后,使用下列
jsonl文件长传至可视化工具页面,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在第一个节点上。 图2 Loss收敛情况(示意图) ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。
jsonl文件长传至可视化工具页面,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在第一个节点上。 图2 Loss收敛情况(示意图) 注:ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能
jsonl文件长传至可视化工具页面,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在第一个节点上。 图2 Loss收敛情况(示意图) ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。
jsonl文件长传至可视化工具页面,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在第一个节点上。 图2 Loss收敛情况(示意图) ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。
jsonl文件长传至可视化工具页面,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在第一个节点上。 图2 Loss收敛情况(示意图) ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。
置 > 扩展存储”,查看或编辑扩展存储信息。在存储个数未达到最大个数时,也可在右侧单击“添加扩展存储”。 “SSH远程开发” 开启此功能后,用户可以在本地开发环境中远程接入Notebook实例的开发环境。 实例在停止状态时,用户可以在Notebook详情页中更新SSH的配置信息。
两个阶段: 开发阶段:准备并配置环境,调试代码,使代码能够开始进行深度学习训练,推荐在ModelArts开发环境中调试。 实验阶段:调整数据集、调整超参等,通过多轮实验,训练出理想的模型,推荐在ModelArts训练中进行实验。 两个过程可以相互转换。如开发阶段代码稳定后,则会进
选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在Notebook中创建的“子目录挂载” 图3 选择SFS Turbo 作业日志选择OBS中的
选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在Notebook中创建的“子目录挂载” 图3 选择SFS Turbo 作业日志选择OBS中的
ysdm.cpl”,单击“确定”。 在“系统属性”中切换到“高级”页签,单击“环境变量”。 在“环境变量”的“用户变量”中鼠标左键双击“Path”,在“编辑环境变量”窗口单击“新增”,新增Python和pip的安装路径。安装路径需定位到Scripts文件夹,例如“c:\pytho
选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在Notebook中创建的“子目录挂载” 图3 选择SFS Turbo 作业日志选择OBS中的
打印如下信息,表示构建镜像成功。 图3 成功构建镜像 Step6 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图4 复制登录指令 Step7 上传镜像 在ECS服务器中输入登录指令后,使用下列
info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器
来发送告警通知。更多详情请参考AOM用户指南。 根据界面提示填写行动规则名称,选择行动规则类型,选择上一步创建的主题,选择消息模板,然后单击“确定”。 图6 新建告警行动规则 在之前打开的“创建告警规则”页面的告警通知区域,“行动规则”选择新创建的告警行动规则,单击“立即创建”。
使用订阅的ModelArts模型: 在“AI应用管理 > AI应用 > 我的订阅”页面,选择并展开订阅的目标模型。在版本列表单击“部署”,可以将订阅的ModelArts模型部署为“在线服务”、“批量服务”或“边缘服务”,详细操作步骤请参见部署服务。 使用订阅的HiLens技能: 在“产品订购 > 订单管理
选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在Notebook中创建的“子目录挂载” 图3 选择SFS Turbo 作业日志选择OBS中的