检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
执行如下命令查看环境中的cuda版本。 ll /usr/local | grep cuda 举例: 图1 查看当前环境的cuda版本 如图1所示,当前环境中cuda版本为10.2 父主题: 环境配置相关
“启动命令” 指定模型的启动命令,您可以自定义该命令。 说明: 包含字符$,|,>,<,`,!,\n,\,?,-v,--volume,--mount,--tmpfs,--privileged,--cap-add的启动命令,在模型发布时将会置空。
在VS Code Terminal里执行如下命令检测SSH命令是否可用; ssh -i <密钥相对路径> -p <端口> ma-user@<域名/ip> SSH可用时跳过3继续远端排查。 SSH不可用,排查3。 在VS Code Terminal里执行如下检查网络。
响应参数 无 请求示例 PUT https://{endpoint}/v1/{project_id}/services/{service_id}/nodes/{node_id}/status { "status" : "running" } 响应示例 状态码: 200 启动停止边缘节点成功
在VS Code Terminal里执行如下命令检测SSH命令是否可用; ssh -i <密钥相对路径> -p <端口> ma-user@<域名/ip> SSH可用时跳过3继续远端排查。 SSH不可用,排查3。 在VS Code Terminal里执行如下检查网络。
此时可以在Terminal里使用命令行打开checkpoints,或者新建文件夹将checkpoints里的数据移动到新的文件夹下。 图1 JupyterLab浏览器左侧导航无法打开checkpoints 操作步骤: 打开Terminal,用命令行进行操作。
图1 查询创建的虚拟环境 解决方案 在Terminal中执行conda deactivate命令退出当前虚拟环境,默认进入base环境。执行pip list命令查询已安装的包,然后安装需要的依赖进行保存,最后切换至指定的虚拟环境后再运行脚本。 父主题: 环境配置故障
可以直接使用benchmark命令测试mindir模型性能,用来对比调优前后性能是否有所提升。
请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如果实例处于其他状态比如“错误”,请尝试先执行停止然后执行启动操作。待实例变为“运行中”后,再次执行远程连接。 执行如下命令排查本地网络是否可以访问。
服务启动后,状态断断续续处于“告警中” 问题现象 预测流量不大但频繁出现以下报错 Backend service internal error.
Step4 启动镜像 启动容器镜像。启动前可以根据实际需要增加修改参数,Lora微调启动单卡,finetune微调启动八卡。
操作命令中的AK/SK要换成用户实际获取的AK/SK,Endpoint可以参考终端节点(Endpoint)和访问域名获取。 父主题: 基本配置
Step4 启动镜像 启动容器镜像,finetune全量微调需要启动8卡,启动前可以根据实际需要增加修改参数。
服务部署、启动、升级和修改时,资源不足如何处理? 问题现象 启动服务失败,报错:资源不足,服务调度失败。(Schedule failed due to insufficient resources.
首先会根据config.yaml创建pod,继而在pod容器内自动启动训练作业。 kubectl apply -f config.yaml 启动后,可通过以下命令获取所有已创建的pod信息。若pod已全部启动,则状态为:Running。
首先会根据config.yaml创建pod,继而在pod容器内自动启动训练作业。 kubectl apply -f config.yaml 启动后,可通过以下命令获取所有已创建的pod信息。若pod已全部启动,则状态为:Running。
实例重新启动后,Notebook内安装的插件丢失 请使用镜像保存功能。 父主题: VS Code使用技巧
自定义镜像的启动命令规范 用户遵循ModelArts镜像的规范要求制作镜像,选择自己的镜像,并且通过指定代码目录(可选)和启动命令的方式来创建的训练作业。
启动失败 DELETE_FAILED:删除失败 ERROR:错误 DELETED:已删除 FROZEN:冻结 token String Notebook鉴权使用的token信息。
首先会根据config.yaml创建pod,继而在pod容器内自动启动训练作业。 kubectl apply -f config.yaml 启动后,可通过以下命令获取所有已创建的pod信息。若pod已全部启动,则状态为:Running。