检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Notebook中构建新镜像 ModelArts中注册镜像 通过ECS获取和上传基础镜像将基础镜像上传后,可在SWR中查看已上传的镜像。但在ModelArts中还需要完成镜像注册后,才能在后续的Notebook中使用。镜像注册的操作步骤如下: 登录ModelArts管理控制台,在左侧导航栏单击“镜像管理”。
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 Notebook中构建新镜像 父主题: 准备工作
调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 spec_total_count Integer 作业资源规格总数。 specs specs结构数组 资源规格参数列表,如表4所示。 表4 specs属性列表说明 参数 参数类型 说明 spec_id Long 资源规格的ID。 core String
方式二:使用Java语言发送预测请求 AK/SK签名认证方式,仅支持Body体12M以内,12M以上的请求,需使用Token认证。 客户端须注意本地时间与时钟服务器的同步,避免请求消息头X-Sdk-Date的值出现较大误差。因为API网关除了校验时间格式外,还会校验该时间值与网关收到请求的时间差,如果
#安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 相关文档 和本文档配套的模型训练文档请参考主流开源大模型基于Lite
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
7及以上版本docker的虚拟机或物理机用作镜像构建节点,以下称“构建节点”。 可以通过执行docker pull、apt-get update/upgrade和pip install命令判断是否可正常访问外部可用的开源软件仓库,若可以正常访问表示环境已连接外部网络。 上述的虚拟机或物理机需要为arm64架构。
Cluster或Lite Server时,所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小等资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。具体配额项如下。 表1 ModelArts Lite涉及的资源配额 服务 资源类型 ECS资源类型 ECS实例数 CPU核心数 RAM容量(MB)
建议把调试过程中的修改点通过Dockerfile固化到容器构建正式流程,并重新测试。 确认对应的脚本、代码、流程在linux服务器上运行正常。 如果在linux服务器上运行就有问题,那么先调通以后再做容器镜像。 确认打入镜像的文件是否在正确的位置、是否有正确的权限。 训练场景主要查看自研的依赖包是否正常,查看pip
├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 ├──vllm_ppl.py #ppl精度测试脚本
等。 ECS BMS EVS DEW ecs:cloudServers:create ecs:cloudServers:delete ecs:cloudServers:get ecs:cloudServers:start ecs:cloudServers:stop ecs:cloudServers:reboot
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
Standard资源池节点故障定位 节点故障定位 对于Standard资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下: