检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
步骤1:创建我的模型 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“我的模型”进入模型列表。 在模型列表页,单击“创建模型”弹出创建模型页面。
生的容器镜像中、“/cache”目录下存储的是临时文件,不占用容器空间。 如果没有文件可以删除,或者不清楚哪些可以删除,那么可以使用相同的镜像重新创建一个Notebook,使用新建的Notebook时,注意减少软件包的安装或文件的下载等操作,也可以减少容器大小; 减少镜像文件的大小
种问题,所以这里做了限制。这种场景下,建议找到原始镜像重新构建环境进行保存。 解决方法 找到原始镜像重新构建环境。建议使用干净的基础镜像,最小化的安装运行依赖内容,并进行安装后的软件缓存清理,然后保存镜像。 父主题: 自定义镜像故障
7-ubuntu_1804-x86_64 构建自定义训练镜像 当基础镜像里的软件无法满足您的程序运行需求时,您还可以基于这些基础镜像制作一个新的镜像并进行训练。镜像制作流程如图1所示。 图1 训练作业的自定义镜像制作流程 场景一:预置镜像满足ModelArts训练平台约束,但不满足代码依赖的要求,需要额外安装软件包。
y -t <镜像名称>:<版本名称> . <镜像名称>:<版本名称>:定义镜像名称。示例:pytorch_2_2_ascend:20241106 install_type:安装类型,默认为all,可选【modellink、llmafactory、all】 构建镜像前需保证Doc
用户使用ma-cli制作自定义镜像失败,报错文件不存在(not found) 问题现象 用户使用ma-cli制作自定义镜像失败,报错文件目录不存在。 图1 报错xxx not found 原因分析 复制的文件需要放在Dockerfile同级文件夹或者子目录中,不能放在Dockerfile上层目录。
xxx" --network=host -t <镜像名称>:<版本名称> . <镜像名称>:<版本名称>:定义镜像名称。示例:pytorch_2_2_ascend:20241106 构建镜像前需保证Dockerfile文件内容中镜像名与本文档镜像保持一致,如不同则需修改为一致。 # 修改以下内容:
适应性。 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。 选择“我的服务”页签。 选择模型服务,单击操作列的“更多
xxx" --network=host -t <镜像名称>:<版本名称> . <镜像名称>:<版本名称>:定义镜像名称。示例:pytorch_2_2_ascend:20241106 构建镜像前需保证Dockerfile文件内容中镜像名与本文档镜像保持一致,如不同则需修改为一致。 # 修改以下内容:
进入ModelArts Studio大模型即服务平台。 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 创建Qwen2-7B模型。 在ModelArts Studio左侧导航栏中,选择“我的模型”进入模型列表。
图2 查看权限详情和去IAM修改委托权限 图3 给委托添加授权 将镜像设置成私有镜像 登录容器镜像服务(SWR),左侧导航栏选择“我的镜像”,查看镜像详情,单击右上角“编辑”按钮,把镜像类型修改为“私有”。 图4 修改镜像类型为私有 父主题: 模型管理
创建压缩作业 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“模型压缩”进入作业列表。 单击“创建压缩作业”进入创建页面,完成创建配置。
管理我的服务 扩缩容模型服务实例数 修改模型服务QPS 升级模型服务
服务部署、启动、升级和修改时,拉取镜像失败如何处理? 问题现象 服务部署、启动、升级和修改时,拉取镜像失败。 原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
购买操作如下: 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio首页单击“购买套餐包”,进入购买页面。 在购买页面,选择套餐包“规格”和“购买数量”,单
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
自定义镜像需上传至容器镜像服务(SWR),才能用于ModelArts Standard上训练。 自定义镜像的启动命令规范 用户遵循ModelArts镜像的规范要求制作镜像,选择自己的镜像,并且通过指定代码目录(可选)和启动命令的方式来创建的训练作业。 图1 创建训练作业选择自定义方式
服务部署、启动、升级和修改时,镜像不断重启如何处理? 问题现象 服务部署、启动、升级和修改时,镜像不断重启。 原因分析 容器镜像代码错误 解决方法 根据容器日志进行排查,修复代码,重新创建模型,部署服务。 父主题: 服务部署
修改QPS 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。 选择“我的服务”页签。 选择模型服务,单击操作列的“更多
创建调优作业 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio左侧导航栏中,选择“模型调优”进入作业列表。 单击“创建调优作业”进入创建页面,完成创建配置。