检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
内存不足如何处理? 问题现象 在部署或升级在线服务时,如果部署或升级失败,并且在事件中出现如下类似提示。 图1 内存不足提示样例1 运行中服务出现告警时,在事件中出现建议:内存不足,请增加内存。 图2 内存不足提示样例2 原因分析 部署或升级时出现该提示,可能原因是选择的计算节点规格内存太小
Lite Cluster资源使用 在Lite Cluster资源池上使用Snt9B完成分布式训练任务 在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 在Lite Cluster资源池上使用Snt9B完成推理任务
此时需要输入GitHub中Personal Access Token信息。 查看Personal Access Token步骤如下: 登录Github,打开设置页面。 单击“Developer settings”。
升级Lite Cluster资源池单个节点驱动 场景介绍 当Lite Cluster资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助Lite Cluster资源池升级节点GPU/
Lite Cluster资源管理 Lite Cluster资源管理介绍 管理Lite Cluster资源池 管理Lite Cluster节点池 管理Lite Cluster节点 扩缩容Lite Cluster资源池 升级Lite Cluster资源池驱动 升级Lite Cluster
Lite Cluster使用前必读 Lite Cluster使用流程 Lite Cluster高危操作一览表 不同机型的对应的软件配套版本
Lite Cluster资源配置 Lite Cluster资源配置流程 配置Lite Cluster网络 配置kubectl工具 配置Lite Cluster存储 (可选)配置驱动 (可选)配置镜像预热
替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推,重新训练如未解决则执行下一步。
替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推,重新训练如未解决则执行下一步。
图3 ModelArts FullAccess 以相同的方式,依次添加:BMS FullAccess、ECS FullAccess、VPC FullAccess、VPC Administrator、VPCEndpoint Administrator。
SFS Turbo FullAccess SFS FullAccess 可选 父主题: 配置ModelArts基本使用权限
驱动升级功能介绍可参考升级Lite Cluster资源池驱动。 父主题: Lite Cluster资源配置
父主题: Lite Cluster
Cluster运行的,需要购买并开通k8s Cluster资源。
OBS OperateAccess 必选 SWR容器镜像仓库 授予子用户使用SWR服务权限。ModelArts的自定义镜像功能依赖镜像服务SWR FullAccess权限。 SWR OperateAccess 必选 CES云监控 授予子用户使用CES云监控服务的权限。
AccessKeyId=QEKFB6WFGZWC2YUP2JPK&Expires=1606380154&x-obs-security-token=gQpjbi1ub3J0aC03jdUZcXVRCNOHjWNNWiuu2E...
表3 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。
比如${access key}表示输入用户自己的access key。
success Boolean 操作是否执行成功。
snt9b-20240528150158-b521cc0 镜像发布到SWR,从SWR拉取 固件驱动:23.0.5 CANN:cann_8.0.rc2 容器镜像OS:hce_2.0 PyTorch:pytorch_2.1.0 FrameworkPTAdapter:6.0.RC2 如果用到CCE