检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Cluster资源池支持镜像预热功能,镜像预热可实现将镜像提前在资源池节点上拉取好,在推理及大规模分布式训练时有效缩短镜像拉取时间。 快速配置Lite Cluster资源案例 下文提供一个快速配置的案例,配置完成后您可登录到节点查看加速卡信息并完成一个训练任务。在运行此案例前,您需要购买资源,购买资源的步骤请参考Lite
ow,PyTorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您可以基于这些基础镜像制作一个新的镜像并进行训练。 您可以参考如下步骤基于训练基础镜像来构建新镜像。 安装Docker。如果docker
driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.907-xxx.zip软件包中的AscendCloud-AIGC-6.3.907-xxx.zip 说明:
3.910版本,请参考获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包
rc2 PyTorch pytorch_2.1.0 驱动 23.0.5 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.906-xxx.zip软件包中的AscendCloud-AIGC-6.3.906-xxx.zip 说明:
根据报错信息判断,在创建训练作业时,同一个“训练输出路径”在被其他作业使用。 处理方法 一个“训练输出路径”只能被一个处于“运行中”、“排队中”或“初始化”状态的作业使用。 当出现此报错时,建议检查并重新填写训练作业的“训练输出路径”,以避免创建作业失败。 父主题: 云上迁移适配故障
本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.910-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.911-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
threshold (25G)”如何解决? 问题现象 镜像保存时报错“The container size (30G) is greater than the threshold (25G)”,镜像创建失败。 原因分析 镜像保存本质是通过在资源集群节点上的agent中进行了docker
rc2 PyTorch pytorch_2.1.0 驱动 23.0.5 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.906-xxx.zip软件包中的AscendCloud-AIGC-6.3.906-xxx.zip 说明:
本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.909-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
资源规格要求 推理部署推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B和300IDUO。 获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.909软件包中的AscendCloud-AIGC-6.3.909-xxx
负责管理云基础架构,提供安全的硬件和软件基础设施,并确保云基础架构的可用性。而云服务客户则需要负责保护自己的数据和应用程序,以及遵守相关的合规性要求。 具体而言,云服务提供商应该提供以下服务和功能: 建立和维护安全的基础设施,包括网络、服务器和存储设备等。 提供安全的底层基础平台,保证底层环境的运行时安全。
Cluster资源池上使用Snt9B完成推理任务 场景描述 本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务,随后登录至该Pod容器内部署在线服务,并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。 图1 任务示意图 操作步骤
C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决? 问题现象 报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection
本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.906-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。 Token认证 Token的有效期为24小时,需要使用同一个Token鉴权时,可以缓存起来,避免频繁调用。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Toke
如果您的NPU性能数据存放在OBS上,Source选择OBS,Path输入OBS地址,格式如obs://bucket1/profiling_dir1,单击Submit按钮。界面参考下图。 图4 分析OBS上的性能数据 如果您的NPU性能数据存放在Notebook上,Source选择Loca
# 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。
在线服务和批量服务有什么区别? 在线服务 将模型部署为一个Web服务,您可以通过管理控制台或者API接口访问在线服务。 批量服务 批量服务可对批量数据进行推理,完成数据处理后自动停止。 批量服务一次性推理批量数据,处理完服务结束。在线服务提供API接口,供用户调用推理。 父主题: