检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward Step2 下载依赖代码包并上传到宿主机 下载华为侧插件代码包AscendCloud-AIGC-6.3.907-xxx.zip文件,获取路径参见表1。本案例使用的是解压到子目录a
sh脚本,还会git clone下载Megatron-LM、MindSpeed、ModelLink源码(install.sh中会自动下载配套版本,如果手动下载源码还需修改版本)至llm_train/AscendFactory/third-party文件夹中。下载的源码文件结构如下: As
1.0 驱动 23.0.6 获取镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.909-xxx.zip软件包中的AscendCloud-AIGC-6.3.909-xxx.zip,AscendCloud-OPP-6.3.909-xxx.zip 说明: 包名中的
1.0 驱动 23.0.5 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.906-xxx.zip软件包中的AscendCloud-AIGC-6.3.906-xxx.zip 说明: 包名中的xxx表示具体的时间戳,以包名的实际时间为准。
PoolDriverStatus object GPU驱动信息。 npu PoolDriverStatus object NPU驱动信息。 表25 PoolDriverStatus 参数 参数类型 描述 version String 当前驱动版本。 state String 当前驱动状态。可选值如下: Creating:创建中
夹能够权限控制,避免出现所有人都可以挂载使用,导致某用户误删所有数据的情况。 支持选择资源池的驱动版本 通过选择资源池的驱动版本,解决资源池所有节点驱动版本一致的时候,并且没有指定驱动版本,会导致后续加入资源池的节点并不能自动升级到该版本情况,优化了当前需手工处理,增加运维成本问题。
PoolDriverStatus object GPU驱动信息。 npu PoolDriverStatus object NPU驱动信息。 表27 PoolDriverStatus 参数 参数类型 描述 version String 当前驱动版本。 state String 当前驱动状态。可选值如下: Creating:创建中
plugintemplate_name 是 String 插件模板的名称。可选值如下: gpu-driver:GPU驱动插件模板信息 npu-driver:NPU驱动插件模板信息 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 apiVersion
PoolDriverStatus object GPU驱动信息。 npu PoolDriverStatus object NPU驱动信息。 表18 PoolDriverStatus 参数 参数类型 描述 version String 当前驱动版本。 state String 当前驱动状态。可选值如下: Creating:创建中
Cluster节点池 管理Lite Cluster节点 扩缩容Lite Cluster资源池 升级Lite Cluster资源池驱动 升级Lite Cluster资源池单个节点驱动 管理Lite Cluster资源池的游离节点 监控Lite Cluster资源 释放Lite Cluster资源
参见示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+Ascend)。 驱动版本与底层驱动不兼容 当对自定义镜像的驱动进行升级时,请确定底层驱动是否兼容。当前支持哪种驱动版本,请从基础镜像中获取。 文件权限不足 该问题可能为自定义镜像的用户与作业容器的用户不同导致的。请修改dockerfile文件:
org中查看是否有对应版本的包并查看包安装限制。 下载的包与对应基础镜像架构不匹配,如arm系统下载了x86的包,python2版本的pip下载了python3的包。具体基础镜像运行环境请参见推理基础镜像列表。 安装pip包有先后依赖关系。 处理方法 到pypi.org上查询依赖的待安装包是否存在,
步骤四:下载依赖代码包并上传到宿主机 下载华为侧插件代码包AscendCloud-AIGC-6.3.912-xxx.zip文件,获取路径参见表1。将该目录上传到宿主机上的工作目录下,例如:${container_work_dir}/,然后解压到工作目录下。 步骤五:下载ComfyUI代码并安装依赖
PoolDriverStatus object GPU驱动信息。 npu PoolDriverStatus object NPU驱动信息。 表18 PoolDriverStatus 参数 参数类型 描述 version String 当前驱动版本。 state String 当前驱动状态。可选值如下: Creating:创建中
AscendCloud-6.3.912软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径
用冗余、批次、驱动版本、驱动状态、IP地址、资源标签等关键字搜索节点。 支持导出Standard资源池的节点信息到Excel表格中,方便查阅。勾选节点名称,在节点列表上方单击“导出 > 导出全部数据到XLSX”或者“导出 > 导出部分数据到XLSX”,在浏览器的下载记录中查看导出的Excel表格。
PoolDriverStatus object GPU驱动信息。 npu PoolDriverStatus object NPU驱动信息。 表19 PoolDriverStatus 参数 参数类型 描述 version String 当前驱动版本。 state String 当前驱动状态。可选值如下: Creating:创建中
0.rc2,配套驱动Ascend HDK 24.1.RC2 pytorch_2.1.0-cann_8.0.rc2-py_3.9-euler_2.10.7-aarch64-snt9b 2024-07-27 基于昇腾715商发版本,cann更新至8.0.rc2,配套驱动Ascend HDK
软件包说明 获取地址 AscendCloud-6.3.909-xxx.zip 包含 三方大模型训练和推理代码包:AscendCloud-LLM AIGC代码包:AscendCloud-AIGC CV代码包:AscendCloud-CV 算子依赖包:AscendCloud-OPP 获取路径:Support-E
低:高、中风险等级外的其他高危操作。 表1 高危操作一览表 操作对象 操作名称 风险描述 风险等级 应对措施 操作系统 升级/修改操作系统内核或者驱动。 如果升级/修改操作系统内核或者驱动,很可能导致驱动和内核版本不兼容,从而导致OS无法启动,或者基本功能不可用。相关高危命令如:apt-get upgrade。 高