检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
et组件和EmptyDir临时存储等。通过“指定磁盘空间”参数设置这两块分区大小的比例。容器引擎空间的剩余容量将会影响镜像下载和容器的启动及运行。 容器盘的类型是本地盘时,不支持设置“指定磁盘空间”。 容器盘高级配置-容器引擎空间大小 该参数限制的是POD容器空间分配的大小。仅支持整数,
Lite训练镜像 获取模型软件包,并上传到机器SFS Turbo的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud压缩包及该目录下的训练代码AscendCloud-LLM-6.3.908-xxx.zip,并直接进入到llm_train/AscendSpeed文件夹下面
目录为ma-user用户家目录。如果容器挂载到/home/ma-user下,拉起容器时会与基础镜像冲突,导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 进入容器。需要将${conta
格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表和权重文件。 如果使用模型训练后的权重文件进行推理,模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。 Step2 配置pod 在节点自定义目录${node_path}下创建config
Lite训练镜像 获取模型软件包,并上传到机器SFS Turbo的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud压缩包及该目录下的训练代码AscendCloud-LLM-6.3.908-xxx.zip,并直接进入到llm_train/AscendSpeed文件夹下面
Lite训练镜像 获取模型软件包,并上传到机器SFS Turbo的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud压缩包及该目录下的训练代码AscendCloud-LLM-6.3.908-xxx.zip,并直接进入到llm_train/AscendSpeed文件夹下面
objects 训练在子任务状态信息。 running_records Array of RunningRecord objects 训练作业运行及故障恢复记录。 表53 TaskStatuses 参数 参数类型 描述 task String 训练作业子任务名称。 exit_code Integer
olated_pages_total HBM多比特错误隔离内存页数量。说明: 若此计数达到64及以上,请更换此NPU。 个 ≥0 连续2个周期原始值 >= 64 严重 若此计数达到64及以上,请提交工单,切换NPU机器 AI处理器Vector CORE利用率 ma_node_npu_vector_core_util
在工程“libs”中增加httpmime-x.x.x.jar。完整的Java依赖库如图6所示。 httpmime-x.x.x.jar建议使用4.5及以上版本,下载地址:https://mvnrepository.com/artifact/org.apache.httpcomponents/httpmime。
run”,商用版是权限受控,仅华为工程师和渠道用户有权限下载,下载地址请见固件驱动包下载链接。 arch cat /etc/os-release 图5 查看机器操作系统版本及架构 下文均以适配EulerOS 2.0(SP10)和aarch64架构的包为例来进行讲解。 安装固件和驱动包。 首先检查npu-smi工具
to/inference-output" } 表1 字段说明 字段 是否必选 说明 source 是 被标注对象的URI。数据来源的类型及示例请参考表2。 usage 否 默认为空,取值范围: TRAIN:指明该对象用于训练。 EVAL:指明该对象用于评估。 TEST:指明该对象用于测试。
DistributedDataParallel(Net().cuda()) ### DistributedDataParallel End ### 多节点分布式调测适配及代码示例 在DistributedDataParallel中,不同进程分别从原始数据中加载batch的数据,最终将各个进程的梯度进行平均作为
格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表和权重文件。 如果使用模型训练后的权重文件进行推理,模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。 Step2 配置pod 在节点自定义目录${node_path}下创建config
格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表和权重文件。 如果使用模型训练后的权重文件进行推理,模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。 Step2 配置pod 在节点自定义目录${node_path}下创建config