检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用DCGM监控Lite Server资源 场景描述 本文主要介绍如何在Lite Server上配置DCGM监控,用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控
it”的ID码。 确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Commit码和Notebook实例镜像架构下载。 如果下载报错“Not Found”,请下载别的版本VS
3指使用0-3卡执行训练任务。 训练成功标志 “***** train metrics *****”关键字打印 训练完成后,请参考查看日志和性能章节查看指令微调的日志和性能。 如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考 附录:训练常见问题解决。
Administrator权限。 Tenant Administrator 可选 CES云监控 授予子账号使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 可选 SMN消息服务 授予子
线配置,默认基线配置样例如下: --o <output_dir>: <可选>任务完成输出excel表格路径,默认为"./"当前所在路径。 查看性能结果 任务完成之后会在test-benchmark目录下生成excel表格: 性能结果LLaMAFactory_train_perfo
线配置,默认基线配置样例如下: --o <output_dir>: <可选>任务完成输出excel表格路径,默认为"./"当前所在路径。 查看性能结果 任务完成之后会在test-benchmark目录下生成excel表格: 性能结果 LLaMAFactory_train_perf
3指使用0-3卡执行训练任务。 训练成功标志 “***** train metrics *****”关键字打印 训练完成后,请参考查看日志和性能章节查看指令微调的日志和性能。 1、如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考
3指使用0-3卡执行训练任务。 训练成功标志 “***** train metrics *****”关键字打印 训练完成后,请参考查看日志和性能章节查看指令微调的日志和性能。 1、如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考
it”的ID码。 确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Commit码和Notebook实例镜像架构下载。 如果下载报错“Not Found”,请下载别的版本VS
登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 在资源池列表中,选择需要进行驱动升级的资源池“ > 驱动升级”。 图1 驱动升级 在“驱动升级”弹窗中,会显示当前专属资源池
备的数据集。 准备镜像 准备训练模型适用的容器镜像。 微调训练 指令监督微调训练 介绍如何进行SFT全参微调/lora微调、训练任务、性能查看。 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.907)
Ascend/driver目录。 X86 CPU架构和ARM CPU架构的自定义镜像分别只能运行于对应CPU架构的规格中。 执行如下命令,查看自定义镜像的CPU架构。 docker inspect {自定义镜像地址} | grep Architecture ARM CPU架构的自定义镜像,上述命令回显如下。
包。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件
gallery_train文件列表 文件类型 文件说明 “train_params.json” 必选文件,训练参数文件,定义了模型训练的必要参数,例如训练方式、超参信息。该参数会显示在微调工作流的“作业设置”页面的算法配置和超参数设置里面。代码示例请参见train_params.json示例。 “dataset_readme
响应Body参数 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 results Array of BatchResponse objects 批量更新样本标签的响应结果列表。 success Boolean
响应Body参数 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 results Array of BatchResponse objects 批量更新样本标签的响应结果列表。 success Boolean
单击右上角的“购买终端节点”,进入购买页面。 区域:终端节点所在区域。 不同区域的资源之间内网不互通,请确保与ModelArts所在区域保持一致。 服务类别:请选择“按名称查找服务”。 服务名称:填入步骤1中获取的“终端节点服务地址”。单击右侧验证按钮,系统将为您自动填入虚拟私有云、子网和节点IP。 创建内网域名:保持默认值。
/cache/apex-master') 安装报错 “xxx.whl”文件无法安装,需要您按照如下步骤排查: 当出现“xxx.whl”文件无法安装,在启动文件中添加如下代码,查看当前pip命令支持的文件名和版本。 import pip print(pip.pep425tags.get_supported()) 获取到支持的文件名和版本如下:
权限,包括对自己实例的创建、启动、停止、删除等权限以及周边依赖服务的权限。普通开发者不需要ModelArts专属资源池的操作权限,也不需要查看其他用户的Notebook实例。 图1 账号关系示意图 配置管理员权限 管理员账号需要拥有ModelArts专属资源池的完全控制权限,以及
3指使用0-3卡执行训练任务 训练成功标志 “***** train metrics *****”关键字打印 训练完成后,请参考查看日志和性能章节查看指令微调的日志和性能。 1、如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考