检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
启动tensorboard对应的summary目录过大,导致tensorboard加载summary导致OOM。 处理方法 检查summary目录是否存在其他文件,如有请删除。 检查summary目的文件是否过大(比如大于5GB),如果有请减小summary。 父主题: OBS操作相关故障
可能是在读取或写入GPU相关的数据,这是正常的操作。但是,如果该进程一直处于"D+"状态,可能表明出现了I/O操作阻塞或其他问题,这可能导致系统死锁或其他问题。 如果想构造nvidia-smi D+进程,可以死循环一直执行nvidia-smi体验D+进程带来的系统不稳定性, 如:
服务订阅模型管理在“模型管理>云服务订阅模型”页面中。 模型来源不同。订阅模型,模型来源于AI Gallery;云服务订阅模型,模型来源于其他AI服务开发的模型。 订阅模型列表 在ModelArts的“模型管理>订阅模型”页面中,罗列了从AI Gallery订阅的所有模型。 订阅模型,可通过如下操作获得:
_sshd.sh && your custom command 命令中的“your custom command”表示训练作业中需要执行的其他自定义命令。 “环境变量”增加“MY_SSHD_PORT = 38888”。 “配置节点间SSH免密互信”开关打开,并设置“SSH密钥目录
软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-6.3.906代码包中AscendCloud-LLM代码包结构介绍如下,
人员非法调用。所以在预测请求的header信息中包含的是调用者的身份信息,在body部分是需要进行预测的内容。 header的部分需要按照华为云的相关机制进行认证,body部分需要根据模型的要求如前处理脚本的要求,如自定义镜像的要求进行输入。 处理方法 Header: 在调用指南
软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-6.3.909代码包中AscendCloud-LLM代码包结构介绍如下,
ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-6.3.910代码包中AscendCloud-LLM代码包结构介绍如下,
软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-3rdLLM代码包结构介绍如下,训练脚本以分类的方式集中在scripts文件夹中:
必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可根据自己要求适配
方式二(新增标签):在“标签”下方的文本框中,在快捷键下拉列表中选择快捷键,然后在标签文本输入框中输入新的标签名称,然后单击“确定”。 选中的音频将被自动移动至“已标注”页签,且在“未标注”页签中,标签的信息也将随着标注步骤进行更新,如增加的标签名称、各标签对应的音频数量。 快捷键的使用说明:为
入处理方法。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.907中的AscendCloud-LLM-xxx
ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.910中的AscendCloud-LLM-xxx
明。 AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。 获取路径:Support-E 请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.908中的AscendCloud-LLM-xxx
包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-6.3.908代码包中AscendCloud-LLM代码包结构介绍如下,
默认8卡 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type> # 指定设备卡数,如2卡 ASCEND_RT_VISIBLE_DEVICES=0,1 benchmark-cli train <cfgs_yaml_file>
Studio大模型即服务平台进行模型调优、压缩或部署时,需要选择资源池。MaaS服务支持专属资源池和公共资源池。 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建一个专属资源池,然后在AI开发过程中选择此专属资源池。MaaS服务可以使用在ModelArts
主要通过MindSpore Lite(简称MSLite)进行模型的转换,进一步通过MindSpore Runtime支持昇腾后端的能力来将推理业务运行到昇腾设备上。 模型准备 MindSpore Lite提供的模型convertor工具可以支持主流的模型格式到MindIR的格式转换,用户需要导出对应的模型文件,推荐导出为ONNX格式。
专属资源池状态处于运行中,且专属池中的节点需要含有GPU/Ascend资源。 对于逻辑资源池,需要开启节点绑定后才能进行驱动升级,请提交工单联系华为工程师开启节点绑定。 驱动升级操作 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“Standard资源池”页面。
Studio Code”页面。 图3 打开Visual Studio Code 如果本地未安装VS Code,请根据实际选择“win”或“其他”下载并安装VS Code。VS Code安装请参考安装VS Code软件。 图4 下载并安装VS Code 如果用户之前未安装过ModelArts