搜索_华为云

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

idia-driver版本号保持一致，可参考安装nvidia-fabricmanag方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。使用该裸金属服务器制作自定义镜像时，必须清除残留文件，请参考清理文件。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
注册伙伴 - AI开发平台ModelArts
注册伙伴 - AI开发平台ModelArts

信息。单击“提交”，AI Gallery的运营人员将会审核您的申请，后续您可以在“我的Gallery > 合作伙伴”里查看审核进展以及审核结果。图1 查看审核进度父主题：合作伙伴

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 合作伙伴
TensorFlow在OBS写入TensorBoard到达5GB时停止 - AI开发平台ModelArts

w保存summary可能是本地缓存，在每次触发flush时将该summary文件覆盖OBS上的原文件。当超过5GB后，由于达到了OBS单次导入文件大小的上限，导致无法继续写入。处理方法如果在运行训练作业的过程中出现该问题，建议处理方法如下：推荐使用本地缓存的方式来解决，使用如下方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

情况自行填写。其他参数保持默认值。单击“立即创建”，跳转到模型列表页，查看模型状态，当状态变为“正常”，模型创建成功。图1 创建模型单击模型名称，进入模型详情页面，查看模型详情信息。部署服务并查看详情在模型详情页面，单击右上角“部署>在线服务”，进入服务部署页面，模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

py工具将其它节点的权重文件同步上传到主节点。修改代码如图3。图3 多机同步权重文件代码上传至OBS 将llm_train文件上传至OBS中。结合准备数据、准备权重、准备代码，将数据集、原始权重、代码文件都上传至OBS后，OBS桶的目录结构如下。 <bucket_name> |──llm_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
训练作业进程异常退出 - AI开发平台ModelArts

码返回的。常见的错误码还包括247、139等。退出码137或者247 可能是内存溢出造成的。请减少数据量、减少batch_size，优化代码，合理聚合、复制数据。请注意，数据文件大小不等于内存占用大小，需仔细评估内存使用情况。退出码139 请排查安装包的版本，可能存在包冲突的问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练性能测试 - AI开发平台ModelArts

nce_cfgs.yaml相对或绝对路径。 <model_name>：训练模型名，如qwen2-7b <run_type>：训练策略类型及数据序列长度：【lora：4096-lora、full：4096-full、lora-8k：8192-lora、full-8k：8192-full】

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。训练启动训练介绍各个训练阶段：指令微调、PPO强化训练、RM奖励模型、DPO偏好训练使用全参/lora训练策略进行训练任务、性能查看。父主题：主

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

er服务可以使单节点GPU卡间互联，在多卡GPU机器上，出现这种问题可能是nvidia-fabricmanger异常导致。执行以下命令，查看NVIDIA和CUDA的版本，以及nvidia-fabricmanager的状态。 systemctl status nvidia-fabricmanager

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

py工具将其它节点的权重文件同步上传到主节点。修改代码如图3。图3 多机同步权重文件代码上传至OBS 将llm_train文件上传至OBS中。结合准备数据、准备权重、准备代码，将数据集、原始权重、代码文件都上传至OBS后，OBS桶的目录结构如下。 <bucket_name> |──llm_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

模型名称 |── data # 预处理后数据 |── pretrain # 预训练加载的数据 |── finetune # 微调加载的数据 |──converted_weights # Huggi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 准备工作
Open-Clip基于DevServer适配PyTorch NPU训练指导 - AI开发平台ModelArts

tensorboard Step5 获取训练数据集使用img2dataset工具下载数据集。首先需要在容器安装img2dataset，安装命令如下。 pip install img2dataset 参考官方指导下载开源mscoco数据集。 #下载metadata wget https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

） pip install py-spy 查看堆栈。py-spy工具的具体使用方法可参考py-spy官方文档。 # 找到训练进程的PID ps -ef # 查看进程12345的进程堆栈 # 如果是8卡的训练作业，一般用此命令依次去查看主进程起的对应的8个进程的堆栈情况 py-spy

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练tokenizer文件说明 - AI开发平台ModelArts

件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图2所示。图2 修改ChatGLMv3-6B tokenizer文件图3 修改ChatGLMv3-6B tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
训练tokenizer文件说明 - AI开发平台ModelArts

件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图2所示。图2 修改ChatGLMv3-6B tokenizer文件图3 修改ChatGLMv3-6B tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图所示。图2 修改ChatGLMv3-6B tokenizer文件图3 修改ChatGLMv3-6B tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

文件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下代码信息进行查找，修改后如图2所示。图2 修改ChatGLMv3-6B tokenizer文件图3 修改ChatGLMv3-6B tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图所示。图2 修改ChatGLMv3-6B tokenizer文件图3 修改ChatGLMv3-6B tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
服务状态一直处于“部署中” - AI开发平台ModelArts

服务状态一直处于“部署中” 问题现象服务状态一直处于“部署中”，查看模型日志未发现服务有明显错误。原因分析一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。处理方法模型的端口没有配置，如您在自定义镜像配置文件中修改了端口号，需要在部署模型时，配置对应的端口号，使新的模型重新部署服务。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

容器提供的健康检查接口调用失败。容器健康检查接口调用失败，原因可能有两种：镜像健康检查配置问题模型健康检查配置问题解决方法根据容器日志进行排查，查看健康检查接口失败的具体原因。镜像健康检查配置问题，需修复代码后重新制作镜像创建模型后部署服务。了解镜像健康接口配置请参考模型配置文件编写说明中health参数说明。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署

总条数： 2064

上一页
1
...
77
78
79
...
104
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

注册伙伴 - AI开发平台ModelArts

TensorFlow在OBS写入TensorBoard到达5GB时停止 - AI开发平台ModelArts

使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Open-Clip基于DevServer适配PyTorch NPU训练指导 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

服务状态一直处于“部署中” - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线