搜索_华为云

日志提示“No module name 'unidecode'” - AI开发平台ModelArts

处理方法将requirements.txt中的Unidecode改为unidecode。建议与总结您可以在训练代码里添加一行： os.system('pip list') 然后运行训练作业，查看日志中是否有所需要的模块。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
资源管理 - AI开发平台ModelArts
资源管理 - AI开发平台ModelArts

资源管理查询OS的配置参数查询插件模板查询节点列表批量删除节点批量重启节点查询事件列表创建网络资源查询网络资源列表查询网络资源删除网络资源更新网络资源查询资源实时利用率创建资源池查询资源池列表，可通过标签、资源池状态筛选查询资源池列表查询资源池删除资源池

 帮助中心 > AI开发平台ModelArts > API参考
查询节点列表 - AI开发平台ModelArts

"Node", "apiVersion" : "v2", "metadata" : { "name" : "os-node-created-zlncn", "creationTimestamp" : "2022-09-16T05:32:44Z"

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

runtime没有找到。处理方法建议您按以下步骤排查处理：确认部署在线服务时是否选择了GPU规格。在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本（customize_service.py编写指导请见模型推理代码编写说明）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练作业找不到GPU - AI开发平台ModelArts

根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
非分离部署推理服务 - AI开发平台ModelArts

nci7。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
LoRA微调训练 - AI开发平台ModelArts

TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
在Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

py > train.log 2>&1 & done 其中，train.py中设置环境变量DEVICE_ID： devid = int(os.getenv('DEVICE_ID')) context.set_context(mode=context.GRAPH_MODE, d

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
训练作业卡死检测 - AI开发平台ModelArts

用率或NPU利用率，并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化，则判定作业卡死。系统预置了卡死检测的环境变量“MA_HANG_DETECT_TIME=30”，表示30分钟内进程IO无变化则判定作业卡死。如果需要修改卡死检测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
使用MaaS压缩模型 - AI开发平台ModelArts

开关关闭（默认关闭）：表示不永久保存日志，则任务日志会在30天后会被清理。可以在任务详情页下载全部日志至本地。开关打开：表示永久保存日志，此时必须配置“日志路径”，系统会将任务日志永久保存至指定的OBS路径。事件通知选择是否打开“事件通知”开关。开关关闭（默认关闭）：表示不启用消息通知服务。开关打

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
SFT全参微调训练 - AI开发平台ModelArts

TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）
开发第一条Workflow - AI开发平台ModelArts

境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os.environ["HUAWEICLOUD_SDK_AK"] __SK = os.environ["HUAWEICLOUD_SDK_SK"] # 如果进行了加密还需要进行解密操作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
自动学习训练作业失败 - AI开发平台ModelArts

再启动训练作业。当预处理后的数据不满足训练要求时，也会导致训练作业运行失败。对于数据集中列的过滤策略如下所示：如果某一列空缺的比例大于系统设定的阈值（0.9），此列数据在训练时将被剔除。如果某一列只有一种取值（即每一行的数据都是一样的），此列数据在训练时将被剔除。对于非纯

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
SFT全参微调训练 - AI开发平台ModelArts

TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）
创建ModelArts数据选择任务 - AI开发平台ModelArts

在“数据处理”页面，单击“创建”进入“创建数据处理”页面。在创建数据处理页面，填写相关算法参数。填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成，按“V0001”、“V0002”规则命名，用户无法修改。您可以根据实际情况填写“名称”和“描述”信息。设置场景类别。场景类别当前支持“图像分类”和“物体检测”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
构建条件节点控制分支执行 - AI开发平台ModelArts

# 训练使用的算法对象，示例中使用AIGallery订阅的算法；部分算法超参的值如果无需修改，则在parameters字段中可以不填写，系统自动填充相关超参值 inputs=wf.steps.JobInput(name="data_url", data=obs_data)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
非分离部署推理服务 - AI开发平台ModelArts

nci7。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务

总条数： 596

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“No module name 'unidecode'” - AI开发平台ModelArts

资源管理 - AI开发平台ModelArts

查询节点列表 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

在Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

开发第一条Workflow - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

创建ModelArts数据选择任务 - AI开发平台ModelArts

构建条件节点控制分支执行 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线