搜索_华为云

停止可视化作业 - AI开发平台ModelArts

job_id 是 String 可视化作业的ID。请求消息无请求参数。响应消息响应参数如表2所示。表2 响应参数参数类型说明 is_success Boolean 请求是否成功。 error_code String 调用失败时的错误码，具体请参见错误码。调用成功时无此字段。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
Lite Cluster使用前必读 - AI开发平台ModelArts

Lite Cluster使用前必读 Lite Cluster使用流程 Lite Cluster高危操作一览表不同机型的对应的软件配套版本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
创建DevServer - AI开发平台ModelArts

String 服务器所属的超节点资源id。表9 Endpoints 参数参数类型描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表，默认都可以访问。当配置指定IP后，则仅允许IP所在的客户端实现对Notebook的访问。

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

to process the new request 原因分析该报错是因为发送预测请求后，服务出现停止后又启动的情况。处理方法需要您检查服务使用的镜像，确定服务停止的原因，修复问题。重新创建模型部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）
CUDA和CUDNN - AI开发平台ModelArts
CUDA和CUDNN - AI开发平台ModelArts

方法。专属池驱动版本如何升级？当专属资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力，具体操作请参见资源池驱动升级。父主题： FAQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）
训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明离线训练安装包准备说明父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明离线训练安装包准备说明父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
调优数据集异常日志说明 - AI开发平台ModelArts

like ["conversation_id", "text"]. 对于csv、xlsx文件，平台会根据训练类型的不同，将其转为Alpaca格式或MOSS格式，选择预期的数据类型无效。父主题： Studio

帮助中心 > AI开发平台ModelArts > 常见问题 > Studio
总览Workflow工作流 - AI开发平台ModelArts

在创建并使用的工作空间，以实际取值为准。 search_type 否 String 过滤方式。可选值如下： equal表示精确匹配。 contain表示模糊匹配。具体过滤的字段，由各个接口额外定义参数。例如Workflow支持按照名称（name）进行过滤，则相应的过滤字段为na

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本（customize_service.py编写指导请见模型推理代码编写说明）。确认该cuda版本与您安装的mmcv版本是否匹配。部署时是否需要使用GPU，取决于的模型需要用到CPU还是GPU，以及推理脚本如何编写。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
分布式模型训练 - AI开发平台ModelArts

分布式模型训练分布式训练功能介绍创建单机多卡的分布式训练（DataParallel）创建多机多卡的分布式训练（DistributedDataParallel）示例：创建DDP分布式训练（PyTorch+GPU）示例：创建DDP分布式训练（PyTorch+NPU）父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
报错“The VS Code Server failed to start”如何解决？ - AI开发平台ModelArts

Ctrl+Shift+P，macOS：Cmd+Shift+P），搜索“Kill VS Code Server on Host”，选择出问题的实例进行自动清除，然后重新进行连接。图1 清除异常的实例父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
删除训练作业版本 - AI开发平台ModelArts

project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 version_id 是 Long 训练作业的版本ID。请求消息无请求参数。响应消息响应参数如表2所示。表2 响应参数参数参数类型说明 is_success

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业

总条数： 2293

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

停止可视化作业 - AI开发平台ModelArts

Lite Cluster使用前必读 - AI开发平台ModelArts

创建DevServer - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

CUDA和CUDNN - AI开发平台ModelArts

训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考 - AI开发平台ModelArts

调优数据集异常日志说明 - AI开发平台ModelArts

总览Workflow工作流 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

分布式模型训练 - AI开发平台ModelArts

报错“The VS Code Server failed to start”如何解决？ - AI开发平台ModelArts

删除训练作业版本 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线