搜索_华为云

附录：训练常见问题 - AI开发平台ModelArts

9/site-packages/transformers/dynamic_module_utils.py 问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
ModelArts在线服务的API接口组成规则是什么？ - AI开发平台ModelArts

ModelArts在线服务的API接口组成规则是什么？模型部署成在线服务后，用户可以获取API接口用于访问推理。 API接口组成规则如下： https://域名/版本/infer/服务ID 示例如下： https://6ac81cdfac4f4a30be95xxxbb682.apig.xxx.xxx.com/v1/

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
集成在线服务API至生产环境中应用 - AI开发平台ModelArts

确保在线服务一直处于“运行中”状态，否则会导致生产环境应用不可用。集成方式 ModelArts在线服务提供的API是一个标准的Restful API，可使用HTTPS协议访问。ModelArts提供了SDK用于调用在线服务API，SDK调用方式请参见《SDK参考》>“场景1：部署在线服务Predictor的推理预测”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
查看在线服务的事件 - AI开发平台ModelArts

异常部署服务超时，错误信息：xxx Deploying timeout, details: %s 请根据错误信息定位和处理问题。异常启动服务失败，错误信息xxx Service %s started failed, error message: %s 请根据错误信息定位和处理问题。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
应用场景 - AI开发平台ModelArts
应用场景 - AI开发平台ModelArts

提供端到端AI生产线能力和高性能AI算力，提升大模型推理效率，为矿山行业带来更高效、智能、安全和可持续的生产方案。铁路实现列车智能调度、设备故障预测、铁路线路安全监控等功能。医疗报告智能解读、互联网检验以及居民全周期健康管理等领域的应用，为用户提供更加多元化、智慧化、精益化的服务。

帮助中心 > AI开发平台ModelArts > 产品介绍
创建资源池 - AI开发平台ModelArts

String ModelArts错误码。 error_msg String 具体错误信息。状态码：409 表29 响应Body参数参数参数类型描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例创建专属

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
Standard资源池功能介绍 - AI开发平台ModelArts

专属资源池提供了工作空间功能，管理员可以根据工作空间，隔离不同子用户操作工作空间内资源的权限，您可通过迁移Standard专属资源池和网络至其他工作空间将资源池移动到对应的工作空间下。专属资源池可通过标签来进行管理，具体可参见使用TMS标签实现资源分组管理管理专属资源池标签。当不再需要使用专属资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
分离部署推理服务 - AI开发平台ModelArts

安装过程需要连接互联网git clone，确保容器可以访问公网。 Step1 检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

资源。安装过程需要连接互联网git clone，确保容器可以访问公网。步骤一检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
附录：微调训练常见问题 - AI开发平台ModelArts

9/site-packages/transformers/dynamic_module_utils.py 问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
附录：训练常见问题 - AI开发平台ModelArts

9/site-packages/transformers/dynamic_module_utils.py 问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

9/site-packages/transformers/dynamic_module_utils.py 问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
日志提示“no socket interface found” - AI开发平台ModelArts

在pytorch镜像运行分布式作业时，设置NCCL日志级别，代码如下： import os os.environ["NCCL_DEBUG"] = "INFO" 会出现如下错误： job0879f61e-job-base-pda-2-0:712:71 2 [0] bootstrap.cc:37 NCCL WARN

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VsCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
图模式 - AI开发平台ModelArts
图模式 - AI开发平台ModelArts

根据使用场景合理设置动态分档以及max_num_seqs参数，避免档位过大导致图编译错误。 MoE模型依赖MindSpeed，当使用MoE模型推理时，需提前安装： git clone https://gitee.com/ascend/MindSpeed.git cd MindSpeed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
返回结果 - AI开发平台ModelArts
返回结果 - AI开发平台ModelArts

当接口调用出错时，会返回错误码及错误信息说明，错误响应的Body体格式如下所示。 { "error_msg": "The format of message is error", "error_code": "AS.0001" } 其中，error_code表示错误码，erro

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
创建标注团队 - AI开发平台ModelArts

状态码状态码描述 201 Created 401 Unauthorized 403 Forbidden 404 Not Found 错误码请参见错误码。父主题：数据管理（旧版）

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
批量删除标注团队成员 - AI开发平台ModelArts

状态码： 200 表3 响应Body参数参数参数类型描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 results Array of BatchResponse objects 批量删除标注团队成员的结果。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查看批量服务的事件 - AI开发平台ModelArts

异常部署服务超时，错误信息：xxx Deploying timeout, details: %s 请根据错误信息定位和处理问题。异常启动服务失败，错误信息xxx Service %s started failed, error message: %s 请根据错误信息定位和处理问题。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
创建图像分类数据集并进行标注任务 - AI开发平台ModelArts

"source": "https://test-obs.obs.{ma_endpoint}.com:443/classify/input/cat-dog/36502.jpg......", "preview": "https://test-obs.obs

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例

总条数： 1074

上一页
1
...
33
34
35
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：训练常见问题 - AI开发平台ModelArts

ModelArts在线服务的API接口组成规则是什么？ - AI开发平台ModelArts

集成在线服务API至生产环境中应用 - AI开发平台ModelArts

查看在线服务的事件 - AI开发平台ModelArts

应用场景 - AI开发平台ModelArts

创建资源池 - AI开发平台ModelArts

Standard资源池功能介绍 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

图模式 - AI开发平台ModelArts

返回结果 - AI开发平台ModelArts

创建标注团队 - AI开发平台ModelArts

批量删除标注团队成员 - AI开发平台ModelArts

查看批量服务的事件 - AI开发平台ModelArts

创建图像分类数据集并进行标注任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线