搜索_华为云

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

smi”命令功能获取相关信息，存在锁死的风险。出现D+进程后可以尝试如下方法：方法1：可以根据ps -aux查到的进程号，使用kill -9强制关闭进程。 sudo kill -9 <进程ID> 方法2：如果方法1执行后无法消除D+进程，请尝试重启服务器。父主题： Lite

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
修改模型服务QPS - AI开发平台ModelArts

Studio大模型即服务平台。在ModelArts Studio左侧导航栏中，选择“模型部署”进入服务列表。选择“我的服务”页签。选择模型服务，单击操作列的“更多 > 设置QPS”，在弹窗中修改数值，单击“提交”启动修改任务。图1 修改QPS 在我的服务列表，单击服务名称，进入服

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 管理我的服务
用户执行huaweicloud.com相关API超时 - AI开发平台ModelArts

i.com不通过公网代理，huaweicloud.com域名在no_proxy/NO_PROXY中包含，就访问不了。解决方式执行以下命令查看在no_proxy/NO_PROXY中是否包含huaweicloud.com域名。 env | grep -i no_proxy 如果包

 帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
工具介绍及准备工作 - AI开发平台ModelArts

# 工具代码目录 ├── accuracy.py #精度测试脚本 ├── common_utils.py #获取训练日志工具 ├── performance.py #性能测试脚本 ├── trainer.py #训练启动脚本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

+Ascend）。驱动版本与底层驱动不兼容当对自定义镜像的驱动进行升级时，请确定底层驱动是否兼容。当前支持哪种驱动版本，请从基础镜像中获取。文件权限不足该问题可能为自定义镜像的用户与作业容器的用户不同导致的。请修改dockerfile文件： RUN if id -u ma-user

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 问题现象在线服务部署完成且服务已经处于“运行中”的状态后，向运行的服务发起推理请求，报错ModelArts.4503。原因分析及处理方法服务预测报错ModelArts.4503有多种场景，常见场景如下：通信出错请求报错：{"

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
在线服务预测报错MR.0105 - AI开发平台ModelArts

在线服务预测报错MR.0105 问题现象部署为在线服务，服务处于运行中状态，预测时报错：{ "erno": "MR.0105", "msg": "Recognition failed","words_result": {}}。图1 预测报错原因分析请在“在线服务”详情页面

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

在线服务预测报错ModelArts.4302 问题现象在线服务部署完成且服务已经处于“运行中”的状态后，向运行的服务发起推理请求，报错ModelArts.4302。原因分析及处理方法服务预测报错ModelArts.4302有多种场景，以下主要介绍两种场景： "error_msg":

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
训练精度测试 - AI开发平台ModelArts

<cfgs_yaml_file> <model_name> <run_type> <cfgs_yaml_file>：精度测试配置的yaml文件地址，指代码目录中accuracy_cfgs.yaml相对或绝对路径 <model_name>：训练模型名，如qwen2.5-7b <run_

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
训练精度测试 - AI开发平台ModelArts

<cfgs_yaml_file> <model_name> <run_type> <cfgs_yaml_file>：精度测试配置的yaml文件地址，指代码目录中accuracy_cfgs.yaml相对或绝对路径 <model_name>：训练模型名，如qwen2.5-7b <run_

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

在遇到资源不足的情况时，ModelArts会进行三次重试，在服务重试期间，如果有资源释放出来，则服务可以正常部署成功。如果三次重试后依然没有足够的资源，则本次服务部署失败。参考以下方式解决：如果是在公共资源池部署服务，可等待其他用户释放资源后，再进行服务部署。如果是在专属资源池部署服务，在满足模型需求的前提下

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
ModelArts在线服务和批量服务有什么区别？ - AI开发平台ModelArts

ModelArts在线服务和批量服务有什么区别？在线服务将模型部署为一个Web服务，您可以通过管理控制台或者API接口访问在线服务。批量服务批量服务可对批量数据进行推理，完成数据处理后自动停止。批量服务一次性推理批量数据，处理完服务结束。在线服务提供API接口，供用户调用推理。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
状态码 - AI开发平台ModelArts
状态码 - AI开发平台ModelArts

Failed 未满足前提条件，服务器未满足请求者在请求中设置的其中一个前提条件。 413 Request Entity Too Large 由于请求的实体过大，服务器无法处理，因此拒绝请求。为防止客户端的连续请求，服务器可能会关闭连接。如果只是服务器暂时无法处理，则会包含一个Retry-After的响应信息。

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
安装VS Code软件 - AI开发平台ModelArts

安装VS Code软件 VS Code下载方式：下载地址: https://code.visualstudio.com/updates/v1_85 图1 VS Code的下载位置 VS Code版本要求：建议用户使用VS Code 1.85.2版本进行远程连接。 VS Code安装指导如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found 问题现象部署在线服务出现报错No CUDA runtime is found，using CUDA_HOME='/usr/local/cuda'。原因分析从日志报错信息No CUDA runtime is

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
扩缩容模型服务实例数 - AI开发平台ModelArts

Studio左侧导航栏中，选择“模型部署”进入服务列表。选择“我的服务”页签。选择模型服务，单击操作列的“更多 > 扩缩容”，进入扩缩容页面。在扩缩容页面，根据业务需要增删模型服务的实例数，配置完成后，单击“确认”提交扩缩容任务。在我的服务列表，单击服务名称，进入服务详情页，可以查看修改后的实例数是否生效。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 管理我的服务
托管模型到AI Gallery - AI开发平台ModelArts

规范，否则该模型无法正常使用AI Gallery工具链服务（微调大师和在线推理服务）。当托管的是自定义镜像时，上传的模型文件要满足自定义镜像规范，否则该镜像无法正常使用AI Gallery工具链服务（微调大师和在线推理服务）。当文件状态变成“上传成功”表示数据文件成功上传至AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
服务状态一直处于“部署中” - AI开发平台ModelArts

服务状态一直处于“部署中” 问题现象服务状态一直处于“部署中”，查看模型日志未发现服务有明显错误。原因分析一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。处理方法模型的端口没有配置，如您在自定义镜像配置文件中修改了端口号，需要在部署模型时，配置对应的端口号，使新的模型重新部署服务。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
工具介绍及准备工作 - AI开发平台ModelArts

# 工具代码目录 ├── accuracy.py #精度测试脚本 ├── common_utils.py #获取训练日志工具 ├── performance.py #性能测试脚本 ├── trainer.py #训练启动脚本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
ModelArts在线服务和边缘服务有什么区别？ - AI开发平台ModelArts

ModelArts在线服务和边缘服务有什么区别？在线服务将模型部署为一个Web服务，您可以通过管理控制台或者API接口访问在线服务。边缘服务云端服务是集中化的离终端设备较远，对于实时性要求高的计算需求，把计算放在云上会引起网络延时变长、网络拥塞、服务质量下降等问题。而终端

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署

总条数： 2249

上一页
1
...
98
99
100
...
113
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

修改模型服务QPS - AI开发平台ModelArts

用户执行huaweicloud.com相关API超时 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

在线服务预测报错MR.0105 - AI开发平台ModelArts

在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

ModelArts在线服务和批量服务有什么区别？ - AI开发平台ModelArts

状态码 - AI开发平台ModelArts

安装VS Code软件 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

扩缩容模型服务实例数 - AI开发平台ModelArts

托管模型到AI Gallery - AI开发平台ModelArts

服务状态一直处于“部署中” - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

ModelArts在线服务和边缘服务有什么区别？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线