搜索_华为云

部署推理服务 - AI开发平台ModelArts

USE_VOCAB_PARALLEL=1 #打开词表切分开关 unset USE_VOCAB_PARALLEL #关闭词表切分开关配置后重启服务生效。 Matmul_all_reduce融合算子。使用Matmul_all_reduce融合算子能提升全量推理性能；该算子要求驱动和固件版本为Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.904）
使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

生产部署上对平台系统产生了新的要求。例如：导入模型时，需要支持动态调整租户存储配额；模型加载、启动慢，部署时需要灵活的超时配置；当负载异常重启，模型需要重新加载，服务恢复时间长的问题亟待解决。为了应对如上诉求，ModelArts推理平台针对性给出解决方案，用于支持大模型场景下的模型管理和服务部署。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

-aux查到的进程号，使用kill -9强制关闭进程。 sudo kill -9 <进程ID> 方法2：如果方法1执行后无法消除D+进程，请尝试重启服务器。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

在Notebook实例中运行训练代码，如果数据量太大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题，建议您创

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

SWR DEW ModelArts VPC ECS EVS 单机单卡按需购买（并行文件系统） × 免费免费包月购买免费 × 按需购买单机多卡 × 包月购买（HPC型500G）免费免费包月购买免费包月购买（Ubuntu 18.04，建议不小于2U8G，本地存储

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
ModelArts - AI开发平台ModelArts
ModelArts - AI开发平台ModelArts

ModelArts训练好后的模型如何获取？如何查看训练作业的资源占用情况？更多 Lite Server 哪里可以了解Atlas800训练服务器硬件相关内容 GPU A系列裸金属服务器如何更换NVIDIA和CUDA？更多开发环境在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多？

帮助中心 > AI开发平台ModelArts > 成长地图
日志提示“errorMessage:The specified key does not exist” - AI开发平台ModelArts

桶中的对象不存在，请检查OBS路径中的内容是否存在。具体错误码请参见OBS官方文档。处理方法检查OBS路径及内容格式是否正常。必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
启动Notebook实例 - AI开发平台ModelArts

endpoints Array of EndpointsRes objects 本地IDE（如PyCharm、VS Code）或SSH客户端，通过SSH远程接入Notebook实例时需要的相关配置。 fail_reason String 实例失败原因。 flavor String 实例规格。 id

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
删除Notebook实例 - AI开发平台ModelArts

endpoints Array of EndpointsRes objects 本地IDE（如PyCharm、VS Code）或SSH客户端，通过SSH远程接入Notebook实例时需要的相关配置。 fail_reason String 实例失败原因。 flavor String 实例规格。 id

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
停止Notebook实例 - AI开发平台ModelArts

endpoints Array of EndpointsRes objects 本地IDE（如PyCharm、VS Code）或SSH客户端，通过SSH远程接入Notebook实例时需要的相关配置。 fail_reason String 实例失败原因。 flavor String 实例规格。 id

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

进行适当的访问控制，以确保只有授权用户可以访问管理在线服务等相关资源。监控和报告任何异常活动，并及时采取措施。推理部署安全责任提供商底层ecs相关的系统补丁修复 k8s的版本更新和漏洞修复虚拟机OS的版本生命周期维护 ModelArts推理平台自身的安全合规性容器应用服务加固模型运行环境的版本更新和漏洞定期修复

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

system("rm /home/work/anaconda3/lib/libmkldnn.so.0") 必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
服务管理权限 - AI开发平台ModelArts

服务管理权限表1 服务管理细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目部署模型服务 POST /v1/{project_id}/services modelarts:service:create - √ √ 查询模型服务列表 GET /v1/

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
自动化脚本快速部署推理服务（推荐） - AI开发平台ModelArts

run，对应固件文件为Ascend-hdk-910b-npu-firmware_7.5.0.3.220.run，请申请下载。安装固件命令如下，安装完后需要reboot重启机器。 chmod 700 *.run ./Ascend-hdk-910b-npu-firmware_7.5.0.3.220.run --full

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 部署推理服务
执行训练任务【旧】 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.5.901） > 执行训练任务
执行训练任务【旧】 - AI开发平台ModelArts

ckpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
日志提示“ Network is unreachable” - AI开发平台ModelArts

load(checkpoint) model1.load_state_dict(state_dict) 必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

model(images.permute(0, 3, 1, 2).contigous()) 将版本回退至pytorch1.3。必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
创建生产训练作业（新版页面） - AI开发平台ModelArts

取值范围：1~128 提交创建训练作业后不支持修改重启次数，请合理设置次数。无条件自动重启开启无条件自动重启后，只要系统检测到训练异常，就无条件重启训练作业。为了避免无效重启浪费算力资源，系统最多只支持连续无条件重启3次。作业卡死重启系统支持自动监控作业进程的状态和资源利用率来

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
修改在线服务配置 - AI开发平台ModelArts

当修改了服务的某些参数配置时，系统会自动重启服务使修改生效。在提交修改服务任务时，如果涉及重启，会有弹窗提醒。在线服务参数说明请参见部署模型为在线服务。修改在线服务还需要配置“最大无效实例数”设置并行升级的最大节点数，升级阶段节点无效。修改在线服务参数时，可通过增加一个自定义的环境变量参数，触发服务重启。例如

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务

总条数： 1881

上一页
1
...
10
11
12
...
95
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

部署推理服务 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

ModelArts - AI开发平台ModelArts

日志提示“errorMessage:The specified key does not exist” - AI开发平台ModelArts

启动Notebook实例 - AI开发平台ModelArts

删除Notebook实例 - AI开发平台ModelArts

停止Notebook实例 - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

服务管理权限 - AI开发平台ModelArts

自动化脚本快速部署推理服务（推荐） - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

日志提示“ Network is unreachable” - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

创建生产训练作业（新版页面） - AI开发平台ModelArts

修改在线服务配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线