搜索_华为云

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

Arts监控服务。设置告警规则有多种方式。您可以根据实际应用场景，选择设置告警规则的方式。对ModelArts服务设置告警规则对单个服务设置告警规则对模型版本设置告警规则对服务或模型版本的单个指标设置告警规则方式一：对整个ModelArts服务设置告警规则登录管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──Dockerfile 代码上传至SFS Turbo 将AscendFactory代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS Turbo中，例如存放在/mnt/sfs_turbo/AscendCloud-LLM-xxx.zip目录下并解压缩。 unzip

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
Step3 为用户配置ModelArts的委托访问授权 - AI开发平台ModelArts

Step3 为用户配置ModelArts的委托访问授权配置完IAM权限之后，需要在ModelArts页面为子账号设置ModelArts访问授权，允许ModelArts访问OBS、SWR、IEF等依赖服务。此方式只允许主用户为子账号进行配置。因此，本示例中，管理员账号需为所有用户完成访问授权的配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──AscendSpeed # 基于AscendSpeed的训练代码工作目录介绍详细的工作目录参考如下，建议参考以下要求设置工作目录。 ${workdir}（例如/home/ma-user/ws ） |──llm_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
附录：部署常见问题 - AI开发平台ModelArts

enough“的问题问题：容器共享内存不足解决方法：在启动docker的命令中增加“--shm-size=${memSize}“，其中memSize为要设置的共享内存大小，如2g。 --shm-size 2g \ 如何解决MindIE服务已退出情况下显存依然占用的问题问题：服务退出显存未完全释放

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？ - AI开发平台ModelArts

如果使用的是专业版的MobaXterm工具，请执行步骤3。如果使用的是专业版的MobaXterm工具，请参考图3 设置“Stop server after”，此参数默认值为360s，将其设置为3600s或更大值。图3 设置“Stop server after” 父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

resource_requirements 否 Array of ResourceRequirement objects 算法资源约束。可不设置。设置后，在算法使用于训练作业时，控制台会过滤可用的公共资源池。 advanced_config 否 AlgorithmAdvancedConfig

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

盘资源。ModelArts Lite Server支持配置的存储方案请参考配置Lite Server存储。其中访问方式中，可支持在裸金属服务器中挂载的有弹性文件服务SFS和云硬盘EVS。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问方式中，可支持在裸金属服务器中挂载的有弹性文件服务SFS和云硬盘EVS。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问方式中，可支持在裸金属服务器中挂载的有弹性文件服务SFS和云硬盘EVS。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
创建可视化作业 - AI开发平台ModelArts

Object 自动停止设置。参见表4。表3 flavor属性列表参数是否必选参数类型说明 code 是 String 可视化作业选择的资源规格编码。通过flavor接口获得。表4 schedule属性列表参数是否必选参数类型说明 type 是 String 设置为stop。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
从0-1制作自定义镜像并创建模型 - AI开发平台ModelArts

x86_x64架构的主机为例，您可以购买相同规格的ECS或者应用本地已有的主机进行自定义镜像的制作。购买ECS服务器的具体操作请参考购买并登录弹性云服务器。镜像选择公共镜像，推荐使用ubuntu18.04的镜像。图1 创建ECS服务器-选择X86架构的公共镜像登录主机后，安装D

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

创建完Notebook后，单击操作列的“打开”，报错如下：解决方案：复制页面的域名，添加到windows代理“请勿对以下列条目开头的地址使用代理服务器”中，然后保存就可以正常打开。父主题：实例故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Face权重文件以及训练代码都需要上传至SFS Turbo中。而基于SFS Turbo所执行的训练流程如下：将SFS Turbo挂载至ECS服务器后，可直接访问SFS Turbo。通过SSH连接ECS将代码包上传至SFS Turbo中。在表1获取基础镜像，随后通过镜像方案说明中的步骤执行代码包中llm_t

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
场景描述 - AI开发平台ModelArts
场景描述 - AI开发平台ModelArts

子账号的权限，由主用户来控制，主用户通过IAM的权限配置功能设置用户组的权限，从而控制用户组内的子账号的权限。此处的授权列表均按照ModelArts和其他服务的系统预置策略来举例。表1 服务授权列表待授权的服务授权说明 IAM权限设置是否必选 ModelArts 授予子账号使用ModelArts服务的权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

x86_64架构的主机，操作系统使用ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”，“镜像”选择“公共镜像”，推荐使用Ubuntu18

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

x86_64架构的主机，操作系统使用ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”，“镜像”选择“公共镜像”，推荐使用Ubuntu18

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

录为“obs://my_bucket/train_url”，则设置参数“checkpoint_url=obs://my_bucket/train_url/last.pt”，并设置参数epochs=80（如果第二次设置参数epochs=30则增量训练只会训练29个epochs）。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障

总条数： 1947

上一页
1
...
10
11
12
...
98
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Step3 为用户配置ModelArts的委托访问授权 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

附录：部署常见问题 - AI开发平台ModelArts

使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？ - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

创建可视化作业 - AI开发平台ModelArts

从0-1制作自定义镜像并创建模型 - AI开发平台ModelArts

创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

场景描述 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线