搜索_华为云

修改训练作业优先级 - AI开发平台ModelArts

在统一身份认证服务页面的左侧导航选择“用户组”，在用户组页面查找待授权的用户组名称，在右侧的操作列单击“授权”，勾选步骤2创建的自定义策略，单击“下一步”，选择授权范围方案，单击“确定”。此时，该用户组下的所有用户均有权限通过Cloud Shell登录运行中的训练作业容器。如果没有用户组，也可以创建一个新

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
Ascend-vLLM介绍 - AI开发平台ModelArts

高推理效率。模型：结构实现和社区一致，Huggingface模型开箱即用，同时可以快速适配新模型。调用：提供高性能算子下发和图模式两种方案，兼顾性能和灵活性。特性：服务调度、特性实现和社区一致，针对昇腾硬件做亲和替换和优化。接口：离线SDK、在线OpenAI Server和社区完全一致，无缝迁移。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

y”，在右侧的操作列单击“授权”，勾选步骤2创建的自定义策略“委托modelarts操作SFS Turbo”，单击“下一步”，选择授权范围方案，单击“确定”。此时，拥有该委托的所有用户均有权限进行关联与解除关联操作。验证登录ModelArts控制台，选择“专属资源池 > 网

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
准备Notebook - AI开发平台ModelArts

MindSpeed昇腾大模型加速库 |──ModelLink/ # ModelLink端到端的大语言模型方案 |——megatron/ # 注意：该文件夹从Megatron-LM中复制得到

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

等内容进行配置。请参考k8s Cluster环境配置详细流程。其中k8s Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。例如OBS支持静态挂载和动态挂载，而SFS Turbo仅支持静态挂载，详细的挂载操作流程可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

等内容进行配置。请参考k8s Cluster环境配置详细流程。其中k8s Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。例如OBS支持静态挂载和动态挂载，而SFS Turbo仅支持静态挂载，详细的挂载操作流程可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

等内容进行配置。请参考k8s Cluster环境配置详细流程。其中k8s Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。例如OBS支持静态挂载和动态挂载，而SFS Turbo仅支持静态挂载，详细的挂载操作流程可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
Notebook中构建新镜像 - AI开发平台ModelArts

MindSpeed昇腾大模型加速库 |──ModelLink/ # ModelLink端到端的大语言模型方案 |——megatron/ # 注意：该文件夹从Megatron-LM中复制得到

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

等内容进行配置。请参考k8s Cluster环境配置详细流程。其中k8s Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。例如OBS支持静态挂载和动态挂载，而SFS Turbo仅支持静态挂载，详细的挂载操作流程可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
Lite Server使用流程 - AI开发平台ModelArts

骤。图1 使用流程资源开通由于Server为一台裸金属服务器，因此需要先购买资源后才能使用。首先请联系客户经理确认Server资源方案，部分规格为受限规格，因此需要申请开通您所需的资源规格。 Server所需资源可能会超出华为云默认提供的资源配额（如ECS、EIP、SFS），因此需要提交工单提升资源配额。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

检查报错的路径是否存在由于用户本地开发的代码需要上传至ModelArts后台，训练代码中涉及到依赖文件的路径时，用户设置有误的场景较多。推荐通用的解决方案：使用os接口得到依赖文件的绝对路径，避免报错。示例： |---project_root #代码根目录

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

遵守相关的合规性要求，如GDPR、HIPAA、PCI DSS等。进行适当的访问控制，以确保只有授权用户可以访问管理在线服务等相关资源。监控和报告任何异常活动，并及时采取措施。推理部署安全责任提供商底层ecs相关的系统补丁修复 k8s的版本更新和漏洞修复虚拟机OS的版本生命周期维护 ModelArts推理平台自身的安全合规性

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

Prometheus 在HTTP的URL输入框中输入Prometheus的IP地址和端口号，单击Save&Test：图2 IP地址和端口号至此，指标监控方案安装完成。指标监控效果展示如下：图3 指标监控效果这里使用的是Grafana最基本的功能，如有更高级的诉求，可参考Grafana的官方文档。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
Lite Cluster使用流程 - AI开发平台ModelArts

Engine，简称CCE）是一个企业级的Kubernetes集群托管服务，支持容器化应用的全生命周期管理，为您提供高度可扩展的、高性能的云原生应用部署和管理方案。CCE官网文档可参考云容器引擎。 BMS 裸金属服务器（Bare Metal Server）是一款兼具虚拟机弹性和物理机性能的计算类服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

活的超时配置；当负载异常重启，模型需要重新加载，服务恢复时间长的问题亟待解决。为了应对如上诉求，ModelArts推理平台针对性给出解决方案，用于支持大模型场景下的模型管理和服务部署。约束与限制需要申请单个模型大小配额和添加使用节点本地存储缓存的白名单。需要使用自定义引擎Custom，配置动态加载。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
什么是ModelArts - AI开发平台ModelArts

为客户提供了统一边缘部署和管理能力，支持统一纳管异构边缘设备，提供模型部署、Al应用和节点管理、资源池与负载均衡、应用商用保障等能力，帮助客户快速构建高性价比的边云协同AI解决方案。适用于边缘部署场景。 AI Gallery AI Gallery百模千态社区，为用户提供优质的昇腾云AI模型开发体验和丰富的社区资源。

帮助中心 > AI开发平台ModelArts > 产品介绍
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

MindSpeed昇腾大模型加速库 |──ModelLink/ # ModelLink端到端的大语言模型方案 |——megatron/ # 注意：该文件夹从Megatron-LM中复制得到

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 准备工作
查看在线服务的事件 - AI开发平台ModelArts

任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件信息（“XXX”表示占位符，以实际返回信息为准）解决方案正常开始部署服务。 Start to deploy service. - 异常资源不足，等待资源释放。 Lack of resources

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

MindSpeed昇腾大模型加速库 |──ModelLink/ # ModelLink端到端的大语言模型方案 |——megatron/ # 注意：该文件夹从Megatron-LM中复制得到

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
查看批量服务的事件 - AI开发平台ModelArts

任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件信息（“XXX”表示占位符，以实际返回信息为准）解决方案正常开始部署服务。 Start to deploy service. - 异常资源不足，等待资源释放。 Lack of resources

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业

总条数： 340

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

修改训练作业优先级 - AI开发平台ModelArts

Ascend-vLLM介绍 - AI开发平台ModelArts

委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

Notebook中构建新镜像 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

查看在线服务的事件 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

查看批量服务的事件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线