搜索_华为云

部署推理服务 - AI开发平台ModelArts

评估推理资源。运行如下命令，返回NPU设备信息可用的卡数。 npu-smi info # 启动推理服务之前检查卡是否被占用、端口是否被占用，是否有对应运行的进程如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
查看训练作业详情 - AI开发平台ModelArts

s后台容器中存储输入数据的路径。 “输出-输出路径” 本次训练中，输出数据的OBS路径。 “输出-参数名称” 算法代码中，输出路径指代的参数。 “输出-获取方式” 本次训练作业的输出采用的获取方式。 “输出-本地路径（训练参数值）” ModelArts后台容器中存储训练输出的路径。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查询服务更新日志 - AI开发平台ModelArts

String 容器中的日志路径。表10 PersistentVolumes 参数参数类型描述 name String 存储卷的名称。 mount_path String 存储卷在容器中的挂载路径。如：/tmp。请不要挂载在系统目录下，如“/”、“/var/run”等，会导致容器异常。建

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
启动/停止/删除实例 - AI开发平台ModelArts

您可以通过保存镜像的方式保留开发环境设置，具体操作请参考保存Notebook实例。 Notebook实例将停止计费，但如有EVS盘挂载，存储部分仍会继续计费。删除实例针对不再使用的Notebook实例，可以删除以释放资源。登录ModelArts管理控制台，在左侧菜单栏中选

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
创建Workflow数据集节点 - AI开发平台ModelArts

基于已标注的数据创建数据集，并自动导入标注信息基于未标注数据创建数据集数据准备：存储在OBS文件夹中的未标注的数据。 from modelarts import workflow as wf # 通过CreateDatasetStep将存储在OBS中的数据创建成一个新版数据集 # 定义数据集输出路径参数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

相应目录没有生成大小>0的日志文件，则对应的父级目录也不会上传。因此，PyTorch NPU的plog日志是按worker存储的，而不是按rank id存储的（这是区别于MindSpore的）。目前，PyTorch NPU并不依赖rank table file。 #!/bin/bash

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
准备Notebook - AI开发平台ModelArts

Turbo，以便能够通过Notebook访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。创建Notebook 创建开发环境Notebook实例，具体操作步骤请参考创建Notebook实例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
Notebook中构建新镜像 - AI开发平台ModelArts

Turbo，以便能够通过Notebook访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。 Step1 创建Notebook 创建开发环境Notebook实例，具体操作步骤请参考创建Notebook实例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
日志提示"write line error" - AI开发平台ModelArts

“/”根目录，是docker中配置项“base size”，默认是10G，云上统一改为50G。 “/cache”目录满了，一般是3.5T存储空间满了，具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。处理方法如果在训练作业的工作目录下有core文件生

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
Lite Server高危操作一览表 - AI开发平台ModelArts

因此EVS系统盘将不支持扩容，并显示信息：“当前订单已到期，无法进行扩容操作，请续订”。中切换或者重置操作系统后，建议通过挂载数据盘EVS或挂载SFS盘等方式进行存储扩容。父主题： Lite Server使用前必读

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
查询训练作业参数详情 - AI开发平台ModelArts

volumes属性列表参数参数类型说明 nfs Object 共享文件系统类型的存储卷。仅支持运行于已联通共享文件系统网络的资源池的训练作业。具体请参见表6。 host_path Object 主机文件系统类型的存储卷。仅支持运行于专属资源池中的训练作业。具体请参见表7。表6 nfs属性列表

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

检查浏览器是否安装了过滤广告组件，如果是，请关闭该组件。报错404 如果是IAM用户在创建实例时出现此错误，表示此IAM用户不具备对应存储位置（OBS桶）的操作权限。解决方法：使用账号登录OBS，并将对应OBS桶的访问权限授予该IAM用户。详细操作指导请参见：被授权用户。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

容器引擎选择Containerd。图1 购买Lite专属池 k8s Cluster资源配置如果已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

容器引擎选择Containerd。图1 购买Lite专属池 k8s Cluster资源配置如果已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
分离部署推理服务 - AI开发平台ModelArts

启动全量推理实例：必须为NPU实例，用于启动全量推理服务，负责输入的全量推理。全量推理占用至少1个容器。 Step7 启动增量推理实例：必须为NPU实例，用于启动增量推理服务，负责输入的增量推理。增量推理占用至少1个容器。 Step8 启动scheduler实例：可为CPU实例，用于启动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

启动全量推理实例：必须为NPU实例，用于启动全量推理服务，负责输入的全量推理。全量推理占用至少1个容器。步骤七启动增量推理实例：必须为NPU实例，用于启动增量推理服务，负责输入的增量推理。增量推理占用至少1个容器。步骤八启动scheduler实例：可为CPU实例，用于启动api

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.912） - AI开发平台ModelArts

以更好地对齐文本和视频剪辑。作为一个开源的大规模预训练文本到视频模型，CogVideo性能优于所有公开可用的模型，在机器和人类评估方面都有很大的优势。方案概览本方案介绍了在ModelArts的Server上使用昇腾计算资源开展CogVideoX1.5 5b全量微调的详细过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

容器引擎选择Containerd。图1 购买Lite专属池 k8s Cluster资源配置若已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

t_hccl.json 图6 启动训练任务训练任务加载需要一定时间，在等待若干分钟后，可以执行下述命令查看卡信息。如下图可见，8张卡均被占用，说明训练任务在进行中 npu-smi info 图7 查看卡信息若想停止训练任务，可执行下述命令关闭进程，查询进程后显示已无运行中python进程。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

的数据和应用程序，以及遵守相关的合规性要求。具体而言，云服务提供商应该提供以下服务和功能：建立和维护安全的基础设施，包括网络、服务器和存储设备等。提供安全的底层基础平台，保证底层环境的运行时安全。提供安全的身份验证和访问控制机制，以确保只有授权用户可以访问云服务，保证租户之间的相互隔离。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全

总条数： 563

上一页
1
...
18
19
20
...
29
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

部署推理服务 - AI开发平台ModelArts

查看训练作业详情 - AI开发平台ModelArts

查询服务更新日志 - AI开发平台ModelArts

启动/停止/删除实例 - AI开发平台ModelArts

创建Workflow数据集节点 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

Notebook中构建新镜像 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

Lite Server高危操作一览表 - AI开发平台ModelArts

查询训练作业参数详情 - AI开发平台ModelArts

创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.912） - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线