搜索_华为云

CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
Lite Cluster&Server介绍 - AI开发平台ModelArts

ModelArts Lite Cluster面向k8s资源型用户，提供托管式k8s集群，并预装主流AI开发插件以及自研的加速插件，以云原生方式直接向用户提供AI Native的资源、任务等能力，用户可以直接操作资源池中的节点和k8s集群。请参见弹性集群k8s Cluster。 ModelArts

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

源池详情页面。在基本信息页面单击CCE集群，跳转到CCE集群详情页面。在CCE集群详情页，选择左侧导航栏的“节点管理”，选择“节点”页签。在节点列表，单击操作列的“更多 > 查看YAML”查看节点配置信息。查看节点的yaml文件里“cce.kubectl.kubernetes

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
配置kubectl工具 - AI开发平台ModelArts

弹性集群 Cluster”，进入“弹性集群 Cluster”页面，选择“Lite 资源池”页签。在“Lite资源池”页签中，单击创建的Lite Cluster专属资源池，进入资源池详情页面。图1 资源池详情-基本信息单击基本信息列中对应的“CCE集群”，进入CCE集群详情页面，在“集群信息”找到“连接信息”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
用户创建模型时构建镜像或导入文件失败 - AI开发平台ModelArts

led to copy model file due to obs exception. Please Check your obs access right.）或用户%s没有OBS的obs:object:PutObjectAcl权限（User %s does not have

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
查询开发环境实例列表 - AI开发平台ModelArts

参数类型说明 engine String 部署引擎，当前仅支持CCE。 params Object 部署参数，当前仅支持Docker，如表8所示。表8 Docker部署参数数据结构说明参数参数类型说明 namespace String SWR组织名称，全局唯一。 image_name

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
镜像方案说明 - AI开发平台ModelArts

镜像方案说明准备大模型训练适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。基础镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
推理性能测试 - AI开发平台ModelArts

--backend：服务类型，支持tgi、vllm、mindspore、openai等。本文档使用的推理接口是vllm。 --host ${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口8080。 --tokenizer：tokeniz

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
Lite Cluster - AI开发平台ModelArts
Lite Cluster - AI开发平台ModelArts

Lite Cluster 资源池创建失败的原因与解决方法？ Cluster资源池节点故障如何定位特权池信息数据显示均为0%如何解决？重置节点后无法正常使用？

帮助中心 > AI开发平台ModelArts > 故障排除
查询开发环境实例详情 - AI开发平台ModelArts

String 部署类型，当前仅支持Docker。 spec Object 部署详情，如表5所示。表5 spec字段数据结构说明参数参数类型说明 engine String 部署引擎，当前仅支持CCE。 params Object 部署参数，当前仅支持Docker，如表6所示。表6 Docker部署参数数据结构说明

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
更新开发环境实例信息 - AI开发平台ModelArts

String 部署类型，当前仅支持Docker。 spec Object 部署详情，如表8所示。表8 spec字段数据结构说明参数参数类型说明 engine String 部署引擎，当前仅支持CCE。 params Object 部署参数，当前仅支持Docker，如表9所示。表9 Docker部署参数数据结构说明

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
Lite Cluster - AI开发平台ModelArts
Lite Cluster - AI开发平台ModelArts

Lite Cluster Cluster资源池如何进行NCCl Test？

帮助中心 > AI开发平台ModelArts > 常见问题
镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” 问题现象镜像保存时报错BuildImage,True,Commit successfully|PushImage,False,Task

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
推理精度测试 - AI开发平台ModelArts

mlu、ceval。 service_url：成功部署推理服务后的服务预测地址，示例：http://${docker_ip}:8080/generate。此处的${docker_ip}替换为宿主机实际的IP地址，端口号8080来自前面配置的服务端口。 few_shot：开启少量样

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
（可选）配置驱动 - AI开发平台ModelArts

如果在购买资源池时，没配置自定义驱动，默认驱动不满足业务要求，可通过驱动升级功能将驱动升级到指定版本。驱动升级功能介绍可参考升级Lite Cluster资源池驱动。父主题： Lite Cluster资源配置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
语言模型推理性能测试 - AI开发平台ModelArts

csv --backend：服务类型，如tgi，vllm，mindspore、openai。 --host ${docker_ip}：服务部署的IP地址，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口。 --dataset：数据集路径。 --dataset-type：支持三种

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
多模态 - AI开发平台ModelArts
多模态 - AI开发平台ModelArts

默认为1，推荐设置为8。用于multi-step调度。每次调度生成多个token，可以降低时延。 --host=${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址，默认为None，举例：参数可以设置为0.0.0.0。 --port：服务部署的端口。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

钥方式登录裸金属服务器。拉取pytorch镜像，可以选择常用的镜像源进行下载。 docker pull nvcr.io/nvidia/pytorch:21.10-py3 启动容器。 docker run -d -t --network=host --gpus all --privileged

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

Cluster资源池节点故障如何定位故障说明和处理建议图1 Lite池故障处理流程对于ModelArts Lite资源池，每个节点会以DaemonSet方式部署node-agent组件，该组件会检测节点状态，并将检测结果写到K8S NodeCondtition中。同时，节点

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理

总条数： 2187

上一页
1
...
10
11
12
...
110
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

配置kubectl工具 - AI开发平台ModelArts

用户创建模型时构建镜像或导入文件失败 - AI开发平台ModelArts

查询开发环境实例列表 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

Lite Cluster - AI开发平台ModelArts

查询开发环境实例详情 - AI开发平台ModelArts

更新开发环境实例信息 - AI开发平台ModelArts

Lite Cluster - AI开发平台ModelArts

镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

（可选）配置驱动 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

多模态 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线