搜索_华为云

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

Bit之和大于64。发起维修流程。 NT_GPU_CARD_LOSE GPU 掉卡 GPU卡丢失。节点规格的GPU卡数和以下任意值不相等： lspci可见GPU卡数。 nvidia-smi可见卡数。 k8s可调度卡数不相等。发起维修流程。 NT_GPU_SMI_INFOROM_ERROR

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
分离部署推理服务 - AI开发平台ModelArts

介绍如何生成ranktable，以1p1d-tp2分离部署模式为例。当前1p1d分离部署模式，全量节点和增量节点分别占用2张卡，一共使用4张卡。配置tools工具根目录环境变量使用AscendCloud-LLM发布版本进行推理，基于AscendCloud-LLM包的解压路径配置tool工具根目录环境变量：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

首先进入已创建的CCE集群控制版面中。根据图2的步骤进行操作，单击kubectl配置时，会弹出图3步骤页面。图2 配置中心根据图3，按步骤进行：判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。图3 kubectl访问集群配置在节点机器中，输入命令，查看Kuberne

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

首先进入已创建的CCE集群控制版面中。根据图2的步骤进行操作，单击kubectl配置时，会弹出图3步骤页面。图2 配置中心根据图3，按步骤进行：判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。图3 kubectl访问集群配置在节点机器中，输入命令，查看Kuberne

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
不允许子账号使用公共资源池创建作业 - AI开发平台ModelArts

资源池规格只能选择专属资源池。使用子账号用户登录ModelArts控制台，选择“模型部署 > 在线服务”，单击“部署”，在部署服务页面，资源池规格只能选择专属资源池。父主题：典型场景配置实践

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
在推理生产环境中部署推理服务 - AI开发平台ModelArts

单扩容。 Step3 部署在线服务将Step2 部署模型中创建的AI应用部署为一个在线服务，用于推理调用。在ModelArts控制台，单击“部署上线 > 在线服务 > 部署”，开始部署在线服务。图5 部署在线服务设置部署服务名称，选择Step2 部署模型中创建的AI应用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

构建新镜像。注意：训练作业的资源池以及ECS都需要联通外网，否则会安装和下载失败。 ECS获取和上传基础镜像创建ECS。下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
配置多分支节点数据 - AI开发平台ModelArts

配置多分支节点数据功能介绍仅用于存在多分支执行的场景，在编写构建工作流节点时，节点的数据输入来源暂不确定，可能是多个依赖节点中任意一个节点的输出。只有当依赖节点全部执行完成后，才会根据实际执行情况自动获取有效输出作为输入。使用案例 from modelarts import

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
使用SmoothQuant量化 - AI开发平台ModelArts

amples 配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，若希望使用第一和第二张卡，则“export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

amples 配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，如果希望使用第一和第二张卡，则“export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
创建网络 - AI开发平台ModelArts
创建网络 - AI开发平台ModelArts

用户的vpc网段容器网段（固定是172.16.0.0/16）服务网段（固定是10.247.0.0/16）确认无误后，单击“确定”。父主题：基本配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

首先进入已创建的CCE集群控制版面中。根据图2的步骤进行操作，单击kubectl配置时，会弹出图3步骤页面。图2 配置中心根据图3，按步骤进行：判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。图3 kubectl访问集群配置在节点机器中，输入命令，查看Kuberne

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
在推理生产环境中部署推理服务 - AI开发平台ModelArts

单扩容。 Step3 部署在线服务将Step2 部署模型中创建的AI应用部署为一个在线服务，用于推理调用。在ModelArts控制台，单击“部署上线 > 在线服务 > 部署”，开始部署在线服务。图5 部署在线服务设置部署服务名称，选择Step2 部署模型中创建的AI应用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

# 安装量化模块的脚本 ... 具体操作如下：配置环境。 cd llm_tools/AutoSmoothQuant/ sh build.sh 配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

gsm8k_test 样例yaml配置文件结构分为 base块：基础配置块。 ModelName块：该模型所需配置的参数，如qwen2.5-7b块。 exp_name：实验块，训练策略-序列长度所需参数配置。样例yaml文件仅展示常用实验配置，如需其他配置需根据样例自行添加，样例截图如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
Yolov8基于DevServer适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

Duo推理卡的驱动版本低于24.1.RC2.3，请参考升级文档升级驱动(24.1.RC2.3升级操作和24.1.RC2相同)，24.1.RC2.3驱动软件包获取地址参考驱动软件包。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
使用SmoothQuant量化 - AI开发平台ModelArts

# 安装量化模块的脚本 ... 具体操作如下：配置环境。 cd llm_tools/AutoSmoothQuant/ sh build.sh 配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
分离部署推理服务 - AI开发平台ModelArts

介绍如何生成ranktable，以1p1d-tp2分离部署模式为例。当前1p1d分离部署模式，全量节点和增量节点分别占用2张卡，一共使用4张卡。配置tools工具根目录环境变量使用AscendCloud-LLM发布版本进行推理，基于AscendCloud-LLM包的解压路径配置tool工具根目录环境变量：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.912） - AI开发平台ModelArts

在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理

总条数： 1614

上一页
1
...
17
18
19
...
81
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

不允许子账号使用公共资源池创建作业 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

配置多分支节点数据 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

创建网络 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

Yolov8基于DevServer适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.912） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线