搜索_华为云

准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
部署推理服务 - AI开发平台ModelArts

将权重文件上传到集群节点机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表和权重文件。如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。 Step2 配置pod 在节点自定义目录$

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 准备工作
查询数据集详情 - AI开发平台ModelArts

Integer 标签类型。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组关系标签 103：文本三元组实体标签 200：语音分类 201：语音内容 202：语音分割 600：视频标注表8 Field 参数参数类型描述

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
更新Workflow Execution - AI开发平台ModelArts

JobInput objects 节点的输入项。 outputs 否 Array of JobOutput objects 节点的输出项。 step_uuid 否 String 节点的UUID，唯一性标识。 properties 否 Map<String,Object> 节点的属性。 events

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
如何提升训练效率，同时减少与OBS的交互？ - AI开发平台ModelArts

希望提升训练效率，同时减少与对象存储OBS的交互。可通过如下方式进行调整优化。优化原理对于ModelArts提供的GPU资源池，每个训练节点会挂载500GB的NVMe类型SSD提供给用户免费使用。此SSD挂载到“/cache”目录，“/cache”目录下的数据生命周期与训练作业生

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
计费样例 - AI开发平台ModelArts
计费样例 - AI开发平台ModelArts

8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数：1个用了一段时间后，用户发现当前规格无法满足业务需要，于2023/03/20 9:00:00扩容规格增加1个节点（扩容后，共有2个节点）。因为该专属资源池打算长期使用下去，于2023/03/20 10:

帮助中心 > AI开发平台ModelArts > 计费说明
使用AWQ量化 - AI开发平台ModelArts

本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16 per-channel Step1 环境准备在节点自定义目录${node_path}下创建config.yaml文件 apiVersion: apps/v1 kind: Deployment

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用基础镜像 - AI开发平台ModelArts

ed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
obsutil安装和配置 - AI开发平台ModelArts

obsutil安装和配置的具体操作指导请参见obsutils快速入门。操作命令中的AK/SK要换成用户实际获取的AK/SK，Endpoint可以参考终端节点（Endpoint）和访问域名获取。父主题：基本配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
使用AWQ量化 - AI开发平台ModelArts

本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16 per-channel Step1 环境准备在节点自定义目录${node_path}下创建config.yaml文件 apiVersion: apps/v1 kind: Deployment

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
非分离部署推理服务 - AI开发平台ModelArts

ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 # 将其中一个节点设为头节点 ray start --head --num-gpus=8 # 在其他节点执行 ray start --address='10.170.22.18:6379' --num-gpus=8

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
查询数据集列表 - AI开发平台ModelArts

Integer 标签类型。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组关系标签 103：文本三元组实体标签 200：语音分类 201：语音内容 202：语音分割 600：视频标注表9 AnnotationFile

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
复制数据至容器中空间不足 - AI开发平台ModelArts

on device 原因分析数据下载至容器的位置空间不足。处理方法请排查是否将数据下载至“/cache”目录下，GPU规格资源的每个节点会有一个“/cache”目录，空间大小为4TB。并确认该目录下并发创建的文件数量是否过大，占用过多存储空间会出现inode耗尽的情况，导致空间不足。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
使用基础镜像 - AI开发平台ModelArts

ed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
使用AWQ量化 - AI开发平台ModelArts

本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16 per-channel Step1 环境准备在节点自定义目录${node_path}下创建config.yaml文件 apiVersion: apps/v1 kind: Deployment

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
Lite Cluster使用流程 - AI开发平台ModelArts

k8s Cluster节点默认会安装os-node-agent插件，用于对节点进行管理，例如：驱动升级：通过os-node-agent插件下载驱动文件并进行驱动版本升级、回退。故障检测：通过os-node-agent插件在系统内周期性巡检故障特征，及时发现节点故障。指标采集：通

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
Lite Cluster资源管理介绍 - AI开发平台ModelArts

管理Lite Cluster节点池：为帮助您更好地管理Kubernetes集群内的节点，ModelArts支持通过节点池来管理节点。节点池是集群中具有相同配置的一组节点，一个节点池包含一个节点或多个节点，您可以创建、更新和删除节点池。管理Lite Cluster节点：节点是容器集群组成的基

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
配置Workflow参数 - AI开发平台ModelArts

否 str delay 参数是否运行时输入，默认为“False”，在工作流启动运行前进行配置。设置为“True”，则在使用的相应节点运行时卡点配置。否 bool description 参数描述信息。否 str enum_list 参数枚举值列表，只有当参数类型为PlaceholderType

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
批量添加样本 - AI开发平台ModelArts

两个点组成，第一个点起始点，第二个点为终止点。 dashed [[0,100],[50,95]] 两个点组成，第一个点起始点，第二个点为终止点。 point [[0,100]] 一个点组成。 polyline [[0,100],[50,95],[10,60],[500,400]] 折线，多个点组成。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 685

上一页
1
...
11
12
13
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备镜像 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

查询数据集详情 - AI开发平台ModelArts

更新Workflow Execution - AI开发平台ModelArts

如何提升训练效率，同时减少与OBS的交互？ - AI开发平台ModelArts

计费样例 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

obsutil安装和配置 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

查询数据集列表 - AI开发平台ModelArts

复制数据至容器中空间不足 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

配置Workflow参数 - AI开发平台ModelArts

批量添加样本 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线