检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者
将权重文件上传到集群节点机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表和权重文件。 如果使用模型训练后的权重文件进行推理,模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。 Step2 配置pod 在节点自定义目录$
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者
Integer 标签类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组关系标签 103:文本三元组实体标签 200:语音分类 201:语音内容 202:语音分割 600:视频标注 表8 Field 参数 参数类型 描述
JobInput objects 节点的输入项。 outputs 否 Array of JobOutput objects 节点的输出项。 step_uuid 否 String 节点的UUID,唯一性标识。 properties 否 Map<String,Object> 节点的属性。 events
希望提升训练效率,同时减少与对象存储OBS的交互。可通过如下方式进行调整优化。 优化原理 对于ModelArts提供的GPU资源池,每个训练节点会挂载500GB的NVMe类型SSD提供给用户免费使用。此SSD挂载到“/cache”目录,“/cache”目录下的数据生命周期与训练作业生
8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数:1个 用了一段时间后,用户发现当前规格无法满足业务需要,于2023/03/20 9:00:00扩容规格增加1个节点(扩容后,共有2个节点)。因为该专属资源池打算长期使用下去,于2023/03/20 10:
本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel,W8A16 per-channel Step1 环境准备 在节点自定义目录${node_path}下创建config.yaml文件 apiVersion: apps/v1 kind: Deployment
ed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。
obsutil安装和配置的具体操作指导请参见obsutils快速入门。 操作命令中的AK/SK要换成用户实际获取的AK/SK,Endpoint可以参考终端节点(Endpoint)和访问域名获取。 父主题: 基本配置
本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel,W8A16 per-channel Step1 环境准备 在节点自定义目录${node_path}下创建config.yaml文件 apiVersion: apps/v1 kind: Deployment
ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 # 将其中一个节点设为头节点 ray start --head --num-gpus=8 # 在其他节点执行 ray start --address='10.170.22.18:6379' --num-gpus=8
Integer 标签类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组关系标签 103:文本三元组实体标签 200:语音分类 201:语音内容 202:语音分割 600:视频标注 表9 AnnotationFile
on device 原因分析 数据下载至容器的位置空间不足。 处理方法 请排查是否将数据下载至“/cache”目录下,GPU规格资源的每个节点会有一个“/cache”目录,空间大小为4TB。并确认该目录下并发创建的文件数量是否过大,占用过多存储空间会出现inode耗尽的情况,导致空间不足。
ed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。
本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel,W8A16 per-channel Step1 环境准备 在节点自定义目录${node_path}下创建config.yaml文件 apiVersion: apps/v1 kind: Deployment
k8s Cluster节点默认会安装os-node-agent插件,用于对节点进行管理,例如: 驱动升级:通过os-node-agent插件下载驱动文件并进行驱动版本升级、回退。 故障检测:通过os-node-agent插件在系统内周期性巡检故障特征,及时发现节点故障。 指标采集:通
管理Lite Cluster节点池:为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。节点池是集群中具有相同配置的一组节点,一个节点池包含一个节点或多个节点,您可以创建、更新和删除节点池。 管理Lite Cluster节点:节点是容器集群组成的基
否 str delay 参数是否运行时输入,默认为“False”,在工作流启动运行前进行配置。设置为“True”,则在使用的相应节点运行时卡点配置。 否 bool description 参数描述信息。 否 str enum_list 参数枚举值列表,只有当参数类型为PlaceholderType
两个点组成,第一个点起始点,第二个点为终止点。 dashed [[0,100],[50,95]] 两个点组成,第一个点起始点,第二个点为终止点。 point [[0,100]] 一个点组成。 polyline [[0,100],[50,95],[10,60],[500,400]] 折线,多个点组成。