正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
00:00扩容规格增加1个节点(扩容后,共有2个节点)。
os-node-agent ModelArts Lite k8s Cluster节点默认会安装os-node-agent插件,用于对节点进行管理,例如: 驱动升级:通过os-node-agent插件下载驱动文件并进行驱动版本升级、回退。
优化原理 对于ModelArts提供的GPU资源池,每个训练节点会挂载500GB的NVMe类型SSD提供给用户免费使用。
操作命令中的AK/SK要换成用户实际获取的AK/SK,Endpoint可以参考终端节点(Endpoint)和访问域名获取。 父主题: 基本配置
/scripts/obs_pipeline.sh 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。
在各模块资源监控页签查看ModelArts监控指标 训练作业:用户在运行训练作业时,可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。
处理方法 请排查是否将数据下载至“/cache”目录下,GPU规格资源的每个节点会有一个“/cache”目录,空间大小为4TB。并确认该目录下并发创建的文件数量是否过大,占用过多存储空间会出现inode耗尽的情况,导致空间不足。 请排查是否使用的是GPU资源。
--address:头节点IP+端口号,头节点创建成功后,会有打印。 正常启服务即可。 推理服务基础参数说明如下: --model ${container_model_path}:模型地址,模型格式是HuggingFace的目录格式。
gpu_uuid 节点上GPU的UUID。 gpu_index 节点上GPU的索引。 gpu_type 节点上GPU的型号。 device_name infiniband或RoCE网络网卡的设备名称。 port IB网卡的端口号。
创建节点池相关参数请参见Lite Cluster资源开通。 图3 新增节点池(单节点方式) 新增节点池时,部分规格支持整柜购买,若选中此类规格,可以通过下拉框选择整柜方式或单节点方式新增节点池。若选择整柜方式,目标总节点数等于“数量*整柜”,购买的节点总数为两者的乘积。
以MobaXterm为例,填入弹性公网IP,登录节点。 图9 登录节点 方式2:通过华为云自带的远程登录功能 使用华为云账号登录CCE管理控制台。 在CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。
接口使用资源,业务跨云迁移无压力 SSH直达节点和容器,一致体验
图4 业务失败&硬件正常 隔离故障节点后,系统会在新的计算节点上重新创建训练作业。如果资源池规格紧张,重新下发的训练作业会以第一优先级进行排队。如果排队时间超过30分钟,训练任务会自动退出。该现象表明资源池规格任务紧张,训练作业无法正常启动,推荐您购买专属资源池补充计算节点。
每个云盘只能在单个节点挂载。 存储大小根据云硬盘的大小而定。 静态挂载 动态挂载 父主题: Lite Cluster资源配置
处理方法 在部署或升级在线服务时,选择更大内存规格的计算节点。 图3 选择计算节点规格 运行中服务出现告警时,需要分析是您的代码是否出现漏洞导致内存溢出、是否因为业务使用量太大需要更多的内存。如果因业务原因需要更多内存,请升级在线服务选择更大内存规格的计算节点。
(可选)配置驱动 当专属资源池中的节点含有GPU/Ascend资源时,为确保GPU/Ascend资源能够正常使用,需要配置好对应的驱动。
修改以下脚本中NpuLogCollection的参数,将ak、sk、obs_dir替换为前面步骤中获取到的值,然后把该脚本上传到要收集NPU日志的节点上。
将AI应用部署为服务时,根据数据集大小评估模型的计算节点个数,根据实际编码情况选择计算模式。 具体计费方式请参见ModelArts产品价格详情。部署AI应用可选择按需计费,也可根据业务类型和需求购买套餐包。
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。
在工作流列表上方的搜索框中,根据您需要的属性类型,例如名称、状态、当前节点、启动时间、运行时长或标签等,过滤出相应的工作流。 图1 属性类型 单击搜索框右侧的按钮,可设置Workflow列表页需要展示的内容和展示效果。 表格内容折行:默认为关闭状态。