检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Lite Cluster Cluster资源池如何进行NCCl Test?
训练场景和方案介绍 Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。 方案概览 本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模型的训练过程
配置Lite Cluster网络 本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点
配置Lite Cluster存储 如果没有挂载任何外部存储,此时可用存储空间根据dockerBaseSize的配置来决定,可访问的存储空间比较小,因此建议通过挂载外部存储空间解决存储空间受限问题。 容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,详情如表1所示。容器存储的基础知识了解请参见存储基础知识
释放Lite Cluster资源 针对不再使用的Lite Cluster资源,可以释放资源,停止计费相关介绍请见停止计费。 Lite Cluster资源池资源释放后不可恢复,请谨慎操作。 退订包年/包月的Lite Cluster资源 登录ModelArts管理控制台,在左侧菜单栏中选择
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决? 问题现象 在Notebook里保存镜像时报错“container size %dG is greater than threshold %dG”。 原因分析
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
NPU服务器上配置Lite Server资源软件环境 注意事项 本文旨在指导如何在Snt9b裸金属服务器上,进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项: 首次装机时需要配置存储、固件、驱动、网络访问等基础内容,这部分配置尽量稳定减少变化。 裸机上的开发形式建议开发者启动独立的
Lite Cluster资源开通 集群资源开通流程 开通集群资源过程中用户侧需要完成的任务流程如下图所示。 图1 用户侧任务流程 表1 Cluster资源开通流程 任务 说明 Step1 申请开通资源规格 当前部分规格为受限购买,需要提前联系客户经理申请开通资源规格,预计1~3个工作日内开通
Lite Cluster资源使用 在Lite Cluster资源池上使用Snt9B完成分布式训练任务 在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 在Lite Cluster资源池上使用Snt9B完成推理任务
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 问题现象 裸金属服务器EulerOS 2.8系统下,使用yum update -y命令,导致软件NetworkManagre-config-server升级到高版本,
Lite Cluster使用流程 ModelArts Lite Cluster面向k8s资源型用户,提供托管式k8s集群,并预装主流AI开发插件以及自研的加速插件,以云原生方式直接向用户提供AI Native的资源、任务等能力,用户可以直接操作资源池中的节点和k8s集群。本文旨在帮助您了解
管理Lite Cluster节点 节点是容器集群组成的基本元素,在资源池详情页,单击“节点管理”页签,进行删除、重置、续费等操作。当把鼠标放在节点名称上方时,会显示资源ID,资源ID可用于查询账单或者在费用中心查询包周期资源的计费信息。 删除/退订/释放节点 若是“按需计费”的资源池
使用AI Gallery的订阅算法实现花卉识别 本案例以“ResNet_v1_50”算法、花卉识别数据集为例,指导如何从AI Gallery下载数据集和订阅算法,然后使用算法创建训练模型,将所得的模型部署为在线服务。其他算法操作步骤类似,可参考“ResNet_v1_50”算法操作。
Finetune训练 本章节介绍SDXL&SD 1.5模型的Finetune训练过程。Finetune是指在已经训练好的模型基础上,使用新的数据集进行微调(fine-tuning)以优化模型性能。 训练前需要修改数据集路径、模型路径。数据集路径格式为/datasets/pokemon-dataset
LoRA训练 本章节介绍SDXL&SD 1.5模型的LoRA训练过程。LoRA训练是指在已经训练好的模型基础上,使用新的数据集进行LoRA微调以优化模型性能的过程。 训练前需要修改数据集路径、模型路径。脚本里写到datasets路径即可。 run_lora_sdxl中的vae路径要准确写到
用户结束kernelgateway进程后报错Server Connection Error,如何恢复? 问题现象 当kernelgateway进程被结束后,出现如下报错,以及选不到Kernel。 图1 报错Server Connection Error截图 图2 选不到Kernel
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象 使用pandas读取csv数据表时,日志报出如下错误导致训练作业失败: pandas.errors.ParserError
在DevServer上部署SD WebUI推理服务 本章节主要介绍如何在ModelArts的DevServer环境上部署Stable Diffusion的WebUI套件,使用NPU卡进行推理。 步骤一 准备环境 请参考DevServer资源开通,购买DevServer资源,并确保机器已开通
Lite Cluster资源配置 Lite Cluster资源配置流程 配置Lite Cluster网络 配置kubectl工具 配置Lite Cluster存储 (可选)配置驱动 (可选)配置镜像预热