检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Lite Cluster使用流程 ModelArts Lite Cluster面向k8s资源型用户,提供托管式k8s集群,并预装主流AI开发插件以及自研的加速插件,以云原生方式直接向用户提供AI Native的资源、任务等能力,用户可以直接操作资源池中的节点和k8s集群。本文旨在帮助您了解Lite
使用AOM查看Lite Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况并上报到AOM,用户可直接在AOM上查看默认配置好的基础指标,也支持用户自定义一些指标项上报到AOM查看。
管理Lite Cluster节点 节点是容器集群组成的基本元素,在资源池详情页,单击“节点管理”页签,进行删除、重置、续费等操作。当把鼠标放在节点名称上方时,会显示资源ID,资源ID可用于查询账单或者在费用中心查询包周期资源的计费信息。 删除/退订/释放节点 若是“按需计费”的资
管理Lite Cluster资源池 Lite Cluster资源池续费管理 针对包年包月的Lite Cluster资源池,支持续费功能,还可以开通自动续费、修改自动续费。 在ModelArts管理控制台的左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入Lite资源池列表页中操作,如下图所示。
解析请参考以下: bayes_opt_search:贝叶斯优化(SMAC) tpe_search:TPE算法 anneal_search:模拟退火算法(Anneal) 提交创建算法完成后即可执行下一步,创建训练作业。 创建训练作业 登录ModelArts控制台,参考创建生产训练作
Lite Cluster资源配置流程 本章节介绍Lite Cluster环境配置详细流程,适用于加速卡环境配置。 前提条件 已完成集群资源购买和开通,具体请参见Lite Cluster资源开通。 集群的配置使用需要用户具备一定的知识背景,包括但不限于Kubernetes基础知识、网络知识、存储和镜像知识。
Lite Cluster资源管理介绍 在ModelArts控制台,您可以对已创建的资源进行管理。通过单击资源池名称,可以进入到资源池详情页,您可以在详情页进行下述操作。 管理Lite Cluster资源池:ModelArts支持对资源池进行管理,包括续费、开通/修改自动续费、扩容、升级驱动等操作。
SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导(6.3.907) Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。 方案概览 本方案介绍了在ModelArts Lite
入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动,且输入输出长度也在一定范围内变化时,模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求,能评估推理框架在实际业务中能支持的并发数。 性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-x
使用AI Gallery SDK构建自定义模型 AI Gallery的Transformers库支持部分开源的模型结构框架,并对昇腾系列显卡进行了训练/推理性能优化,可以做到开箱即用。如果你有自己从头进行预训练的模型,AI Gallery也支持使用SDK构建自定义模型接入AI Gallery。
将AI Gallery中的模型部署为AI应用 AI Gallery支持将模型部署为AI应用,在线共享给其他用户使用。 前提条件 选择的模型必须是支持部署为AI应用的模型,否则模型详情页没有“部署 > AI应用”选项。 部署AI应用 登录AI Gallery。 单击“模型”进入模型列表。
构建模型 自定义模型规范 自定义镜像规范 使用AI Gallery SDK构建自定义模型 父主题: 发布和管理AI Gallery模型
监控Lite Cluster资源 使用AOM查看Lite Cluster监控指标 使用Prometheus查看Lite Cluster监控指标 父主题: Lite Cluster资源管理
报错“The VS Code Server failed to start”如何解决? 问题现象 解决方法 检查VS Code版本是否为1.78.2或更高版本,如果是,请查看Remote-SSH版本,如果低于v0.76.1,请升级Remote-SSH。 打开命令面板(Windows:
日志提示"Permission denied" 问题现象 训练作业访问挂载的EFS,或者是执行.sh启动脚本时,出现如下错误: OSError: [Errno 13]Permission denied: '/xxx/xxxx' bash: /bin/ln: Permission denied
DockerFile构建镜像(可选) 本章节主要介绍通过DockerFile文件构建训练镜像,将训练过程中依赖包封装使用,过程中需要连接互联网git clone,请确保环境可以访问公网,详解操作如下: 进入代码包Dockerfile文件同级目录: cd /home/ma-user
24:基于translate的数据增强与原图预测结果不一致。 25:基于shear的数据增强与原图预测结果不一致。 26:基于superpixels的数据增强与原图预测结果不一致。 27:基于sharpen的数据增强与原图预测结果不一致。 28:基于add的数据增强与原图预测结果不一致。
入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动,且输入输出长度也在一定范围内变化时,模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求,能评估推理框架在实际业务中能支持的并发数。 性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-x
SD3 Diffusers框架基于Lite Server适配PyTorch NPU推理指导(6.3.912) Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。 方案概览 本方案介绍了在ModelArts Lite
指令微调数据:ShareGPT 格式来源于通过记录 ChatGPT 与用户对话的数据集,主要用于对话系统的训练。它更侧重于多轮对话数据的收集和组织,模拟用户与 AI 之间的交互。数据集包含有以下字段: conversations:包含一系列对话对象,每个对象都由发言者(from)和发言内容(value)组成。