检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备工作 准备环境 准备代码 准备镜像环境 DockerFile构建镜像(可选) 准备数据(可选) 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.911)
volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。 kubectl
volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。 kubectl
ModelArts支持设置子账号的细粒度权限、不同工作空间之间资源隔离。ModelArts工作空间帮您实现项目资源隔离、多项目分开结算等功能。 如果你开通了企业项目管理服务的权限,可以在创建工作空间的时候绑定企业项目ID,并在企业项目下添加用户组,为不同的用户组设置细粒度权限供组里的用户使用。 如
ComfyUI是一款基于节点工作流的Stable Diffusion操作界面。通过将Stable Diffusion的流程巧妙分解成各个节点,成功实现了工作流的精确定制和可靠复现。每一个节点都有特定的功能,可以通过调整节点连接达到不同的出图效果。在图像生成方面,它不仅比传统的WebUI更迅速,而且显存占用更为经济。
JupyterLab默认工作路径是什么? 带OBS存储的Notebook实例 JupyterLab文件默认存储路径,为创建Notebook时指定的OBS路径。 在文件列表的所有文件读写操作都是基于所选择的OBS路径下的内容操作的,跟当前实例空间没有关系。如果用户需要将内容同步到实
当您创建新的工作空间之后,相当于您拥有了一个新的“ModelArts分身”,您可以通过菜单栏的左上角进行工作空间的切换,不同工作空间中的工作互不影响。ModelArts的用户需要为不同的业务目标开发算法、管理和部署模型,此时可以创建多个工作空间,把不同应用开发过程的输出内容划分到不同工作空间中,便于管理和使用。
ModelArts Standard准备工作 配置ModelArts Standard访问授权 创建并管理工作空间 创建OBS桶用于ModelArts存储数据
sh脚本测试ModelArts训练整体流程 自定义容器在ModelArts上训练和本地训练的区别如下图: 图1 本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。 增加了和OBS交互工作的整个训练流程如下: 建议使用OBSuti
工具介绍及准备工作 本章节主要介绍针对LLaMAFactory开发的测试工具benchmark,支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置,用户查看默认yaml文件即可知道最优性能的配置。
工具介绍及准备工作 本章节主要介绍针对LLaMAFactory开发的测试工具benchmark,支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置,用户查看默认yaml文件即可知道最优性能的配置。
配置Workflow的输入输出目录 功能介绍 统一存储主要用于工作流的目录管理,帮助用户统一管理一个工作流中的所有存储路径,主要分为以下两个功能: 输入目录管理:开发者在编辑开发工作流时可以对所有数据的存储路径做统一管理,规定用户按照自己的目录规划来存放数据,而存储的根目录可以根据用
迁移Standard专属资源池和网络至其他工作空间 背景信息 专属资源池的工作空间关联了企业项目,企业项目涉及到账单归集。为隔离不同子用户操作资源的权限,ModelArts提供了工作空间功能,管理员可以根据工作空间,隔离不同子用户操作工作空间内资源的权限。工作空间迁移包括资源池迁移和网络迁移,具体方法可见下文说明。
数据类型:系统会根据您的数据集,匹配到相应的数据类型。例如本案例使用的数据集,系统匹配为“图片”类型。 数据集输出位置:用来存放输出的数据标注的相关信息,或版本发布生成的Manifest文件等。单击图标选择OBS桶下的空目录,且此目录不能与输入位置一致,也不能为输入位置的子目录。 数据集
OBS目录中的文件创建训练作业。如果选择通过数据集作为训练作业的数据源,则需要指定数据集及特定的版本。因此,用户需要为准备好的数据发布一个版本,具体操作参考发布ModelArts数据集中的数据版本。 为了便于后期的模型构建和开发,对同一数据源来说,将其不同时间对数据的处理和标注按
在Workflow中更新已部署的服务 场景介绍 大部分场景下的工作流都是第一次运行部署新服务,后续进行模型迭代时,需要对已部署的服务进行更新。因此需要在同一条工作流中,同时支持服务的部署及更新能力。 编写工作流 基于编写工作流代码示例的场景案例进行改造,代码编写示例如下: from
Turbo模式下执行流程 SFS Turbo作为完全托管的共享文件存储系统,在本方案中作为主要的存储介质应用于训练作业。因此,后续需要准备的原始数据集、原始Hugging Face权重文件以及训练代码都需要上传至SFS Turbo中。而基于SFS Turbo所执行的训练流程如下: 将SFS
弹性裸金属服务器,获取所需的云上物理资源,充分满足算法工程师在日常训练和推理工作中的需求。 本文旨在帮助您了解Lite Server的基本使用流程,帮助您快速上手,使用流程包含以下步骤。 图1 使用流程 资源开通 由于Server为一台裸金属服务器,因此需要先购买资源后才能使用。
ModelArts将存储在OBS中的模型部署上线为在线服务。 Standard AI全流程开发 数据管理 数据集存储在OBS中。 数据集的标注信息存储在OBS中。 支持从OBS中导入数据。 开发环境 Notebook实例中的数据或代码文件可以存储在OBS中。 训练模型 训练作业使用的数据集、算法、运
Turbo模式下执行流程 SFS Turbo作为完全托管的共享文件存储系统,在本方案中作为主要的存储介质应用于训练作业。因此,后续需要准备的原始数据集、原始Hugging Face权重文件以及训练代码都需要上传至SFS Turbo中。而基于SFS Turbo所执行的训练流程如下: 将SFS