检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本文档中的模型运行环境是ModelArts Lite Server。 镜像适配的Cann版本是cann_8.0.rc2。 确保容器可以访问公网。 Server驱动版本要求23.0.5 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表及权重文件地址 支持模型 Template 支持模型参数量
KMS CMKFullAccess 可选 IEF智能边缘平台 授予子账号智能边缘平台使用权限,ModelArts的边缘服务依赖智能边缘平台,要求配置Tenant Administrator权限。 Tenant Administrator 可选 CES云监控 授予子账号使用CES云监
0、pytorch_2.2.0 MindSpore:MindSpore 2.3.0 FrameworkPTAdapter:6.0.RC3 如果用到CCE,版本要求是CCE Turbo v1.28及以上 300iDUO 西南-贵阳一 PyTorch: swr.cn-southwest-2.myhuaweicloud
Server上使用昇腾计算资源Ascend Snt9B开展SD3-模型的训练过程。 资源规格要求 推荐使用“西南-贵阳一”Region上的Server资源和Ascend Snt9B单机。 表1 环境要求 名称 版本 driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像
、节点、资源监控等更加全面的集群信息,可帮助您及时了解集群现状,更好的规划使用资源。 自助管理集群GPU/NPU驱动:每个用户对集群的驱动要求不同,在新版专属资源池列表页中,可自行选择加速卡驱动,并根据业务需要进行立即变更或平滑升级。 父主题: Standard功能介绍
一般在训练循环末尾结束工具。 debugger.step() # 在训练循环的最后需要重置工具,非循环场景不需要。 具体的config.json的配置要求请参见介绍。 使用run_ut.py执行预检。 msprobe -f pytorch run_ut -api_info ./dump.json
服务升级关系着业务实现,不当的升级操作会导致升级期间业务中断的情况,请谨慎操作。 ModelArts支持部分场景下在线服务进行无损滚动升级。按要求进行升级前准备,做好验证,即可实现业务不中断的无损升级。 表1 支持无损滚动升级的场景 创建模型的元模型来源 服务使用的是公共资源池 服务使用的是专属资源池
如果使用“自定义算法”创建训练作业,则可以把相关文件放置在配置的“代码目录”下,“启动方式”必须选择“预置框架”。 需要在创建训练作业前将相关文件上传至OBS路径下,文件打包要求请参见安装文件规范。 安装文件规范 请根据依赖包的类型,在代码目录下放置对应文件: 依赖包为开源安装包时 暂时不支持直接从github的源码中安装。
登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理 > 数据集”,进入“数据集”管理页面。 单击“创建数据集”,进入“创建数据集”页面,根据数据类型以及数据标注要求,选择创建不同类型的数据集。 填写数据集基本信息,数据集的“名称”和“描述”。 选择“标注场景”和“标注类型”,本案例中分别选择“图片”和“物体检测”。
输入图片长度最大值,如果输入图片高度超过设定值则按比例裁剪。单位为px。 默认值 -1 表示不做裁剪。 输入要求 算子输入分为两种,“数据集”或“OBS目录”。 选择“数据集”,请从下拉框中选择ModelArts中管理的数据集及其版本。要求数据集类型与您在本任务中选择的场景类别一致。 选择“OBS目录”,存放结构
一般在训练循环末尾结束工具。 debugger.step() # 在训练循环的最后需要重置工具,非循环场景不需要。 具体的config.json的配置要求请参见介绍。 创建比对compare.json文件。 单卡场景 { "npu_path": "./npu_dump/dump.json",
会失败。 use_beam_search 否 False Bool 是否使用beam_search替换采样。 使用该参数时,如下参数必须按要求设置。 n:大于1 top_p:1.0 top_k:-1 temperature:0.0 presence_penalty 否 0.0 Float
PT4/alpaca_gpt4_data.json,数据大小:43.6 MB。 自定义数据 预训练数据:用户也可以自行准备预训练数据。数据要求如下: 使用标准的.json格式的数据,通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下
PT4/alpaca_gpt4_data.json,数据大小:43.6 MB。 自定义数据 预训练数据:用户也可以自行准备预训练数据。数据要求如下: 使用标准的.json格式的数据,通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下
PT4/alpaca_gpt4_data.json,数据大小:43.6 MB。 自定义数据 预训练数据:用户也可以自行准备预训练数据。数据要求如下: 使用标准的.json格式的数据,通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下
添加文件 在“未标注”页签下,可单击页面左上角的“添加数据”,您可以在弹出对话框中,选择本地文件上传。 上传文件格式需满足文本分类型的数据集要求。 删除文本对象 在“已标注”页签或“未标注”页签下,选中需要删除的文本对象,单击页面左上角的“删除”,在弹出的对话框中,确认删除信息后,单击“确定”。
ascend-vllm技术路线进行迁移。 如果您使用的模型在上述案例文档中已包含,建议您直接使用案例中迁移好的模型,如果您的模型不在已提供的范围内,或者您因业务要求需要自行完成端到端的迁移,可以参考本迁移指导书介绍的步骤进行操作。 本文的迁移指导及快速入门案例均针对路线1也即MindSpore-Lit
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
认证”,进入统一身份认证(IAM)服务。 在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”,单击右上角的“创建自定义策略”按如下要求设置完成后单击“确定”。 “策略名称”:设置自定义策略名称,例如:允许用户设置训练作业最高优先级。 “策略配置方式”:选择可视化视图。 “