检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择代码目录中训练作业的Python启动脚本。例如“obs://test-modelarts/code/main.py”。 超参 当资源规格为单机多卡时,需要指定超参world_size和rank。 当资源规格为多机时(即实例数大于 1),无需设置超参world_size和rank,超参会由平台自动注入。 方式二:使用自定义镜像功能,通过torch
“确定”进入下载详情页面。根据数据集下载至OBS还是ModelArts数据集列表,填写不同配置信息: ModelArts数据管理模块在重构升级中,对未使用过数据管理的用户不可见。建议新用户选择将数据集下载至OBS使用。 将数据集下载至OBS “下载方式”选择“对象存储服务(OBS)”。
本文档适配昇腾云ModelArts 6.3.909版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 软件配套版本 表1 获取软件 分类 名称
nsformer模型结构提供的预训练语言库。Transformers库注重易用性,屏蔽了大量AI模型开发使用过程中的技术细节,并制定了统一合理的规范。使用者可以便捷地使用、下载模型。同时支持用户上传自己的预训练模型到在线模型资产仓库中,并发布上架给其他用户使用。AI Galler
placeholder_type=wf.PlaceholderType.JSON, description="训练资源规格") ) ) # 训练资源规格信息 ) # 定义条件对象 condition_lt = wf.steps.Condition( condition_type=wf
false, "default": 24, "help": "每多少步记录一次步骤" }, { "name":
服务名称:填入步骤1中获取的“终端节点服务地址”。单击右侧验证按钮,系统将为您自动填入虚拟私有云、子网和节点IP。 创建内网域名:保持默认值。 确认规格无误后,单击“立即购买”后提交任务,界面自动跳转至终端节点列表页面。 创建DNS内网域名 新创建的在线服务对接的是专享版APIG,需要使用
引擎包选择步骤3构建的镜像。 图3 创建AI应用 将创建的AI应用部署为在线服务,大模型加载启动的时间一般大于普通的模型创建的服务,请配置合理的“部署超时时间”,避免尚未启动完成被认为超时而导致部署失败。 图4 部署为在线服务 调用在线服务进行大模型推理,请求路径填写/v2/mo
请严格遵照版本配套关系使用本文档。 资源规格推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9B资源。 推理部署使用的服务框架是vLLM。vLLM支持v0.3.2。 支持FP16和BF16数据类型推理。 资源规格要求 本文档中的模型运行环境是ModelArts
访问特定子项目中资源,使得资源的权限控制更加精确。 同样在我的凭证下,您可以查看项目ID。 图1 项目隔离模型 企业项目 企业项目是项目的升级版,针对企业不同项目间资源的分组和管理,是逻辑隔离。企业项目中可以包含多个区域的资源,且项目中的资源可以迁入迁出。 关于企业项目ID的获取
38888” 资源池:选择公共资源池 类型:选择GPU规格 计算节点个数:选择“1”或“2” 永久保存日志:打开 作业日志路径:设置为OBS中存放训练日志的路径。例如:“obs://test-modelarts/mpi/log/” 在“规格确认”页面,确认训练作业的参数信息,确认无误后单击“提交”。
任务失败。优雅退出是指中断的训练任务支持自动恢复,并可以在上一次训练中断的基础上继续训练,而不用从头开始。 约束限制 表1 约束限制 资源规格 Ascend 训练框架 MindSpore 特性原理 优雅退出处理流程如下: 用户在ModelArts控制台创建训练任务。 训练引擎创建训练容器,启动训练脚本。
标数据。 开通前需要确认使用的端口号,端口号可选取10120~10139范围内的任一端口号,请确认选取的端口号在各个节点上都没有被其他应用占用。 Kubernetes下Prometheus对接ModelArts 使用kubectl连接集群,详细操作请参考通过kubectl连接集群。
本文档适配昇腾云ModelArts 6.3.910版本,请参考获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 获取软件和镜像 表1 获取软件和镜像 分类
本方案目前仅适用于部分企业客户。 本文档适配昇腾云ModelArts 6.3.909版本,请参考软件配套版本获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。 本文档中的CCE集群版本选择v1.27~1
txt” device id为本次训练作业的NPU卡编号,取值单卡为0,8卡为0~7。 例如:Ascend规格为 8*Snt9时,device id取值为0~7;Ascend规格为 1*Snt9时,device id取值为0。 rank id为本次训练作业的全局NPU卡编号,取值为
export_params ExportParams object 导出数据集任务的参数。 flavor Flavor object 训练资源规格。 image_brightness Boolean 是否通过图片亮度来聚类。 image_colorfulness Boolean 是否通过图片色彩来聚类。
Turbo的VPC网段的安全组是否被限制了。 在所选专属资源池中新建一个未挂载的SFS Turbo的训练作业,当训练作业处于“运行中”时,通过Cloud Shell功能登录训练作业worker-0实例,使用curl {sfs-turbo-endpoint}:{port}命令检查port是否正常打开,SFS
本文档适配昇腾云ModelArts 6.3.908版本,请参考获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 获取软件和镜像 表1 获取软件和镜像 分类
过程。 本文档主要介绍如何利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,完成SDXL的LoRA微调训练。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 表1 环境要求 名称 版本 CANN cann_8