检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.910)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.911)
Token的有效期为24小时,需要使用同一个Token鉴权时,可以缓存起来,避免频繁调用。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。 T
pbtxt。 原因分析 算法要求标注框为矩形标注框,提供的数据标注为非矩形,因此导致该错误发生。 处理方法 请您将数据的标注改为矩形的标注框。 建议与总结 在训练作业前,推荐您检查数据的标注是否符合算法要求(如物体检测类算法的标注框为矩形标注框)。 父主题: 预置算法运行故障
获取训练镜像 请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复
获取训练镜像 请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复
获取训练镜像 请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复
modelarts:dataset:getWorkforceTask - √ √ 表2 数据集版本管理的细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 查询数据集的版本列表 GET /v2/{project_id}/datasets/{dataset_id}/versions
xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保证被导入的module中有“__init__.py”存在,创建“module_dir”的“__init__.py”,如原因分析中的结构所示。
历史汇总后的统计信息。 表4 CheckTaskStats 参数 参数类型 描述 accepted_sample_count Integer 通过的样本数目。 checked_sample_count Integer 已验收的样本数目。 pass_rate Double 样本的通过率。
ing”也请替换为自定义的值。 选择左侧导航栏的“总览”,单击页面右上角的“登录指令”,在弹出的页面中单击复制登录指令。 此处生成的登录指令有效期为24小时,如果需要长期有效的登录指令,请参见获取长期有效登录指令。获取了长期有效的登录指令后,在有效期内的临时登录指令仍然可以使用。
GPU业务迁移至昇腾训练推理 ModelArts昇腾迁移调优工具总览 GPU训练业务迁移至昇腾的通用指导 基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导 基于advisor的昇腾训练性能自助调优指导 Dit模型PyTorch迁移与精度性能调优 msprobe工具使用指导
表2 数据集输入位置,用于将此目录及子目录下的源数据(如图片/文件/音频等)同步到数据集。对于表格数据集,该参数为导入目录。表格数据集的工作目录不支持为KMS加密桶下的OBS路径。 work_path 是 表6 数据集输出位置,用于存放输出的标注信息等文件。 labels 否 List
获取训练镜像 请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复
获取训练镜像 请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复
获取训练镜像 请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复
导出类型,不传则默认查询所有类型的导出任务。可选值如下: 0:已标注 1:未标注 2:全部 3:条件筛选 limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,100],默认为10。 offset 否 Integer 分页列表的起始页,默认为0。 请求参数 无
SDXL基于Standard适配PyTorch NPU的Finetune训练指导(6.3.905) SDXL基于DevServer适配PyTorch NPU的Finetune训练指导(6.3.905) SDXL基于DevServer适配PyTorch NPU的LoRA训练指导(6.3.905) SD1
必须修改。用于指定模板。如果设置为"qwen",则使用Qwen模板进行训练,模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。
Queue Integer 排队中的作业个数。 Pending Integer 等待中的作业个数。 Abnormal Integer 异常的作业个数。 Terminating Integer 终止中的作业个数。 Creating Integer 创建中的作业个数。 Running Integer