检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常。 如果在linux服务器上运行就有问题,那么先调通以后再做容器镜像。 确认打入镜像的文件是否在正确的位置、是否有正确的权限。 训练场景主要查看自研的依赖包是否正常,查看pip list是否包含所需的包,查看容器直接调用的python是否是自己所需要的那个(如果容器镜像装了多个
py --model yolov8n.mindir infer.py是NPU上使用MindSpore Lite推理的样例,与GPU推理代码区别主要参考infer函数,不同业务场景需根据实际情况做相应修改。infer.py文件预置在AscendCloud-CV-6.3.909-xxx.zip软件包中。
] LLama-Factory ShareGPT 指令微调数据:ShareGPT 格式来源于通过记录 ChatGPT 与用户对话的数据集,主要用于对话系统的训练。它更侧重于多轮对话数据的收集和组织,模拟用户与 AI 之间的交互。数据集包含有以下字段: conversations:
指导步骤中,会展开进行详细的解释。 如果用户希望自定义参数进行训练,可直接编辑对应模型的训练脚本,可编辑参数以及详细介绍如下。以下参数取值主要以llama2-70b预训练为例,请根据实际模型修改。 表1 模型训练脚本参数 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH
签。 标签删除后,单击页面左上角的项目名称离开标注页面。该图片会重新回到“未标注”页签。 图5 编辑物体检测标签 基于标签修改 在数据标注作业概览页,单击右侧的“标签管理”,进入标签管理页面,标签管理页展示所有标签信息。 图6 标签管理页 修改标签:单击操作列的“修改”按钮,然后
pool参数说明 参数 参数类型 描述 id String 资源池ID。 name String 资源池名称。 type String 资源池类型。主要区分类型:USER_DEFINED,表明为专属资源池。 owner Object 当“type”为“USER_DEFINED”时是必选项。如表10所示。
指导步骤中,会展开进行详细的解释。 如果用户希望自定义参数进行训练,可直接编辑对应模型的训练脚本,可编辑参数以及详细介绍如下。以下参数取值主要以llama2-70b预训练为例,请根据实际模型修改。 表1 模型训练脚本参数 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH
pool参数说明 参数 参数类型 描述 id String 资源池ID。 name String 资源池名称。 type String 资源池类型。主要区分类型:USER_DEFINED,表明为专属资源池。 owner Object 当“type”为“USER_DEFINED”时是必选项。如表13所示。
gpu.p4(需申请)/modelarts.vm.ai1.a310(需申请),需申请权限才能使用的规格请在华为云创建工单,由ModelArts运维工程师添加权限。 instance_count 是 Integer 模型部署的实例数,当前限制最大实例数为128,如需使用更多的实例数,需提交工单申请。
ow")), # ModelStep的输出 depend_steps=[job_step_1, job_step_2] # 依赖的作业类型节点对象 )# job_step是wf.steps.JobStep的 实例对象,train_url是wf.steps.JobOutput的name字段值
labeling 标注 release_dataset 数据集发布 model 模型发布 service 服务部署 mrs_job MRS作业 dataset_import 数据集导入 create_dataset 创建数据集 inputs 否 Array of JobInput
取值样例 任务设置 任务名称 自定义调优任务名称。 参见表3 描述 调优任务简介。 - 模型设置 来源模型 当从“我的模型”列表进入创建调优作业页面时,此处默认呈现选择的模型。 Qwen2-7B_template 调优类型 全参微调:直接在模型上训练,影响模型全量参数的微调训练,效果较好,收敛速度较慢,训练时间较长。
数据集对象 dataset = wf.data.DatasetPlaceholder(name="input_data") # 创建训练作业 job_step = wf.steps.JobStep( name="training_job", title="图像分类训练"
pool参数说明 参数 参数类型 描述 id String 资源池ID。 name String 资源池名称。 type String 资源池类型。主要区分类型:USER_DEFINED,表明为专属资源池。 owner Object 当“type”为“USER_DEFINED”时是必选项。如表12所示。
aluate_sample_ratio="0.8")), depend_steps=[label_step] ) # 创建训练作业 job_step = wf.steps.JobStep( name="training_job", title="图像分类训练"
pool参数说明 参数 参数类型 描述 id String 资源池ID。 name String 资源池名称。 type String 资源池类型。主要区分类型:USER_DEFINED,表明为专属资源池。 owner Object 当“type”为“USER_DEFINED”时是必选项。如表18所示。
本案例将基于ModelArts提供的PyTorch基础镜像,安装pytorch 1.8、ffmpeg 3和gcc 8,构建一个面向AI开发的新环境。 主要流程如下图所示: 图1 构建与调测镜像流程 本案例适用于华为云-北京四Region。 Notebook自定义镜像规范 制作自定义镜像时,Base镜像需满足如下规范:
me:tag格式,针对于构建保存tar包场景可以省略。 --context String 否 Dockerfile构建时的上下文信息路径,主要用于数据复制。 -arg / --build-arg String 否 指定构建参数,多个构建参数可以使用--build-arg VERSION=18
") sys.exit(1) # RANK_TABLE_FILE文件status不是completed,表示训练作业未创建成功 if data["status"] != "completed": logger.error(f"Get
") sys.exit(1) # RANK_TABLE_FILE文件status不是completed,表示训练作业未创建成功 if data["status"] != "completed": logger.error(f"Get