检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
代码目录:设置为OBS中存放启动脚本文件的目录,例如:“obs://test-modelarts/pytorch/demo-code/”,训练代码会被自动下载至训练容器的“${MA_JOB_DIR}/demo-code”目录中,“demo-code”为OBS存放代码路径的最后一级目录,可以根据实际修改。
调用接口需要进行APP鉴权,在创建APP应用时自动生成“AppKey/AppSecret”,您可以在“在线服务授权管理”对话框中单击APP应用操作列的查看完整的AppSecret。单击应用名称前方的展开下拉列表,通过单击“添加AppCode”自动生成“AppCode”,您可以单击操作列的查看完整的AppCode。
Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,只有llama3-8B/70B支持该功能。 适配的CANN版本是cann_8.0.rc3,驱动版本是23
Object Storage Service)与SFS Turbo文件系统联动,可以实现灵活数据管理、高性能读取等。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格。 适配的CANN版本是cann_8.0.rc3,驱动版本是23.0.6。 本案例仅支持在专属资源池上运行,确保专属资源池可以访问公网。
905-xxx.zip代码包。 unzip AscendCloud-3rdLLM-6.3.905-*.zip 运行推理构建脚本build.sh文件,自动获取ascend_vllm_adapter文件夹中提供的vLLM相关算子代码。 cd llm_inference bash build.sh
代码目录:设置为OBS中存放启动脚本文件的目录,例如:“obs://test-modelarts/pytorch/demo-code/”,训练代码会被自动下载至训练容器的“${MA_JOB_DIR}/demo-code”目录中,“demo-code”为OBS存放代码路径的最后一级目录,可以根据实际修改。
当资源规格为单机多卡时,需要指定超参world_size和rank。 当资源规格为多机时(即实例数大于 1),无需设置超参world_size和rank,超参会由平台自动注入。 方式二:使用自定义镜像功能,通过torch.distributed.launch命令启动训练作业。 创建训练作业的关键参数如表2所示。
建数据处理”页面。 在创建数据处理页面,填写相关算法参数。 填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成,按“V0001”、“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。
当模型存在作业记录会删除失败。 在模型详情页,单击右上角的“删除”,在弹窗中输入“DELETE”,单击“确定”,删除模型。 权重校验 创建模型时,开启权重校验后,平台会自动创建一个权重校验的任务,在模型详情页的作业记录列表可以查看权重校验任务。 图1 查看权重校验任务 当状态显示运行失败时,鼠标悬停在状态即可
total_metric_values属性列表 参数 参数类型 说明 f1_score Float 训练作业模型总召回。仅限部分预置算法使用,会自动生成,仅供参考。 recall Float 训练作业模型总召回率。 precision Float 训练作业模型总精确率。 accuracy
VERSION=18.04 --build-arg ARCH=X86_64 -obs / --obs-path String 否 将生成的tar包自动上传到OBS中。 -f / --force Bool 否 是否强制覆盖已存在的SWR镜像,默认不覆盖。 示例:在ModelArts Notebook里进行镜像构建。
delarts/ascend/log/” 在“规格确认”页面,确认训练作业的参数信息,确认无误后单击“提交”。 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。 训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几