检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
FS盘存储的代码。 线上开发:代码在云上,通过SSH连接容器。 图3 选择开发场景 图4 选择训练作业代码存储位置 鼠标放至作业列表处,单击作业列表旁边的打开创建训练作业页面。 图5 创建作业入口 (可选)设置中转目录:中转目录支持OBS路径和SFS盘挂载路径。如果已经在步骤3配置,此处会自动显示中转目录。
TP 8 表示张量并行。对应训练参数 tensor-model-parallel-size 。 PP 4 表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。对应训练参数 pipeline-model-parallel-size 。 CP 1 表示contex
表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 8 表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。 CP 1 表示context并行,默认为1。应用于训练长序列文本的模型。若训练时SEQ_LEN超过32768长度,则推荐增加CP值(CP
“公开”:表示公开资产,所有用户都可以查看该资产。 当选择公开AI应用,系统会自动提交资产公开申请,审核通过之前资产还是私密状态,审核通过后就会变成公开状态。 “私密”:表示仅部分用户可见。 “仅自己可见”:默认状态,表示仅AI应用创建者可见该资产。 “指定用户”:表示AI应用创建者和指定的用户可见该资产。
e-image-job 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String
as wf # 添加指定的白名单用户列表 wf.add_whitelist_users(content_id="**", version_num="*.*.*", user_groups=["**", "**"]) # 删除指定的白名单用户列表 wf.delete_whiteli
数据集”下,选择未发布的数据集,单击数据集名称,进入数据集详情页。 在数据集详情页,单击右侧“发布”,在发布数据集页面编辑发布信息后,单击“发布”。 表1 发布数据集的参数说明 参数名称 说明 中文名称 数据集发布后显示的名称,在创建数据集时设置的名称,此处不可编辑。 任务类型 选择合适的任务类型。
utosearch/yaml-templates 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 无 响应参数 状态码:200 表2 响应Body参数 参数 参数类型 描述 yaml_templates
/v2/{project_id}/workflows/{workflow_id}/subscriptions/{subscription_id} 表1 路径参数 参数 是否必选 参数类型 描述 subscription_id 是 String 消息订阅ID。 project_id 是 String
cy_cfgs.yaml文件中默认配置,权重使用表1 模型权重中指定的Huggingface地址,数据指定data.tgz里面提供的gsm8k数据。 查看精度结果 任务完成之后会在test-benchmark目录下生成excel表格: 精度结果 LLaMAFactory_trai
cy_cfgs.yaml文件中默认配置,权重使用表1 模型权重中指定的Huggingface地址,数据指定data.tgz里面提供的gsm8k数据。 查看精度结果 任务完成之后会在test-benchmark目录下生成excel表格: 精度结果 LLaMAFactory_trai
操作。 在“专属资源池扩缩容”页面,可通过增减“目标总实例数”实现扩缩容,请用户根据本身业务诉求进行调整。增加目标总实例数即表示扩容,减少目标总实例数即表示缩容。 若购买资源池时,节点数量采用整柜方式购买(部分规格支持),则在扩缩容时为整柜方式扩缩容,目标总实例数等于“数量*整柜
契合的超参,提高模型精度和收敛速度。 表1 搜索指标参数 参数 说明 名称 搜索指标的名称。需要与您在代码中打印的搜索指标参数保持一致。 优化方向 可选“最大化”或者“最小化”。 指标正则 填入正则表达式。您可以单击智能生成功能自动获取正则表达式。 设置自动化搜索参数 从已设置的
/v2/{project_id}/training-job-engines 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 无 响应参数 状态码:200 表2 响应Body参数 参数 参数类型 描述 total
多模态模型推理性能测试 benchmark方法介绍 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx
多模态模型推理性能测试 benchmark方法介绍 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx
多模态模型推理性能测试 benchmark方法介绍 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx
“fault-tolerance/job-retry-num”赋值为1~128表示开启自动重启,“fault-tolerance/job-unconditional-retry”赋值为“true”表示启用了无条件自动重启。 { "kind": "job", "metadata":
String 训练作业选择的资源规格,请参考查询资源规格列表 train_instance_count 是 int 训练作业计算节点个数。 framework_type 否 String 训练作业选择的引擎规格,请参考查询引擎规格列表。 framework_version 否 String
如果出现报错“NCCL timeout”或者“RuntimeError: NCCL communicator was aborted on rank 7”,则表示InfiniBand Verbs超时。单击右侧“重建”,重新创建训练作业,设置环境变量“NCCL_IB_TIMEOUT=22”,提交训练作业后等待作业完成。