检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。
通过OBS上传训练所需的模型文件、训练数据等,再将OBS中的数据文件导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格。
训练作业进阶功能 ModelArts Standard还支持以下训练进阶功能,例如: 增量训练 分布式训练 训练加速 训练高可靠性 查看训练结果和日志 查看训练作业详情 训练作业运行中或运行结束后,可以在训练作业详情页面查看训练作业的参数设置,训练作业事件等。
表97 FlavorInfo 参数 参数类型 描述 max_num Integer 可以选择的最大节点数量(max_num,为1代表不支持分布式)。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。
表10 WorkflowStepExecutionPolicy 参数 参数类型 描述 execution_policy String 执行策略,可选值如下: retry:重试 stop:停止 continue:继续运行 use_cache Boolean 是否使用的是缓存。
通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。
通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。
查询支持的服务部署规格 功能介绍 查询支持的服务部署规格列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services
通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。
通过OBS上传训练所需的模型文件、训练数据等,再将OBS中的数据文件导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格。
在线服务预测报错ModelArts.4302 问题现象 在线服务部署完成且服务已经处于“运行中”的状态后,向运行的服务发起推理请求,报错ModelArts.4302。 原因分析及处理方法 服务预测报错ModelArts.4302有多种场景,以下主要介绍两种场景: "error_msg
下载前请先清除浏览器缓存,如果之前下载过老版本的PyCharm ToolKit,浏览器会有缓存,可能会导致新版本下载失败。
是否支持分布式训练/推理 选择该模型资产是否支持在单机多卡的资源节点上进行并行训练或推理。 README.md - 资产的README内容,支持添加资产的简介、使用场景、使用方法等信息。
通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。
词表切分 在分布式场景下,默认不使用词表切分能提升推理性能,同时也会增加单卡的显存占用。不建议开启词表并行,如确需使用词表切分,配置以下环境变量。
数量设置为1时,表示单机运行;数量设置大于1时,表示后台的计算模式为分布式。
- 模型参数规模,是否涉及分布式推理 10B/100B,单机多卡推理。 - 能否提供实际模型、网络验证的代码和数据等信息 提供实际模型、网络验证的代码和数据。 提供与业务类型类似的开源模型,例如GPT3 10B/13B。 提供测试模型以及对应的Demo代码路径(开源或共享)。
计算节点个数 当计算节点个数大于1,将启动多节点分布式训练。详细信息,请参见分布式训练功能介绍。 更多选项 永久保存日志 选择是否打开“永久保存日志”开关。 开关关闭(默认关闭):表示不永久保存日志,则任务日志会在30天后会被清理。可以在任务详情页下载全部日志至本地。
xxx 计算节点个数 当计算节点个数大于1,将启动多节点分布式训练。详细信息,请参见分布式训练功能介绍。 1 更多选项 永久保存日志 选择是否打开“永久保存日志”开关。 关闭 事件通知 选择是否打开“事件通知”开关。
精度校验 转换模型后执行推理前,可以使用benchmark工具对MindSpore Lite云侧推理模型进行基准测试。它不仅可以对MindSpore Lite云侧推理模型前向推理执行耗时进行定量分析(性能),还可以通过指定模型输出进行可对比的误差分析(精度)。 精度测试 benchmark