检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自定义镜像训练作业配置节点间SSH免密互信 当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时,需配置训练作业节点间SSH免密互信,否则训练会失败。 配置节点间SSH免密互信涉及代码适配和训练作业参数配置,本文提供了一个操作示例。 准备一个预装OpenSSH的自定义镜像,使用的训练框架是MPI或Horovod。
t-Token的值)。 响应参数 状态码:200 表4 响应Body参数 参数 参数类型 描述 enable_app_auth Boolean APP是否已授权。 app_auth_api AppAuthApiAuthInfo object API已授权的APP的基本信息。 表5
断点续训和故障快恢说明 相同点 断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。 不同点 断点续训:可指定加载训练过程中生成
断点续训和故障快恢说明 相同点 断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。 不同点 断点续训:可指定加载训练过程中生成
获取账号名和账号ID 在调用接口的时候,部分请求中需要填入账号名(domain name)和账号ID(domain_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的查看“账号名”和“账号ID”。 图1 获取账号名和ID
作业元信息环境变量 约束限制 为了避免新设置的环境变量与系统环境变量冲突,而引起作业运行异常或失败,请在定义自定义环境变量时,不要使用“MA_”开头的名称。 如何修改环境变量 用户可以在创建训练作业页面增加新的环境变量,也可以设置新的取值覆盖当前训练容器中预置的环境变量值。 为保证数据安全,请勿输入敏感信息,例如明文密码。
准备镜像 准备训练Llama2-13B模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像
准备镜像 准备训练Llama2-13B模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像
前提条件 已存在创建完成的数据集。 准备需要导入的数据,具体可参见从Manifest文件导入规范说明。 需导入的数据,已存储至OBS中。Manifest文件也需要存储至OBS。 确保数据存储的OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。 文件型数据从Manifest导入操作
Gallery的“我的Gallery > 我的资产”的各个模块的“我的订阅”或“我的下载”中。 免费资产在ModelArts的AI Gallery中的使用流程如下: 图1 AI Gallery中免费资产的使用流程 商业售卖商品使用事项 售出和购买商品需要您按照指导注册华为帐号并开通
注册API并授权给APP 功能介绍 注册API并将API授权给APP,只有对服务有更新权限的华为云用户可以调用。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST
在ModelArts的Notebook中JupyterLab的目录、Terminal的文件和OBS的文件之间的关系是什么? JupyterLab目录的文件与Terminal中work目录下的文件相同。即用户在Notebook中新建的,或者是从OBS目录中同步的文件。 挂载OBS存储的Note
--swr-path String 是 需要注册的镜像的SWR路径。 -a / --arch String 否 注册镜像的架构,X86_64或者AARCH64,默认是X86_64。 -s / --service String 否 注册镜像的服务类型,NOTEBOOK或者MODELBOX,默认是NOTEBOOK。
产品变更公告 网络调整公告 预测API的域名停用公告
准备镜像 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像 swr
Workflow中所有出现占位符相关的配置对象时,均需要设置默认值,或者直接使用固定的数据对象 方法的执行依赖于Workflow对象的名称:当该名称的工作流不存在时,则创建新工作流并创建新执行;当该名称的工作流已存在时,则更新存在的工作流并基于新的工作流结构创建新的执行 workflow.release_and_run()
1~128的整数。value值表示最大允许重新下发作业的次数。如果不传入则默认为0,表示不做重新下发作业,也不会启用环境检测。 图6 设置API 检测项目与执行条件 检测项目 item(日志关键字) 执行条件 检测成功要求 域名检测 dns 无 volcano容器的域名都解析成功(/etc/volcano下的“
ing”也请替换为自定义的值。 选择左侧导航栏的“总览”,单击页面右上角的“登录指令”,在弹出的页面中单击复制登录指令。 此处生成的登录指令有效期为24小时,如果需要长期有效的登录指令,请参见获取长期有效登录指令。获取了长期有效的登录指令后,在有效期内的临时登录指令仍然可以使用。
描述 dns_domain_name String 页面调用指南展示的访问域名,可用于添加内网DNS解析。 vpcep_info Array of InternalChannelDetail objects 检索到的VPC访问通道信息。 表5 InternalChannelDetail
获取用户名和用户ID 在调用接口的时候,部分请求中需要填入用户名(user name)和用户ID(user_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面,查看“IAM用户名”和“IAM用户ID”。 图1 获取用户名和ID