检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
sh 使用基础镜像的方法,需要确认训练作业的资源池是否联通公网,否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。 若要对ChatCLMv3、GLMv4系列模型进行训练时,需要修改 install.sh 中的 transformers
高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。 中:对于可能导致安全风险及可靠性降低的高危操作。 低:高、中风险等级外的其他高危操作。 表1 操作及其对应风险 操作对象 操作名称 风险描述 风险等级 应对措施 集群 升级、修改、休眠集群、删除集群等。 可能影响M
操作,不同资源池可进行的操作不一致,具体以控制台显示为准。 在“基本信息”的“网络”中,可单击关联的资源池中的数字,查看关联的资源池。可以查看该网络中可用的IP数量。 在扩展信息中可以查看监控、作业、节点、规格、事件、标签,详细介绍见下文。 查看资源池中的作业 在资源池详情页,切
权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 步骤2 修改训练超参配置 以 llama2-70b 和 llama2-13b
训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。 表54 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码,调用成功时无此字段。
sh文件,来安装依赖以及下载完整代码。 使用基础镜像的方法,需要确认训练作业的资源池是否联通公网,否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。 若要对ChatCLMv3、GLMv4系列模型进行训练时,需要修改 install.sh 中的 transformers
训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。 表54 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码,调用成功时无此字段。
String 用户GaussDB(DWS)集群的IP地址。 port 否 String 用户GaussDB(DWS)集群的端口。 queue_name 否 String 表格数据集,DLI队列名。 subnet_id 否 String MRS集群的子网ID。 table_name 否 String
开启图模式后,服务第一次响应请求时会有一个较长时间的图编译过程,并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务
String 用户GaussDB(DWS)集群的IP地址。 port 否 String 用户GaussDB(DWS)集群的端口。 queue_name 否 String 表格数据集,DLI队列名。 subnet_id 否 String MRS集群的子网ID。 table_name 否 String
到指定的obs_path中; 将训练作业提交到ModelArts训练服务中,训练作业会使用当前Notebook的镜像来执行训练作业; 训练任务得到的输出上传到4指定的obs_path中,日志上传到log_url指定的位置中。 在这一步中需要注意的一个问题: 如果用户在自己的训练脚
开发环境运行的实例,保存成镜像。 使用自定义镜像创建开发环境Notebook实例。 按需配置。 使用SSH功能 ECS ecs:serverKeypairs:list ecs:serverKeypairs:get ecs:serverKeypairs:delete ecs:serverKeypairs:create
必须大于0,不配置默认值为1。当小于1时,代表滚动升级时增加的实例数的百分比;当大于1时,代表滚动升级时最大扩容的实例数。 max_unavailable 否 Float 必须大于0,不配置默认值为0。当小于1时,代表滚动升级时允许缩容的实例数的百分比;当大于1时,代表滚动升级时允许缩容的实例数。 terminat
rts专属资源池的完全控制权限,以及Notebook所有实例的访问和操作权限。 普通开发者使用开发环境,只需关注对自己Notebook实例的操作权限,包括对自己实例的创建、启动、停止、删除等权限以及周边依赖服务的权限。普通开发者不需要ModelArts专属资源池的操作权限,也不需要查看其他用户的Notebook实例。
存,导致磁盘空间不足。 磁盘配额不足。 处理方法 查看虚拟机所使用的存储空间,再查看回收站文件占用内存,根据实际删除回收站里不需要的大文件。 在Notebook实例详情页,查看实例的存储容量。 执行如下命令,排查虚拟机所使用的存储空间,一般接近存储容量,请排查回收站占用内存。 cd
S/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。 模型推荐的参数与NPU卡数设置 不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表2 不同模型推荐的参数与NPU卡数设置 序号 支持模型 支持模型参数量
每个输出序列要生成的最大tokens数量。 top_k 否 -1 Int 控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。 适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。
deleted_sample_count Integer 已删除的样本数目。 rejected_sample_count Integer owner验收不通过的样本数目。 sampled_sample_count Integer 待owner验收且被抽样的样本数目。 total_sample_count
String 用户在cbc选择的折扣信息。 os.modelarts/service.console.url String 订购订单支付完成后跳转的url地址。 os.modelarts/order.id String 订单id,包周期资源池创建或者计费模式变更的时候该参数必需。 os.modelarts/flavor
object 资源池的metadata信息。 spec PoolSpecModel object 资源池的期望信息。 status PoolStatus object 资源池的状态信息。 表4 PoolMetadata 参数 参数类型 描述 name String 系统自动生成的pool名称,相当于pool