检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在创建训练作业页面填写训练作业基本信息。 表1 创建训练作业的基本信息 参数名称 说明 名称 必填,训练作业的名称。 系统会自动生成一个名称,可以根据业务需求重新命名,命名规则如下: 支持1~64位字符。 可以包含大小写字母、数字、中划线(-)或下划线(_)。 描述 训练作业的简介,便于在训练作业列表了解作业信息。
日志提示"Permission denied" 问题现象 训练作业访问挂载的EFS,或者是执行.sh启动脚本时,出现如下错误: OSError: [Errno 13]Permission denied: '/xxx/xxxx' bash: /bin/ln: Permission denied
数,如果未使用量化功能,则无需配置。根据使用的量化方式配置,可选择awq或smoothquant方式。该参数可与投机推理配合使用,实现投机校验模型的量化功能。 --speculative-model ${container_draft_model_path}:投机草稿模型地址,模
obs:object:GetObjectVersionAcl 训练作业配置代码目录、输入、输出和日志的OBS桶路径时,需要OBS服务相关操作权限,用于OBS对象路径的合法性校验。 训练作业以自定义容器镜像方式启动。 SWR SWR Admin 训练作业以自定义容器镜像方式启动时,需要获取用户SWR容器镜像的临时登
数,如果未使用量化功能,则无需配置。根据使用的量化方式配置,可选择awq或smoothquant方式。该参数可与投机推理配合使用,实现投机校验模型的量化功能。 --speculative-model ${container_draft_model_path}:投机草稿模型地址,模
数,如果未使用量化功能,则无需配置。根据使用的量化方式配置,可选择awq或smoothquant方式。该参数可与投机推理配合使用,实现投机校验模型的量化功能。 --speculative-model ${container_draft_model_path}:投机草稿模型地址,模
数,如果未使用量化功能,则无需配置。根据使用的量化方式配置,可选择awq或smoothquant方式。该参数可与投机推理配合使用,实现投机校验模型的量化功能。 --speculative-model ${container_draft_model_path}:投机草稿模型地址,模
使用PyCharm手动连接Notebook 本地IDE环境支持PyCharm和VS Code。通过简单配置,即可用本地IDE远程连接到ModelArts的Notebook开发环境中,调试和运行代码。 本章节介绍基于PyCharm环境访问Notebook的方式。 前提条件 本地已安装2019
查看训练作业日志 训练日志定义 训练日志用于记录训练作业运行过程和异常信息,为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。
管理训练容器环境变量 什么是环境变量 本章节展示了训练容器环境中预置的环境变量,方便用户查看,主要包括以下类型。 路径相关环境变量 分布式训练作业环境变量 NCCL(Nvidia Collective multi-GPU Communication Library)环境变量 OBS环境变量
用量化功能,则无需配置。根据使用的量化方式配置,可选择awq、smoothquant或者GPTQ方式。该参数可与投机推理配合使用,实现投机校验模型的量化功能。 --speculative-model ${container_draft_model_path}:投机草稿模型地址,模
用量化功能,则无需配置。根据使用的量化方式配置,可选择awq、smoothquant或者GPTQ方式。该参数可与投机推理配合使用,实现投机校验模型的量化功能。 --enable-chunked-prefill:chunked-prefill特性参数,不传入默认为None即不启用;
ModelArts最佳实践案例列表 在最佳实践文档中,提供了针对多种场景、多种AI引擎的ModelArts案例,方便您通过如下案例快速了解使用ModelArts完成AI开发的流程和操作。 LLM大语言模型训练推理场景 样例 场景 说明 主流开源大模型基于DevServer适配ModelLink
Lite Cluster资源配置流程 本章节介绍Lite Cluster环境配置详细流程,适用于加速卡环境配置。 前提条件 已完成集群资源购买和开通,具体请参见Lite Cluster资源开通。 集群的配置使用需要用户具备一定的知识背景,包括但不限于Kubernetes基础知识、网络知识、存储和镜像知识。
Open-Clip基于DevServer适配PyTorch NPU训练指导 Open-Clip广泛应用于AIGC和多模态视频编码器的训练。 方案概览 本方案介绍了在ModelArts的DevServer上使用昇腾NPU计算资源开展Open-clip训练的详细过程。完成本方案的部署
使用MaaS调优模型 在ModelArts Studio大模型即服务平台完成模型创建后,可以对模型进行调优,获得更合适的模型。 场景描述 从“我的模型”中选择一个模型进行调优,当模型完成调优作业后会产生一个新的模型,呈现在“我的模型”列表中。 约束限制 表1列举了支持模型调优的模
创建Standard专属资源池 本章节主要介绍创建Standard专属资源池的详细操作。 前提条件 已经创建虚拟私有云。 已经创建子网。 步骤一:创建网络 ModelArts网络是承载ModelArts资源池节点的网络连接,基于华为云的VPC进行封装,对用户仅提供网络名称以及CI