检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
指南》。 表1 ModelArts各环节与OBS的关系 功能 子任务 ModelArts与OBS的关系 自动学习 数据标注 ModelArts标注的数据存储在OBS中。 自动训练 训练作业结束后,其生成的模型存储在OBS中。 部署上线 ModelArts将存储在OBS中的模型部署上线为在线服务。
dataset exportDataFromDataset 创建自动标注任务 dataset createAutoLabelingTask 创建自动分组任务 dataset createAutoGroupingTask 创建自动部署任务 dataset createAutoDeployTask
dataset exportDataFromDataset 创建自动标注任务 dataset createAutoLabelingTask 创建自动分组任务 dataset createAutoGroupingTask 创建自动部署任务 dataset createAutoDeployTask
主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 开启训练故障自动重启功能 查看日志和性能 训练脚本说明 父主题: LLM大语言模型训练推理
“事件”:选择要订阅的事件类型。例如“创建中”、“已完成”、“运行失败”等。 关闭 自动停止 当使用付费资源时,可以选择是否打开“自动停止”开关。 开关关闭(默认关闭):表示任务将一直运行。 开关打开:表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”、“2小时”、“4小时”、6小时
欠费后,ModelArts的资源是否会被删除? ModelArts Standard数据管理相关计费FAQ ModelArts Standard自动学习所创建项目一直在扣费,如何停止计费? ModelArts Standard训练作业和模型部署如何收费?
在训练进程结束后,该日志会生成到训练容器中。其中,使用MindSpore预置框架训练的device日志会自动上传到OBS,使用其他预置框架和自定义镜像训练的device日志如果需要自动上传到OBS,则需要在代码中配置ASCEND_PROCESS_LOG_PATH,具体请参考如下示例。
签,并且自动同步在模型描述部分,保存到“README.md”文件里。 模型描述部分是一个可在线编辑、预览的Markdown文件,里面包含该模型的简介、能力描述、训练情况、引用等信息。编辑内容会自动保存在“README.md”文件里。 更新后的“README.md”文件自动存放在数
retrying”,则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量,该环境变量由系统自动注入,训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后,单击右侧“重建”,重新创建训练作业,提交训练作业后等待作业完成。
置文件中配置apis信息时,则可不填,后台自动从配置文件的apis字段中读取输入参数信息。 output_params 否 params结构数组 模型推理输出参数列表,默认为空。如果已在模型配置文件中配置apis信息时,则可不填,后台自动从配置文件的apis字段中读取输出参数信息。
置文件中配置apis信息时,则可不填,后台自动从配置文件的apis字段中读取输入参数信息。 output_params 否 params结构数组 模型推理输出参数列表,默认为空。如果已在模型配置文件中配置apis信息时,则可不填,后台自动从配置文件的apis字段中读取输出参数信息。
签,并且自动同步在模型描述部分,保存到“README.md”文件里。 模型描述部分是一个可在线编辑、预览的Markdown文件,里面包含该模型的简介、能力描述、训练情况、引用等信息。编辑内容会自动保存在“README.md”文件里。 更新后的“README.md”文件自动存放在数
”:默认关闭,可通过勾选高级选项提供增强功能。 如“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加相应的标签。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。 图1 导入数据集-OBS 导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数
PU)、CANN(NPU)。 自定义模型使用的预置镜像 AI Gallery提供了PyTorch基础镜像,镜像里已经安装好了运行任务所需的软件,供自定义模型直接使用,快速进行训练、推理。预置镜像的版本信息请参见表3。 表3 AI Gallery预置镜像列表 引擎类型 资源类型 版本名称
型文件系统到云服务器(Linux)。 为避免已挂载文件系统的云服务器重启后,挂载信息丢失,您可以在云服务器设置重启时进行自动挂载,具体步骤请参考服务器重启后自动挂载指南。 使用对象存储服务OBS作为存储 若使用OBS服务作为存储方案,推荐使用“并行文件系统+obsutil”的方式
启用该参数并设置时间后,运行时长到期后将会自动终止任务,准备排队等状态不扣除运行时长。 自动重启 选择是否打开“自动重启”开关。 开关关闭(默认关闭):表示不启用自动重启。 开关打开:表示当由于环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。
适用资源池 专属资源池 公共资源池、专属资源池 适用功能模块 Standard自动学习、Workflow、Notebook、模型训练、模型部署 Lite Cluster Lite Server Standard自动学习、Workflow、Notebook、模型训练、模型部署 变更计费模式
使用消息通知服务会产生相关服务费用,详细信息请参见计费说明。 自动停止 当使用付费资源时,可以选择是否打开“自动停止”开关。 开关关闭(默认关闭):表示服务将一直运行。 开关打开:表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”、“2小时”、“4小时”、6小时
ModelArts CLI命令参考 ModelArts CLI命令功能介绍 (可选)本地安装ma-cli ma-cli auto-completion自动补全命令 ma-cli configure鉴权命令 ma-cli image镜像构建支持的命令 ma-cli ma-job训练作业支持的命令
now.”如何解决? VS Code连接远端Notebook时报错“XHR failed” VS Code连接后长时间未操作,连接自动断开 VS Code自动升级后,导致远程连接时间过长 使用SSH连接,报错“Connection reset”如何解决? 使用MobaXterm工具S