检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
断点续训和故障快恢说明 相同点 断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。 不同点 断点续训:可指定加载训练过程中生成的
通过公网访问通道的方式访问在线服务 背景描述 ModelArts推理默认使用公网访问在线服务。在线服务部署成功后,将为用户提供一个可调用的API,此API为标准Restful API。您可以在服务详情页面,调用指南页签中查看API接口公网地址。 图1 API接口公网地址 约束限制
方法四:使用Git clone,官方提供了git clone repo_url 的方式下载,但是不支持断点续传,并且clone会下载历史版本占用磁盘空间。
管理训练容器环境变量 什么是环境变量 本章节展示了训练容器环境中预置的环境变量,方便用户查看,主要包括以下类型。 路径相关环境变量 分布式训练作业环境变量 NCCL(Nvidia Collective multi-GPU Communication Library)环境变量 OBS
处理方法 用户电脑切换到管理员角色,键盘快捷键(Windows+R模式)并输入cmd,进入黑色窗口,执行如下命令: python -m pip install --upgrade pip 父主题: API/SDK
方法四:使用Git clone,官方提供了git clone repo_url 的方式下载,但是不支持断点续传,并且clone会下载历史版本占用磁盘空间。
方法四:使用Git clone,官方提供了 git clone repo_url 的方式下载,但是不支持断点续传,并且clone 会下载历史版本占用磁盘空间。
方法四:使用Git clone,官方提供了git clone repo_url 的方式下载,但是不支持断点续传,并且clone会下载历史版本占用磁盘空间。
用户下发训练作业、部署模型、使用开发环境实例等,均可以使用ModelArts提供的公共资源池完成,按照使用量计费,方便快捷。
网络调整公告 ModelArts针对网络进行安全加固和优化,新的网络模式可以为用户的资源提供更好的隔离性,提升云上资源的安全。为保障您的网络安全,建议您后续使用新网络创建Standard资源池。 表1 上线局点 上线局点 上线时间 华东二 2024年10月29日 20:00 父主题
如果容器中的文件实际路径不清楚,可以使用Python获取当前文件路径的方法获取。
表96 BillingInfo 参数 参数类型 描述 code String 计费码。 unit_num Integer 计费单元。
说明: 智能标注创建时免费,但OBS存储会按需收费,请参考计费详情。为保证您的资源不浪费,标注作业与后续任务完成后,请及时清理您的OBS桶。 计算节点个数 默认为1,表示单机模式。目前仅支持此参数值。 表2 预标注 参数 说明 智能标注类型 “预标注”。
处理方法 创建训练作业时,在“运行参数”中增加参数“variable_update=parameter_server”来关闭Mox的warmup。 父主题: MoXing
session 否 Object 会话对象,初始化方法请参见Session鉴权。 当需要操作OBS时必填。 save_mode 否 String 保存模式。默认为w,即重写模式,另外还支持a,为追加模式。 父主题: Manifest管理
训练作业运行过程中将按照选择的资源进行计费。 父主题: 使用ModelArts Standard训练模型
处理方法 通过Notebook调试。 安装时指定版本。如:pip install xxx==1.x.x 第三方pip源可能随时更新,可通过制作自定义镜像,来避免该影响。可参见文档模型训练中使用自定义镜像介绍。
session 否 Object 会话对象,初始化方法请参见Session鉴权。 当需要操作OBS时必填。 save_mode 否 String 保存模式。默认为w,即重写模式,另外还支持a,为追加模式。 父主题: Manifest管理
ModelArts在线服务预测请求体大小限制是多少? 服务部署完成且服务处于运行中后,可以往该服务发送推理的请求,请求的内容根据模型的不同可以是文本,图片,语音,视频等内容。 当使用调用指南页签中显示的调用地址(华为云APIG网关服务的地址)预测时,对请求体的大小限制是12MB,超过
在ModelArts的Notebook中,如何使用昇腾多卡进行调试? 昇腾多卡训练任务是多进程多卡模式,跑几卡需要起几个python进程。昇腾底层会读取环境变量:RANK_TABLE_FILE,开发环境已经设置,用户无需关注。比如跑八卡,可以如下片段代码: export RANK_SIZE