检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自动学习、Workflow、Notebook、模型训练、服务部署 变更计费模式 支持变更为按需计费模式。 但包年/包月资费模式到期后,按需的资费模式才会生效。 包年/包月转按需 支持变更为包年/包月计费模式。 按需转包年/包月 变更规格 支持变更实例规格。 支持变更实例规格。 适用场景 适用于可预估资源使用周期
专属资源池的Ascend驱动版本需与训练基础镜像中的Cann软件版本版本匹配。 ModelArts上支持的Ascend驱动版本可以在ModelArts专属资源池(NEW)的详情页面查看到。ModelArts上支持的Cann软件版本可以在训练基础镜像详情页面查看,具体请参见训练基础镜像详情(Asc
PyTorch版本根据训练要求选择。 代码目录 选择OBS桶中训练code文件夹所在路径,例如“obs://test-modelarts/code/”。 启动文件 选择代码目录中训练作业的Python启动脚本。例如“obs://test-modelarts/code/main.py”。
并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化,则判定作业卡死。 约束限制 卡死检测仅支持资源类型为GPU和NPU的训练作业。 操作步骤 卡死检测无需额外配置,作业运行中会自动执行检测。检测到作业卡死后会在训练作业详情页提示作业
PPO强化学习目前仅限制支持于llama3系列 2、PPO训练暂不支持 ZeRO-3存在通信问题,如llama3-70B使用ZeRO-3暂不支持 训练策略类型 全参full,配置如下: finetuning_type: full lora,如dpo仅支持此策略;配置如下: finetuning_type:
该进程一直处于"D+"状态,可能表明出现了I/O操作阻塞或其他问题,这可能导致系统死锁或其他问题。 如果想构造nvidia-smi D+进程,可以死循环一直执行nvidia-smi体验D+进程带来的系统不稳定性, 如: #!/bin/bash while true; do nvidia-smi
/user/config/jobstart_hccl.json 多卡训练时,需要依赖“rank_table_file”做卡间通信的配置文件,该文件自动生成,pod启动之后文件地址。为“/user/config/jobstart_hccl.json”,“/user/config/jobstart_hccl
本方案介绍了在ModelArts的DevServer上使用昇腾计算资源开展Wav2Lip训练的详细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买DevServer资源。 本方案目前仅适用于企业客户。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend
签予以区分。 重新运行:可以单击“重新运行”直接在某条记录上运行该工作流。 您可以对该条工作流的所有运行记录进行筛选和对比。 筛选:该功能支持您对所有运行记录按照“运行状态”和“运行标签”进行筛选。 图2 筛选 对比:针对某条工作流的所有运行记录,按照状态、运行记录、启动时间、运行时长、参数等进行对比。
忽略。 如果对于误检有疑问或者卡死问题无法自行解决,您可以前往ModelArts开发者论坛进行提问或者搜索问题。 约束限制 目前卡死检测仅支持资源类型为GPU的训练作业。 操作步骤 卡死检测无需额外配置,作业运行中会自动执行检测。检测到作业卡死后会在训练作业详情页提示作业疑似卡死
本方案介绍了在ModelArts的DevServer上使用昇腾计算资源开展MiniCPM-V 2.6 LoRA训练的详细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买DevServer资源。 本方案目前仅适用于企业客户。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend
针对已发布的数据集,使用此数据集的Manifest文件,重新导入,此时出现导入失败的错误。 原因分析 针对已发布的数据集,其对应的OBS目录下,发生了数据变化,如删除图片,导致此Manifest文件与当前OBS目录下的数据情况不符。使用此Manifest文件再次导入时,出现错误。 解决方案 方法1(推荐),建
如何将多个物体检测的数据集合并成一个数据集? 可以在OBS桶中创建一个父级目录,目录下面设置不同的文件夹,将多个数据集分别导出到这些文件夹里面,最后用父目录创数据集即可。 登录ModelArts管理控制台,选择“数据管理>数据集”进入数据集概览页,单击右上角“导出”,将对应的数据集到导出至OBS父级目录下的子文件夹中。
添加到消息头,从而通过身份认证。AK/SK签名认证方式仅支持消息体大小12M以内,12M以上的请求请使用Token认证。 APP认证:在请求头部消息增加一个参数即可完成认证,认证方式简单,永久有效。 ModelArts支持通过以下几种方式调用API访问在线服务(案例中均以HTTPS请求为例):
针对ModelArts中的数据集,在创建数据集时,需指定“数据集输入位置”和“数据集输出位置”。两个参数填写的均是OBS路径。 “数据集输入位置”即原始数据存储的OBS路径。 “数据集输出位置”,指在ModelArts完成数据标注后,执行数据集发布操作后,在此指定路径下,按数据集版
备注 /home/ma-user/work/ 否 客户数据的持久化目录。 /data 否 客户PFS的挂载目录。 /cache 否 裸机规格时支持,用于挂载宿主机NVMe的硬盘。 /train-worker1-log 否 兼容训练任务调试过程。 /dev/shm 否 用于PyTorch引擎加速。
nci7。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统,dir为宿主机中文件目录,${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载到/
“NCCL_SOCKET_IFNAME=bond0,eth0” 表4 OBS环境变量 变量名 说明 示例 S3_ENDPOINT OBS地址。 “S3_ENDPOINT=https://obs.region.myhuaweicloud.com” S3_VERIFY_SSL 访问OBS是否使用SSL。 “S3_VERIFY_SSL=0”
创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 问题分析 创建训练作业选择的代码目录有大小和文件个数限制。 解决方法 将代码目录中除代码以外的文件删除或存放到其他目录,保证代码目录大小不超过128MB,文件个数不超过4096个。 父主题: 创建训练作业
各个使用场景,同时兼顾数据集管理的灵活性,本文档描述数据集管理的接口和描述规范——Manifest文件。 Manifest文件中定义了标注对象和标注内容的对应关系。Manifest文件中也可以只有原始文件信息,没有标注信息,如生成的未标注的数据集。 Manifest文件使用UTF