正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图像分类:用于训练的图片,至少有2种以上的分类(即2种以上的标签),每种分类的图片数不少于5张。 物体检测:用于训练的图片,至少有1种以上的分类(即1种以上的标签),每种分类的图片数不少于5张。
表2 metrics object数据结构说明 参数 是否必选 参数类型 描述 f1 否 Number 平均数。精确到小数点后17位,超过17位时,取前17位数值。 recall 否 Number 召回率。精确到小数点后17位,超过17位时,取前17位数值。
Compute Node 节点数(单机训练默认为1) PyCharm中支持两种方式创建训练作业:使用预置镜像训练作业、自定义镜像创建训练作业。 使用预置镜像创建训练作业。 在RunningParameters中填入如下训练参数,其余参数按实际路径填写。
进行GPU单机八卡训练,生成固定训练随机数,随机数会保存在noise文件夹中。
allocatable_memory Integer 可使用的内存数。 cluster_id String 集群ID。 nodes ClusterNode object 集群节点配置。 allocatable_cpu_cores Float 可使用的CPU核数。
cpu_core_usage Float 已使用CPU核数。 cpu_core_total Float 总CPU核数。 cpu_memory_usage Integer 已使用内存,单位MB。 cpu_memory_total Integer 总内存,单位MB。
core_num Integer 核数。 表8 Gpu 参数 参数类型 描述 unit_num Integer gpu卡数。 product_name String 产品名。 memory String 内存。
如下: hf2hg:用于Hugging Face 转 Megatron mg2hf:用于Megatron 转 Hugging Face TP 8 张量并行数,一般等于单机卡数 PP 1 流水线并行数,一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user
如下: hf2hg:用于Hugging Face 转 Megatron mg2hf:用于Megatron 转 Hugging Face TP 8 张量并行数,一般等于单机卡数 PP 1 流水线并行数,一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user
尤其对于5G以上文件,OBS接口不支持直接调用,需要分多个线程分段拷贝,目前OBS侧服务端超时时间是30S,可以通过如下设置减少进程数。
如下: hf2hg:用于Hugging Face 转 Megatron mg2hf:用于Megatron 转 Hugging Face TP 8 张量并行数,一般等于单机卡数 PP 1 流水线并行数,一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user
gradient_accumulation_steps int 梯度累计步数。 max_steps int 训练最大步数,如果数据耗尽,训练将会在最大步数前停止。 save_steps int checkpoint保存步数。 logging_steps int 日志输出步数。
NPU RoCE网络MAC发送的坏包总报文数 个 ≥0 MAC下行坏包总数 ma_node_npu_roce_mac_rx_bad_packets_total NPU RoCE网络MAC接收的坏包总报文数 个 ≥0 RoCE上行坏包总数 ma_node_npu_roce_tx_err_packets_total
映射规则:当前不支持CPU配置cache盘;GPU与昇腾资源为单卡时,cache目录保持500G大小限制;除单卡外,cache盘大小与卡数有关,计算方式为卡数*500G,上限为3T。详细表1所示。
节点规格的GPU卡数和以下任意值不相等: lspci可见GPU卡数。 nvidia-smi可见卡数。 k8s可调度卡数不相等。 发起维修流程。 NT_GPU_SMI_INFOROM_ERROR GPU 其他 infoROM告警。
如下: hf2hg:用于Hugging Face 转 Megatron mg2hf:用于Megatron 转 Hugging Face TP 8 张量并行数,一般等于单机卡数 PP 1 流水线并行数,一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user
训练作业的任务节点数要大于或等于3,否则会跳过ranktable路由加速。建议在大模型场景(512卡及以上)使用ranktable路由加速。 脚本执行目录不能是共享目录,否则ranktable路由加速会失败。
配额项说明 使用ModelArts Lite Cluster或Lite Server时,所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小等等资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。具体配额项如下。
如下: hf2hg:用于Hugging Face 转 Megatron mg2hf:用于Megatron 转 Hugging Face TP 8 张量并行数,一般等于单机卡数 PP 1 流水线并行数,一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user
如下: hf2hg:用于Hugging Face 转 Megatron mg2hf:用于Megatron 转 Hugging Face TP 8 张量并行数,一般等于单机卡数 PP 1 流水线并行数,一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user