检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
tputs/train_url_0" train_url = args.train_url # 判断输出路径中是否有模型文件。如果无文件则默认从头训练,如果有模型文件,则加载epoch值最大的ckpt文件当做预训练模型。 if os.listdir(train_url):
String 计费对应规格的唯一标识。 category String 规格类型。 cpu_info CpuInfo object 规格的CPU信息。 memory_info MemoryInfo object 规格的内存信息。 gpu_info GpuInfo object 规格的GPU信息。
"status": "waiting" } ], "train_job_name": "AUTO_TRAINING_cls_6mHUGe7ETlhayb4qDMN_7eAtpiNSaI", "train_job_id":
复制数据至容器中空间不足 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法复制至容器中。 OSError:[Errno 28] No space left on device 原因分析 数据下载至容器的位置空间不足。 处理方法 请排查是否将数据下载至“
细信息。 如果专属资源池的规格与您的业务不符,可通过扩缩容Standard专属资源池来调整专属资源池的规格。 每个用户对集群的驱动要求不同,在专属资源池列表页中,可自行选择加速卡驱动,并根据业务需要进行立即变更或平滑升级。ModelArts提供了自助升级专属资源池GPU/Asce
工作空间ID,系统生成的32位UUID,不带橫线。 status String 工作空间状态。 CREATE_FAILED:创建失败。 NORMAL:状态正常。 DELETING:正在删除。 DELETE_FAILED:删除失败。 status_info String 状态描述,默认为空。该字段会补充
6就是超分比率。即启动该Notebook实例最少需要1.2U的CPU,运行Notebook时最大使用到2U的资源;内存同理,最少需要4.8G的内存,运行时最大使用到8U的内存。 超分情况下会存在实例终止的风险。如1个8U的节点上同时启动了6个2U的实例,如果其中一个实例CPU使用增大
资源类型的CPU架构,支持X86和ARM。请根据所需规格选择CPU架构。 如果使用GPU选择X86,如果使用NPU则选择ARM。 具体规格有区域差异,以最终显示为准。 说明: 如果界面无可选规格,请联系华为云技术支持申请开通。 系统盘 系统盘和规格有关,选择支持挂载的规格才会显示此参数。可以在创建完成
Integer 作业资源规格总数。 specs specs结构数组 资源规格参数列表,如表4所示。 表4 specs属性列表说明 参数 参数类型 说明 spec_id Long 资源规格的ID。 core String 资源规格的核数。 cpu String 资源规格CPU内存。 gpu_num
category String 规格处理器类型。 CPU GPU ASCEND description String 规格描述信息。 feature String 规格类别,可选值如下: DEFAULT:CodeLab规格。 NOTEBOOK:Notebook规格。 free Boolean
“nv_peer_mem”是一个Linux内核模块,它允许支持P2P(Peer-to-Peer)的NVIDIA GPU直接进行内存访问(DMA)。这意味着数据可以直接在多个GPU之间传输,而无需经过CPU或系统内存,这可以显著降低延迟并提高带宽。 所以既然nccl-tests能正常测试, 但是达不到预期,可能是nv_peer_mem异常。
署参数。 计算规格选择 - 按需选择计算规格。单击“选择”,在弹窗中选择资源规格并设置运行时长控制,单击“确定”。 在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。 选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据,AI Gallery
ResourceFlavor:资源规格 metadata metadata object 资源规格的metadata信息。 spec ResourceFlavorSpec object 资源规格的描述信息。 status ResourceFlavorStatus object 资源规格的状态信息。 表6
source_copy String 镜像复制开关,仅当“model_type”为“Image”时有效。 true:表示复制镜像模式,无法极速创建AI应用,SWR源目录中的镜像更改或删除不影响服务部署。 false:表示不复制镜像模式,可极速创建AI应用,更改或删除SWR源目录中的镜像会影响服务部署。
特权池信息数据显示均为0%如何解决? 问题现象 特权池基本信息页面数据均显示为0%(如CPU使用率、内存使用率、加速卡使用率、加速卡显存使用率)。 原因分析 原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent,可能由于用户自行卸载ICAgent,导致资源池数据显示异常。
的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU:CPU使用率(cpuUsage)百分比(Percent)。 MEM:物理内存使用率(memUsage)百分比(Percent)。 GPU:GPU使用率(gpuUtil)百分比(Percent)。 GPU_MEM:显
计费模式变更目前仅支持按需计费转包周期(即包年/包月)。 公共资源池不能单独购买,不支持变更计费模式。 专属资源池计费模式为“按需计费”。 只有订购实例状态是“使用中”的资源才能变更资费。 计费模式变更只支持以专属资源池为粒度进行整体变更,不支持以规格为粒度进行部分变更。 一个专
制台向使用方收取。 发布至AI云商店 华为云云商店是软件及服务交易交付平台。云商店AI专区汇聚优质的人工智能服务提供商,提供丰富的人工智能解决方案、应用、API及算法模型,助力用户快速部署、接入、调用相关应用,方便地购买和使用算法模型。 发布至云商店AI专区的模型为商业售卖资产。买家需购买商品的使用配额进行有偿使用。
实例进行使用。 切换规格。 CodeLab支持CPU和GPU两种规格,在右侧区域,单击切换规格,修改规格类型。 图3 切换规格 资源监控。 在使用过程中,如果想了解资源使用情况,可在右侧区域选择“Resource Monitor”,展示“CPU使用率”和“内存使用率”。 图4 资源监控
训练作业选择的资源池ID。 flavor_detail flavor_detail object 训练作业、算法的规格信息。 表43 flavor_detail 参数 参数类型 描述 flavor_type String 资源规格的类型。可选值如下: CPU; GPU; Ascend。