检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
pip源中的pip包更新了,之前能跑通的代码,在包更新之后产生了不兼容的情况,例如transformers包,导致import的时候出现了错误。 用户代码问题,出现了内存越界、非法访问内存空间的情况。 未知系统问题导致,建议先尝试重建作业,重建后仍然失败,建议提工单定位。 处理方法 如果存在之前能跑通,什么都没修改,
请排查是否将数据下载至“/cache”目录下,GPU规格资源的每个节点会有一个“/cache”目录,空间大小为4TB。并确认该目录下并发创建的文件数量是否过大,占用过多存储空间会出现inode耗尽的情况,导致空间不足。 请排查是否使用的是GPU资源。如果使用的是CPU规格的资源,“/cache”与代码
创建训练作业标签 删除训练作业标签 查询训练作业标签 获取训练作业事件列表 创建训练作业镜像保存任务 查询训练作业镜像保存任务 获取训练作业支持的公共规格 获取训练作业支持的AI预置框架
服务部署、启动、升级和修改时,拉取镜像失败如何处理? 问题现象 服务部署、启动、升级和修改时,拉取镜像失败。 原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
FlavorResponse objects 训练作业资源规格列表。 表4 FlavorResponse 参数 参数类型 描述 flavor_id String 资源规格的ID。 flavor_name String 资源规格的名称。 max_num Integer 资源规格的最大节点数。 flavor_type
String 计费对应规格的唯一标识。 category String 规格类型。 cpu_info CpuInfo object 规格的CPU信息。 memory_info MemoryInfo object 规格的内存信息。 gpu_info GpuInfo object 规格的GPU信息。
category String 规格处理器类型。 CPU GPU ASCEND description String 规格描述信息。 feature String 规格类别,可选值如下: DEFAULT:CodeLab规格。 NOTEBOOK:Notebook规格。 free Boolean
available for the selected specification.) 图1 资源不足,服务调度失败 原因分析 实例配置的规格过大,CPU或者内存剩余资源不足;("insufficient CPU" / "insufficient memory") 模型需要的磁盘空间大,磁盘空间不足;("x
Integer 作业资源规格总数。 specs specs结构数组 资源规格参数列表,如表4所示。 表4 specs属性列表说明 参数 参数类型 说明 spec_id Long 资源规格的ID。 core String 资源规格的核数。 cpu String 资源规格CPU内存。 gpu_num
6就是超分比率。即启动该Notebook实例最少需要1.2U的CPU,运行Notebook时最大使用到2U的资源;内存同理,最少需要4.8G的内存,运行时最大使用到8U的内存。 超分情况下会存在实例终止的风险。如1个8U的节点上同时启动了6个2U的实例,如果其中一个实例CPU使用增大
资源类型的CPU架构,支持X86和ARM。请根据所需规格选择CPU架构,若使用GPU选择X86,若使用NPU则选择ARM。具体规格有区域差异,以最终显示为准。 说明: 如果界面无可选规格,请联系华为云技术支持申请开通。 系统盘 系统盘和规格有关,选择支持挂载的规格才会显示此参数。可以在创建完成后在
在节点列表页面中,单击设置图标,支持对节点列表中显示的信息进行自定义。 查看资源池规格 在资源池详情页,切换到“规格”页签。您可以查看该资源池使用的资源规格以及该规格对应的数量,并可以调整容器引擎空间大小。 图4 查看资源池规格(如果创建资源池时未设置容器引擎大小,则显示默认值) 查看资源池监控
category String 规格处理器类型。 CPU GPU ASCEND description String 规格描述信息。 feature String 规格类别,可选值如下: DEFAULT:CodeLab规格。 NOTEBOOK:Notebook规格。 free Boolean
镜像的部署参数。 计算规格选择 - 按需选择计算规格。单击“选择”,在弹窗中选择资源规格并设置运行时长控制,单击“确定”。 在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。 选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据,AI Gal
15:30:00购买了一个按需计费的专属资源池,规格配置如下: 规格:CPU: 8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数:1个 用了一段时间后,用户发现当前规格无法满足业务需要,于2023/03/20 9:00:00扩容规格增加1个节点(扩容后,共有2个节点
自如何获取ModelArts训练容器中的文件实际路径? ModelArts训练中不同规格资源“/cache”目录的大小是多少? ModelArts训练作业为什么存在/work和/ma-user两种超参目录? 如何查看ModelArts训练作业资源占用情况? 如何将在ModelArts中训练好的模型下载或迁移到其他账号?
FP16:用于深度学习训练和推理过程中,可以加速计算并减少内存的占用,对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难,导致数值的精度损失。 综上所述,BF16因其与FP32相似的数值范围和稳定性,在大模型训练中提供了优势。而FP16则在计算效率和内存使用方面有其独特的优点,
FP16:用于深度学习训练和推理过程中,可以加速计算并减少内存的占用,对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难,导致数值的精度损失。 综上所述,BF16因其与FP32相似的数值范围和稳定性,在大模型训练中提供了优势。而FP16则在计算效率和内存使用方面有其独特的优点,
profile方式,而其他采集方式则要求特定版本的torch_npu(2024年0630之后版本)。推荐升级torch_npu后使用dynamic_profile方式进行采集,如果升级成本过高,也可以使用torch_npu.profiler.profile。 当不明确性能劣化的可能原
HBM单比特错误隔离内存页数量 NPU卡HBM单比特错误隔离内存页数量 count ≥0 instance_id,npu 18 npu_hbm_double_bit_isolated_pages_cnt HBM多比特错误隔离内存页数量 NPU卡HBM多比特错误隔离内存页数量 count