检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。
服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String 服务器所属的超节点资源id。 表6 Endpoints 参数 参数类型 描述 allowed_access_ips
服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String 服务器所属的超节点资源id。 表6 Endpoints 参数 参数类型 描述 allowed_access_ips
日志文件的大小达到限制 日志提示"write line error" 日志提示“No space left on device” OOM导致训练作业失败 常见的磁盘空间不足的问题和解决办法 父主题: 训练作业
String 用户项目ID,获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 category 否 String 存储类型。可选值为OBS。 mount_path 否 String 在Notebook实例中挂载的路径,必须在Notebook的/data/的子目录下。
而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2.
而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2.
而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2.
而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2.
程序运行过程中,产生了core文件,core文件占满了"/"根目录空间。 本地数据、文件保存将"/cache"目录3.5T空间用完了。 云上训练磁盘空间一般指如下两个目录的磁盘空间: “/”根目录,是docker中配置项“base size”,默认是10G,云上统一改为50G。 “/cache”目录满了,一般是3
查询作业资源规格 功能介绍 查看指定作业类型的资源规格。 创建训练作业和预测作业需要指定资源规格。 URI GET /v1/{project_id}/job/resource-specs 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String
管理Notebook实例 查找Notebook实例 更新Notebook实例 启动/停止/删除实例 保存Notebook实例 动态扩充云硬盘EVS容量 动态挂载OBS并行文件系统 查看Notebook实例事件 Notebook Cache盘告警上报 父主题: 使用Notebook进行AI开发调试
可以使用OBS存储数据、创建Notebook等操作。 与云硬盘的关系 ModelArts使用云硬盘服务(Elastic Volume Service,简称EVS)存储创建的Notebook实例。EVS的更多信息请参见《云硬盘用户指南》。 与云容器引擎的关系 ModelArts使用云容器引擎(Cloud
可以使用OBS存储数据、创建Notebook等操作。 与云硬盘的关系 ModelArts使用云硬盘服务(Elastic Volume Service,简称EVS)存储创建的Notebook实例。EVS的更多信息请参见《云硬盘用户指南》。 与云容器引擎的关系 ModelArts使用云容器引擎(Cloud
针对用户创建的Notebook计算实例,后台计算节点故障后会立即自动迁移到其他可用节点上,实例状态会自动恢复。针对数据存储部分,提供了云硬盘存储挂载方式。云硬盘提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务,数据持久性高达99.9999999%。 训练故障自动恢复 用户在训练模型过程中,存在因硬件故障而
制台,清理您不再使用的数据、文件夹以及OBS桶,避免产生不必要的费用。 您在创建Notebook时,选择了云硬盘EVS存储,该存储会单独收费,Notebook停止后,EVS还在计费,请及时删除该Notebook实例。 您在体验CodeLab时,切换规格为付费的规格时会收费。请前往
Notebook实例的存储配置采用的是云硬盘EVS。云硬盘EVS存储容量最大支持4096GB,达到4096GB时,不允许再扩容。单次最大可以扩容100GB。 Notebook实例停止后,扩容后的EVS容量仍然有效。EVS计费也是按照扩容后的容量进行计费。云硬盘EVS只要使用就会计费,请在停止
DevServer管理 查询用户所有DevServer实例列表 创建DevServer 查询DevServer实例详情 删除DevServer实例 实时同步用户所有DevServer实例状态 启动DevServer实例 停止DevServer实例
对于包年/包月专属资源池,用户已经预先支付了资源费用,因此在账户出现欠费的情况下,已有的包年/包月专属资源池仍可正常使用。然而,对于涉及费用的操作,如将数据存储至OBS或EVS、续费订单等,用户将无法正常进行。 按需计费 当您的账号因按需资源自动扣费导致欠费后,账号将变成欠费状态。欠费后,按需资源不会立即停止服务
如果有,单击Notebook列表右方操作下的“停止”即可停止Notebook计费。检查是否有带云硬盘EVS存储的Notebook。如果有,停止并删除该Notebook,即可停止EVS计费。 进入“ModelArts>模型训练>训练作业”页面,检查是否有“运行中”的训练作业。如果