检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
属服务器时, 将数据放在SFS盘中, 并发建立多个NFS链接、并发的读写数据、做大模型训练。 但有时候会出现读取速度变慢的现象,并且SFS提示报错"rpc_check_timeout:939 callbacks suppressed"。 原因分析 根据SFS客户端日志分析出现问题
"status" : "STOPPING", "update_at" : 1699348285077 } 状态码 状态码 描述 200 OK 错误码 请参见错误码。 父主题: DevServer管理
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 开发环境管理
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 开发环境管理
"10\",\"initial_delay_seconds\":\"12\"}}" } 状态码 状态码 描述 200 模型详情。 错误码 请参见错误码。 父主题: AI应用管理
volatile_correctable 短期可纠正ECC错误数量。 该GPU重置以来可纠正的ECC错误数量,每次重置后归0。 个 instance_id,gpu volatile_uncorrectable 短期不可纠正ECC错误数量。 该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。 个 instance_id,gpu
训练作业失败,如何使用开发环境调试训练代码? 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VsCode)联接云上环境调试请参考使用本地IDE开发模型。
}, "run_count" : 2, "param_ready" : true } 状态码 状态码 描述 200 OK 错误码 请参见错误码。 父主题: Workflow工作流管理
"status" : "STARTING", "update_at" : 1699348285077 } 状态码 状态码 描述 200 OK 错误码 请参见错误码。 父主题: DevServer管理
"status" : "CREATING", "update_at" : 1699348285077 } 状态码 状态码 描述 200 OK 错误码 请参见错误码。 父主题: DevServer管理
ws/f1642618-43eb-4ab1-a0b1-9cc584182c60 响应示例 无 状态码 状态码 描述 204 OK 错误码 请参见错误码。 父主题: Workflow工作流管理
es/fa4ac58e-088b-4fd7-ae8c-b36fee50f884 响应示例 无 状态码 状态码 描述 204 OK 错误码 请参见错误码。 父主题: Workflow工作流管理
4096, "allocatable_gpus" : 0.5 } ] } 状态码 状态码 描述 200 服务部署规格列表。 错误码 请参见错误码。 父主题: 服务管理
状态码 状态码 描述 201 Created 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
Notebook无法执行代码,如何处理? 运行训练代码,出现dead kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 开发环境提示空间不足,如何解决? 如何处理使用opencv.imshow造成的内核崩溃? 使用Windows下生成的文本文件时报错找不到路径?
ECS、BMS节点创建失败? 查看资源池失败报错信息: 包含错误码,如:Ecs.0000时,可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。 包含错误码,如:BMS.0001时,可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。 包含错误码,如:CCE.01400001时,可查看云容器引擎
查看训练作业日志 训练日志定义 训练日志用于记录训练作业运行过程和异常信息,为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。 训练日志
"last_modified_at" : "2022-05-20T14:16:40.373445+08:00" } 状态码 状态码 描述 200 OK 错误码 请参见错误码。 父主题: Workflow工作流管理
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
"status" : "STARTING", "update_at" : 1699348285077 } 状态码 状态码 描述 200 OK 错误码 请参见错误码。 父主题: DevServer管理