检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
failed_reasons字段数据结构说明 参数 参数类型 说明 code String 错误码。 message String 错误信息。 detail Map<String,String> 错误详情。 表23 auto_stop字段数据结构说明 参数 参数类型 说明 enable
-1, -1, -1, -1, -1, -1, -1, -1, -1, -1 ] } ] } 状态码 状态码 描述 200 ok 错误码 请参见错误码。 父主题: 训练管理
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决? 问题现象 或 VS Code连接Notebook一直提示选择证书
"75540c679ab44074bc100022d8a4b204", "enable" : true } 状态码 状态码 描述 201 定时调度信息。 错误码 请参见错误码。 父主题: Workflow工作流管理
响应Body参数 参数 参数类型 描述 create_time Long 任务创建时间。 error_code String 错误码。 error_msg String 错误信息。 export_format Integer 导出的目录格式。可选值如下: 1:树状结构。如:rabbits/1
1, 2).contigous() 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。
表6 WorkflowErrorInfo 参数 是否必选 参数类型 描述 error_code 否 String 错误码。 error_message 否 String 错误信息。 表7 WorkflowStepExecutionPolicy 参数 是否必选 参数类型 描述 execution_policy
必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。
protection, the backend service is disconnected, please wait moment." 出现该错误,是因为模型报错太多。当模型报错太多时,会触发dispatcher的熔断机制,导致预测失败。建议您检查模型返回结果,处理模型报错问题,可尝
复制的文件需要放在Dockerfile同级文件夹或者子目录中,不能放在Dockerfile上层目录。 图2 Dockerfile复制文件路径错误 解决方案 查看用户Dockerfile中的COPY命令中的文件的路径。将要复制的文件放到Dockerfile同级目录或子目录中,如图,Dockerfile在“
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
输出配置。 表6 WorkflowErrorInfo 参数 参数类型 描述 error_code String 错误码。 error_message String 错误信息。 表7 WorkflowStepExecutionPolicy 参数 参数类型 描述 execution_policy
该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下: 本地数据、文件保存将"/cache"目录空间用完。 数据处理过程中对数据进行解压,导致数据大小膨胀,将"/cache"目录空间用完。
图3 scheduler 如果重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6
必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。
模型收敛出现问题。算子的数值精度是计算过程的基础,通常认为算子精度问题是大模型精度问题的来源之一,从实际经验看,算子数值精度不足(除去计算错误等BUG问题)所导致的模型收敛问题在整个模型收敛比例里面较低,但其影响会较大,所以,该问题需要引起重视。 而且,由于实现过程差异,不同硬件
} 图3 scheduler 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6
下载CogVideoX1.5 5b模型,huggingface地址如下 https://huggingface.co/THUDM/CogVideoX1.5-5B 准备数据集 数据集可参考使用如下数据集 https://huggingface.co/datasets/Wild-Hea
} 图3 scheduler 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6
必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。