检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
has no attribute '***'错误。如:AttributeError: module 'torch' has no attribute 'concat'。 原因分析 出现该问题的可能原因如下: 对应python包使用错误,该python包确实没有对应的变量或者方法
这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因 对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误 NPU当前存在故障,可能导致客户业务终止 Snt3P 300IDuo Snt9B Snt9C NPU HBM多ECC错误信息 NpuHbmMultiEccInfo
批量服务输入/输出obs目录不存在或者权限不足 问题现象 输入输出目录不存在,报如下错误 "error_code": "ModelArts.3551", "error_msg": "OBS path xxxx does not exist." 当访问目录权限不足时,报如下错误 "error_code": "ModelArts
${pod_scheduler_name} 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config
当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。
CApath: none 关闭git验证命令如下: git config --global http.sslverify false 父主题: 常见错误原因和解决方法
${pod_scheduler_name} 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config
刚开始会报一些Warning,可忽略。正常启动如下图所示,出现Steps: 1%字样。 图4 启动服务 如果启动过程中报SSL相关错误,如下图所示。 图5 启动过程中报SSL相关错误 请修改相应路径下的/home/ma-user/anaconda3/envs/PyTorch-2.1.0/lib/python3
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 开发环境管理
CApath: none 关闭git验证命令如下: git config --global http.sslverify false 父主题: 常见错误原因和解决方法
CApath: none 关闭git验证命令如下: git config --global http.sslverify false 父主题: 常见错误原因和解决方法
${pod_scheduler_name} 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config
当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。
CApath: none 关闭git验证命令如下: git config --global http.sslverify false 父主题: 常见错误原因和解决方法
CApath: none 关闭git验证命令如下: git config --global http.sslverify false 父主题: 常见错误原因和解决方法
${pod_scheduler_name} 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config
当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。
任务时产生mc2融合算子错误。 图1 mc2融合算子错误 解决方法 修改代码文件:AscendFactory/scripts_modellink/{model_name}/3_training.sh文件,去除以下mc2融合算子--mc2 父主题: 常见错误原因和解决方法
容是否存在。具体错误码请参见OBS官方文档。 处理方法 检查OBS路径及内容格式是否正常。 必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2