检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。 触发条件和下面的因素有关: 文件名越长,文件数量的上限越小 blocksize越小,文件数量的上限越小。( blocksize,系统默认
请求超时返回Timeout 问题现象 服务预测请求超时 原因分析 请求超时,大概率是APIG(API网关)拦截问题。需排查APIG(API网关)和模型。 处理方法 优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如
从OBS下载文件 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参考Session鉴权。 1 2 3 from modelarts.session import Session session = Session()
从Manifest文件导入规范说明 Manifest文件中定义了标注对象和标注内容的对应关系。此导入方式是指导入数据集时,使用Manifest文件。选择导入Manifest文件时,可以从OBS导入。当从OBS导入Manifest文件时,需确保当前用户具备Manifest文件所在OBS路径的权限。
String 下载的源OBS文件夹,必须以“obs://”作为前缀,文件夹后缀必须以"/"结尾。当下载的文件夹下有文件夹且内容为空时,对应路径下不产生对应空文件夹。 dst_local_dir 是 String 下载的目标本地文件夹,下载的目标本地文件夹后缀必须以“/”结尾。 表2
原因分析 根据报错日志分析,模型目录下存在多余文件“/home/mind/model/v0432/cdn_short.pt”。 处理方法 在模型目录中删除“/home/mind/model/v0432/cdn_short.pt”文件,重新导入模型后进行部署在线服务即可正常预测。 父主题:
从Manifest文件导入数据到数据集 前提条件 已存在创建完成的数据集。 准备需要导入的数据,具体可参见从Manifest文件导入规范说明。 需导入的数据,已存储至OBS中。Manifest文件也需要存储至OBS。 确保数据存储的OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
Moxing安装文件如何获取? Moxing安装文件不支持下载和用户自主安装。在ModelArts的Notebook和训练作业镜像中预置了Moxing安装包,用户可以直接引用。 父主题: 功能咨询
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
填写元模型来源及其相关参数。当“元模型来源”选择“从对象存储服务(OBS)中选择”时,其相关的参数配置请参见表2。 针对从OBS导入的元模型,ModelArts要求根据模型包规范,编写推理代码和配置文件,并将推理代码和配置文件放置元模型存储的“model”文件夹下。如果您选择的目录下不符合模型包规范,将无法创建模型。
用户执行huaweicloud.com相关API超时 问题现象 用户在Notebook里通过request请求接口时超时:GET pangu-xxx.cn-southwest-2.myhuaweicloud.com。 原因分析 在Notebook中访问公网需要通过代理,访问huawei
训练代码中,如何获取依赖文件所在的路径? 由于用户本地开发的代码需要上传至ModelArts后台,训练代码中涉及到依赖文件的路径时,用户设置有误的场景较多。因此推荐通用的解决方案:使用os接口得到依赖文件的绝对路径,避免报错。 以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。 文件目录结构:
字段。 log_file_list String 训练作业的日志文件名。单机作业日志仅有一个文件,分布式作业日志有多个文件。 请求示例 如下以获取“job_id”为10,“version_id”为10的作业日志文件为例。 GET https://endpoint/v1/{p
单击Notebook的打开按钮时报“请求超时”错误? 当Notebook容器因内存溢出等原因导致崩溃时,如果此时单击Notebook的打开按钮时,将会出现“请求超时”错误。 该种情况下,请耐心等待容器恢复,约几十秒,再重新单击打开按钮即可。 父主题: Notebook实例常见错误
创建模型失败,提示模型镜像构建任务超时,没有构建日志 问题现象 创建模型失败,构建日志提示超时“Model image build task timed out”,没有详细构建日志。 图1 模型镜像构建任务超时 原因分析 imagePacker构建镜像有超时时间限制,默认值为30min