检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象 在Vnt1 GPU裸金属服务器(Ubuntu18.04系统),安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc
设置本地挂载目录,在“/data/”目录下输入一个文件夹名称,例如:demo。挂载时,后台自动会在Notebook容器的“/data/”目录下创建该文件夹,用来挂载OBS文件系统。 选择存放OBS并行文件系统下的文件夹,单击“确定”。 图1 动态挂载OBS并行文件系统 挂载成功后,可以在Notebook实例详情页查看到挂载结果。
6.7M v8-compile-cache-1000 请删除不用的大文件。 删除示例文件“test.txt”:rm -f /home/ma-user/work/data/test.txt 删除示例文件夹“data”:rm -rf /home/ma-user/work/data/
Query参数 参数 是否必选 参数类型 描述 delete_source 否 Boolean 是否删除样本源文件。可选值如下: true:删除样本源文件 false:不删除样本源文件(默认值) label_type 否 Integer 标签类型。可选值如下: 0:图像分类 1:物体检测
Notebook停止或者重启后,“/cache”下的文件还存在么?如何避免重启? “/cache”目录下存储的是临时文件,在Notebook实例停止或重启后,不会被保存。存储在“/home/ma-user/work”目录下的数据,在Notebook实例停止或重启后,会被保留。 为
在调用指南页签中显示的调用地址都是华为云APIG(API网关服务)的地址。调用发起方的客户端和华为云网络不通。 处理方法 如果客户端位于华为云网络之外,保证客户端所处的网络环境可以连接Internet; 如果客户端位于华为云网络内,默认的网络配置即可以访问通这个地址,避免设置特殊的网络配置,例如防火墙规则等。
像”页面,执行刷新操作后可查看到对应的镜像信息。 为什么使用客户端上传镜像失败? 上传数据和算法至SFS ECS服务器已挂载SFS,请参考在ECS服务器挂载SFS Turbo存储。 已经在ECS中设置权限,请参考在ECS中设置ModelArts用户可读权限。 已经安装和配置obs
在训练作业的过程中,会使用到第三方库。以C++为例,请参考如下操作步骤进行安装: 将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。 将上传到OBS的源码使用Moxing复制到开发环境Notebook中。 以下为使用EVS挂载的开发环境,将数据复制至notebook中的代码示例:
使用自定义镜像创建训练作业找不到启动文件 问题现象 使用自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命令的启动文件目录是否正确,具体操作如下:
给子账号配置文件夹级的SFS Turbo访问权限 场景描述 本文介绍如何配置文件夹级的SFS Turbo访问权限,实现在ModelArts中访问挂载的SFS Turbo时,只允许子账号访问特定的SFS Turbo文件夹内容。 给子账号配置文件夹级的SFS Turbo访问权限为白名
导入模型时,模型配置文件中的安装包依赖参数如何编写? 问题描述 从OBS中或者从容器镜像中导入模型时,开发者需要编写模型配置文件。模型配置文件描述模型用途、模型计算框架、模型精度、推理代码依赖包以及模型对外API接口。配置文件为JSON格式。配置文件中的“dependencies
录下,因此您可以在启动文件“test.py”中通过如下方式调用“.sh”文件: import os os.system('bash /home/work/user-job-dir/code/test.sh') 将“test.py”文件上传至OBS中,则该文件存储位置为“/bucket-name/code/test
关的参数配置请参见表2。 针对从OBS导入的元模型,ModelArts要求根据模型包规范,编写推理代码和配置文件,并将推理代码和配置文件放置元模型存储的“model”文件夹下。如果您选择的目录下不符合模型包规范,将无法创建模型。 图1 从OBS中选择元模型 表2 元模型来源参数说明
训练专属资源池如何与SFS弹性文件系统配置对等链接? 配置训练专属资源池与SFS弹性文件系统的对等链接,需要资源池打通VPC,使得资源池与SFS弹性文件系统所配置的VPC相同。配置完成后,在创建训练作业时,就可以看到SFS的配置选项。 打通VPC步骤请参考打通VPC。 父主题: Standard资源池
使用Windows下生成的文本文件时报错找不到路径? 问题现象 当在Notebook中使用Windows下生成的文本文件时,文本内容无法正确读取,可能报错找不到路径。 原因分析 Notebook是Linux环境,和Windows环境下的换行格式不同,Windows下是CRLF,而Linux下是LF。
从Manifest文件导入数据到数据集 前提条件 已存在创建完成的数据集。 准备需要导入的数据,具体可参见从Manifest文件导入规范说明。 需导入的数据,已存储至OBS中。Manifest文件也需要存储至OBS。 确保数据存储的OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。
用户使用ma-cli制作自定义镜像失败,报错文件不存在(not found) 问题现象 用户使用ma-cli制作自定义镜像失败,报错文件目录不存在。 图1 报错xxx not found 原因分析 复制的文件需要放在Dockerfile同级文件夹或者子目录中,不能放在Dockerfile上层目录。
y”开头的最新日志文件,搜索“Starting kernel”附近的日志。若看到如下类似的堆栈,可看到是因为用户工作目录下的“code.py”和创建kernel依赖的import code文件名冲突: 重命名当前工作目录下和创建kernel依赖的库文件冲突的文件名称。 常见容易冲突的文件:code
训练作业中使用os.system('cd xxx')无法进入相应的文件夹? 当在训练作业的启动脚本中使用os.system('cd xxx')无法进入相应的文件夹时,建议使用如下方法: import os os.chdir('/home/work/user-job-dir/xxx')
B,如果需要复制数据,可参考如下步骤操作: 将Notebook A的数据上传至OBS; 下载OBS中的数据至Notebook B。 文件的上传下载详细操作请参考如何在Notebook中上传下载OBS文件?。 父主题: 文件上传下载