检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在ModelArts的Notebook中如何对OBS的文件重命名? 由于OBS管理控制台不支持对OBS的文件重命名,当您需要对OBS文件进行重命名时需要通过调用MoXing API实现,在已有的或者新创建的Notebook中,执行如下命令,通过接口对OBS中的文件进行重命名。 具体操作如下:
自如何获取ModelArts训练容器中的文件实际路径? 如果容器中的文件实际路径不清楚,可以使用Python获取当前文件路径的方法获取。 os.getcwd() #获取文件当前工作目录路径(绝对路径) os.path.realpath(__ file __) #获得文件所在的路径(绝对路径)
(可选)配置驱动 当专属资源池中的节点含有GPU/Ascend资源时,为确保GPU/Ascend资源能够正常使用,需要配置好对应的驱动。 Cluster支持两种配置驱动的方式: 方式一:购买资源池时通过自定义驱动参数进行配置 方式二:通过驱动升级功能对已有的资源池驱动版本进行升级
obsutil安装和配置 obsutil是用于访问、管理对象存储服务OBS的命令行工具,使用该工具可以对OBS进行常用的配置管理操作,如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。 操作命
环境配置故障 Notebook提示磁盘空间已满 Notebook中使用Conda安装Keras 2.3.1报错 Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx Notebook中已安装对应库,仍报错import numba
localhost --master_port=$MASTER_PORT main.py --data-path $IMAGE_DATA_PATH --cfg ./configs/swin/swin_base_patch4_window7_224_22k.yaml --local_rank 0 多机多卡运行脚本:
镜像服务SWR FullAccess权限。 SWR OperateAccess 必选 密钥管理服务 当子用户使用ModelArts Notebook的SSH远程功能时,需要配置子用户密钥管理服务的使用权限。 KMS CMKFullAccess 可选 IEF智能边缘平台 授予子用户
在ModelArts训练代码中,如何获取依赖文件所在的路径? 由于用户本地开发的代码需要上传至ModelArts后台,训练代码中涉及到依赖文件的路径时,用户设置有误的场景较多。因此推荐通用的解决方案:使用os接口得到依赖文件的绝对路径,避免报错。 以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。
配置ModelArts委托权限 给用户配置ModelArts委托授权,允许ModelArts服务在运行时访问OBS等依赖服务。 使用华为云账号登录ModelArts管理控制台,在左侧导航栏单击“权限管理”,进入“权限管理”页面,单击“添加授权”。 在弹出的“添加授权”窗口中,选择:
Code开发环境中,单击左侧Remote Explorer按钮,在上方的下拉列表中选择“SSH Target”,再单击页面上的设置按钮,此时会出现SSH配置文件路径。 图3 配置SSH Targets页面 单击列表中出现的SSH路径按钮,打开config文件,进行配置。 图4 配置SSH Config文件
集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心 根据图2,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图2 kubectl 访问集群配置 在节点机器中,输入命令,查看Kubernetes集群信息。若显示如图图3的内容,则配置成功。
集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心 根据图2,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图2 kubectl 访问集群配置 在节点机器中,输入命令,查看Kubernetes集群信息。若显示如图图3的内容,则配置成功。
集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心 根据图2,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图2 kubectl 访问集群配置 在节点机器中,输入命令,查看Kubernetes集群信息。若显示如图图3的内容,则配置成功。
集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心 根据图2,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图2 kubectl 访问集群配置 在节点机器中,输入命令,查看Kubernetes集群信息。若显示如图图3的内容,则配置成功。
训练过程中无法找到so文件 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致训练失败: libcudart.so.9.0 cannot open shared object file no such file or directory 原因分析 编译生成s
API 通过ModelArts开放的API和调用示例,您可以使用ModelArts作业管理、模型管理及服务管理等功能。 API文档 API概览 Workflow工作流 模型管理 开发环境 作业管理 服务管理 常见问题 了解更多常见问题、案例和解决方案 热门案例 为什么项目删除完了,仍然还在计费
价格较高。 静态挂载 动态挂载:不支持 SFS 适用于多读多写场景的持久化存储。 适用大容量扩展以及成本敏感型的业务场景,包括媒体处理、内容管理、大数据分析和分析工作负载程序等。 SFS容量型文件系统不适合海量小文件业务。 静态挂载 动态挂载 EVS 适用于Notebook场景,开发过程的数据持久化。
获取训练作业日志的文件名 功能介绍 获取训练作业日志的文件名。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/log/file-names 参数说明如表1所示。 表1 参数说明 参数 是否必选
使用moxing适配OBS路径,pandas读取文件报错 问题现象 使用moxing适配OBS路径,然后用较高版本的pandas读取OBS文件报出如下错误: 1.‘can't decode byte xxx in position xxx’ 2.‘OSError:File isn't