检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云上迁移适配故障 无法导入模块 训练作业日志中提示“No module named .*” 如何安装第三方包,安装报错的处理方法 下载代码目录失败 训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数,日志报错
示例二:根据数据集类型查询数据集列表 # 查询图像分类数据集 dataset_list = Dataset.list_datasets(session, dataset_type=0) print(dataset_list) 示例三:根据数据集名称查询数据集列表 # 查询名称中包含dataset的数据集列表 dataset_list
String 用户GaussDB(DWS)集群的IP地址。 port 否 String 用户GaussDB(DWS)集群的端口。 queue_name 否 String 表格数据集,DLI队列名。 subnet_id 否 String MRS集群的子网ID。 table_name 否 String
按需计费是一种先使用再付费的计费模式,适用于无需任何预付款或长期承诺的用户。本文将介绍按需计费资源的计费规则。 适用场景 按需计费适用于资源需求波动的场景,例如面向ToC业务的AIGC推理场景,客户业务量会随时间有规律的波动,按需计费模式能大幅降低客户的业务成本。可在运行自动学习
ices_out_cuda_frame failed with error code 0” 训练作业失败,返回错误码139 训练作业失败,如何使用开发环境调试训练代码? 日志提示“ '(slice(0, 13184, None), slice(None, None, None))'
Code插件官网vscode_marketplace搜索待安装的Python插件,Python插件路径。 单击进入Python插件的Version History页签后,下载该插件的离线安装包,如图所示。 图1 Python插件离线安装包 在本地VS Code环境中,将下载好的.vsix文件拖动到远端Notebook中。
device ordinal at xxx 图1 错误日志 原因分析 可以从以下角度排查: 请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业,实际可用的卡ID为0、1、2、3,但是您在进行cuda相关的运算时,例如"tensor.to(d
针对使用Ascend规格创建的训练作业,部分系统日志暂不支持直接在训练日志窗口下载,请在创建训练作业时指定OBS路径用于保存训练日志。 图6 下载日志 搜索关键字 用户可以在系统日志右上角的搜索框搜索关键字,如图7所示。 图7 搜索关键字 系统支持高亮关键字并实现搜索结果间的跳转。搜索功能仅
镜像使用的是https或http服务。如下图所示: 图1 容器调用接口 如果您在“容器调用接口”中选择的结果跟您镜像实际提供的结果不匹配,例如您在这里选择的是https,但镜像里面实际提供的是http,就会遇到上述错误。反之,如果您选择的是http,但镜像里面实际提供的是https,也会遇到类似错误。
开发环境提供的预置镜像版本是依据用户反馈和版本稳定性决定的。当用户的功能开发基于ModelArts提供的版本能够满足的时候,建议用户使用预置镜像,这些镜像经过充分的功能验证,并且已经预置了很多常用的安装包,用户无需花费过多的时间来配置环境即可使用。 开发环境提供的预置镜像主要包含:
止正在计费的项目。自动学习、Workflow、开发环境、模型训练、在线服务、专属资源池涉及到需要停止的计费项如下: 自动学习:停止因运行自动学习作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 Workflow:停止因运行Workflow作业而创建的训练作业和
of DataSource objects 数据集输入位置,用于将此目录及子目录下的源数据(如图片/文件/音频等)同步到数据集。对于表格数据集,该参数为导入目录。表格数据集的工作目录不支持为KMS加密桶下的OBS路径。目前仅支持传入单个DataSource。 dataset_name
在“网络”页签,单击网络列表中某个网络操作列的“打通VPC”。 图1 打通VPC 在打通VPC弹框中,打开“打通VPC”开关,在下拉框中选择可用的VPC和子网。 需要打通的对端网络不能和当前网段重叠。 图2 打通VPC参数选择 如果没有VPC可选,可以单击右侧的“创建虚拟私有云”,跳转到网络控制台,申请创建虚拟私有云。
常见的磁盘空间不足的问题和解决办法 该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下: 本地数据、文件保存将"/cache"目录空间用完。
Open-Clip广泛应用于AIGC和多模态视频编码器的训练。 方案概览 本方案介绍了在ModelArts的DevServer上使用昇腾NPU计算资源开展Open-clip训练的详细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买DevServer资源。 本方案目前仅适用于企业客户。
sh & 图3 开始预训练 实时查看训练日志,监控程序。 tail -f nohup.out 如果显示如下信息, 表示模型训练完成。 图4 模型训练完成 在训练过程中观察单GPU卡的利用率,如下: 图5 GPU利用率 查看生成的模型checkpoint。 本示例生成的模型chec
本外,将默认选择上一个版本的配置信息,您可以对参数配置进行修改。 删除:删除对应的模型。 说明: 如果模型的版本已经部署服务,需先删除关联的服务后再执行删除操作。模型删除后不可恢复,请谨慎操作。 单击模型的“版本数量”,可查看版本列表信息。 图1 版本列表 版本列表中包含以下信息。
镜像中相同的启动命令。 提供的服务可使用HTTPS/HTTP协议和监听的容器端口,使用的协议和端口号请根据模型实际定义的推理接口进行配置。HTTPS协议的示例可参考https示例。 (可选)服务对外提供的端口,提供URL路径为“/health”的健康检查服务(健康检查的URL路径必须为“/health”)。
切换操作系统动作。 在裸金属服务的更多选项中,单击切换操作系统,如下图所示。 图2 切换操作系统 在切换操作系统界面,选择上一步接收到的共享镜像即可。 使用BMS Go SDK的方式切换操作系统 以下为BMS使用Go语言通过SDK方式切换操作系统的示例代码。 package main
String 用户GaussDB(DWS)集群的IP地址。 port String 用户GaussDB(DWS)集群的端口。 queue_name String 表格数据集,DLI队列名。 subnet_id String MRS集群的子网ID。 table_name String