检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
资源池创建失败的原因与解决方法? 本文主要介绍在ModelArts资源池创建失败时,如何查找失败原因,并解决问题。 问题定位 您可以参考以下步骤,查看资源池创建失败的报错信息,并根据相应的解决方法解决问题: 登录ModelArts控制台,单击弹性集群,单击资源池列表上方的“操作记录”查看创建失败的资源池。
的计费规则进行持续计费。 按需计费 包年/包月 创建桶不收取费用,按实际使用的存储容量和时长收费 计费示例 以下案例中出现的费用价格仅供参考,实际价格请参见各服务价格详情。 示例:存储费用 假设用户于2023年4月1日10:00:00创建了一个数据集,数据是存储在OBS中的。按照
per_page=10&page=1&sortBy=engine&order=asc&search_content=model 响应示例 成功响应示例 { "models": [ { "model_id": 4,
数据集版本发布失败 出现此问题时,表示数据不满足数据管理模块的要求,导致数据集发布失败,无法执行自动学习的下一步流程。 请根据如下几个要求,检查您的数据,将不符合要求的数据排除后再重新启动自动学习的训练任务。 ModelArts.4710 OBS权限问题 ModelArts在跟O
按需计费 包年/包月 按需计费:规格单价 * 购买时长 包年/包月:规格单价 * 购买时长 * 购买个数 计费示例 以下案例中出现的费用价格仅供参考,实际价格请参见各服务价格详情。 示例:使用公共资源池。计费项:计算资源费用 + EVS存储费用 假设用户于2023年4月1日10:00:0
Lite Cluster资源开通 集群资源开通流程 开通集群资源过程中用户侧需要完成的任务流程如下图所示。 图1 用户侧任务流程 表1 Cluster资源开通流程 任务 说明 Step1 申请开通资源规格 当前部分规格为受限购买,需要提前联系客户经理申请开通资源规格,预计1~3个
发送电子邮件费用构成:电子邮件+外网下行流量 发送HTTP(S)费用构成:HTTP(S)+外网下行流量 计费示例 以下案例中出现的费用价格仅供参考,实际价格请参见各服务价格详情。 示例:使用公共资源池运行自动学习作业。计费项:计算资源费用和标准存储费用 假设用户于2023年4月1日创建
建议用户新建一个文件夹(例如:tb_logs),将tensorboard的日志文件(例如:tb.events)放到新建的文件夹下,然后执行tensorboard命令。示例命令如下: mkdir -p ./tb_logs mv tb.events ./tb_logs tensorboard --logdir
建议用户新建一个文件夹(例如:tb_logs),将tensorboard的日志文件(例如:tb.events)放到新建的文件夹下,然后执行tensorboard命令。示例命令如下: mkdir -p ./tb_logs mv tb.events ./tb_logs tensorboard --logdir
配置Lite Server存储 Server服务器支持SFS、OBS、EVS三种云存储服务,提供了多种场景下的存储解决方案,主要区别如下表所示。若需要对本地盘进行配置,请参考物理机环境配置。 表1 表1 SFS、OBS、EVS服务对比 对比维度 弹性文件服务SFS 对象存储服务OBS
Ascend启动脚本和初始化脚本问题。 确认相关脚本是否来源于官方文档并且是否严格按照官方文档使用。比如确认脚本名称是否正常、脚本路径是否正常。具体请参见示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+Ascend)。 驱动版本与底层驱动不兼容 当对自定义镜像的驱动进行升级时
#{内置变量} == '字符串' #{内置变量} matches '正则表达式' 示例一: 当调用预测请求的账号名为“zhangsan”时,匹配至指定版本。 #DOMAIN_NAME == 'zhangsan' 示例二: 当调用预测请求的账号名以“op”开头时,匹配至指定版本。 #DOMAIN_NAME
------2.jpg ------3.jpg --output.manifest 其中manifest文件内容示例如下所示。 { "id": "xss", "source": "obs://home/fc8e2688015d4a1784dcbda44d840307_14
约束与限制 本节介绍ModelArts服务在使用过程中的约束和限制。 规格限制 表1 规格说明 资源类型 规格 说明 计算资源 所有按需计费、包年/包月、套餐包中的计算资源规格,包括CPU、GPU和NPU 购买的所有类型的计算资源均不支持跨Region使用。 计算资源 套餐包 套
com/<组织名称>/<镜像名称>:<tag> . 参数说明: <组织名称>:前面步骤中创建的组织名称。 <镜像名称>:<tag>:定义镜像名称。示例:llama_ascend_pytorch_2_1:0.5.3 打印如下信息,表示构建镜像成功。 图3 成功构建镜像 注:若构建镜像时报错
是否必选 参数说明 -v / --verbose Bool 否 显示详细的信息开关,默认关闭。 示例:在ModelArts Notebook里查看所有镜像缓存。 ma-cli image df 示例:显示镜像缓存占用磁盘的详细信息。 ma-cli image df --verbose 使用ma-cli
<镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:sdxl-train:0.0.1 以贵阳一的SWR为例。 docker tag sdxl-train:0
一、Region等信息配置不正确 配置正确的Region、Projects、Endpoint信息。 例如:Endpoint配置不正确也会导致认证失败。 错误示例:Endpoint参数前面带了https,正确的配置中不需要有https。 图1 配置ToolKit 二、未配置hosts文件或者hosts文件信息配置不正确
Notebook 该环境为在线调试环境,主要面向演示、体验和快速原型调试场景。 优点:可快速、低成本地搭建环境,使用标准化容器镜像,官方Notebook示例可直接运行。 缺点:由于是容器化环境因此不如裸机方式灵活,例如不支持root权限操作、驱动更新等。 环境开通指导请参考Notebook环境
将此压缩后的文件上传至OBS。 训练时,可直接从OBS下载此压缩文件至/cache目录。此操作仅需执行一次,无需训练过程反复与OBS交互导致训练效率低。 如下示例,可使用mox.file.copy_parallel将zip文件下载至本地/cache目录并解压,然后再读取做训练。 1 2 3 4