检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
(可选)配置镜像预热 Lite Cluster资源池支持镜像预热功能,镜像预热可实现将镜像提前在资源池节点上拉取好,在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何配置镜像预热功能。 操作步骤 在ModelArts控制台左侧导航栏中找到“资源管理 > AI专属资源池
管理员和开发者权限分离 对于中小规模团队,管理员希望对ModelArts资源进行主导分配,全局控制,而对于普通开发者只需关注自己实例的生命周期控制。对于开发者账号,一般不会具有te_admin的权限,相应的权限也需要主账号进行统一配置。本章节以使用Notebook进行项目开发为例,
GPU训练业务迁移至昇腾的通用指导 训练业务迁移到昇腾设备场景介绍 训练迁移快速入门案例 PyTorch迁移精度调优 PyTorch迁移性能调优 训练网络迁移总结 父主题: GPU业务迁移至昇腾训练推理
个人用户快速配置ModelArts访问权限 ModelArts使用过程中涉及到OBS、SWR等服务交互,需要用户配置委托授权,允许ModelArts访问这些依赖服务。如果没有授权,ModelArts的部分功能将不能正常使用。 约束与限制 只有主账号可以使用委托授权,可以为当前账号授权
SD WEBUI套件适配PyTorch NPU的推理指导(6.3.908) SD WebUI推理方案概览 在DevServer上部署SD WebUI推理服务 在Standard上部署SD WebUI推理服务 SD WebUI推理性能测试 父主题: AIGC模型训练推理
概述 支持对接OrgID组织成员账号服务,对接后,通过标准Oauth2.0协议登录到OrgID的应用,从而实现使用OrgID服务对自身应用的组织、部门、成员账号进行管理。 父主题: 集成OrgID登录功能
工作流中工具节点的实例如何配置? 工具节点实例需要填写工具创建时所配置的鉴权信息。 三方厂商的工具API,请到工具对应官网获取鉴权信息。 自创建工具请填写工具创建时所配置的鉴权信息。 如果调用其他租户或资源相互隔离的部门所上架的工具,请在AI原生应用引擎中,选择左侧导航栏的“资产中心
已申请权限,但是仍然没有权限操作 检查IAM和ACMS是否属于应用平台的同一个站点,需要在哪个站点操作ACMS,就通过该站点的应用平台进入IAM申请权限。 如果站点一致,则检查ACMS上的服务和IAM里有权限的服务是否一致。当前服务下,必须有服务运维岗位权限或运维管理员权限。 如果上述检查正确
管理华为云已释放的主机 在华为云上已经释放的主机,VMS不会同步释放,会作为冗余资源展示在VMS中。 查看冗余主机 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 主机管理服务(VMS)”。 选择左侧导航栏的“云服务器管理 > 冗余主机”。 在“冗余主机
采集Windows主机监控指标 监控服务支持采集已纳管的Windows主机的监控指标,完成纳管Windows主机并创建名称为“xxx-opsagent-metric”的Kafka Topic,其中xxx为服务英文名称,系统会自动将采集到的指标数据保存在该Topic中。采集的数据可以创建导流任务
自定义看板配置流程介绍 运营看板使用流程如图1所示,包括“新建我的卡片”和“新建我的屏幕”。 图1 使用流程 新建我的卡片 通过在线构建、使用公共卡片模板及离线构建的方式构建自定义卡片。 (可选)新建并发布屏幕模板 通过关联布局和卡片、设置卡片消息联动、配置样例页面来创建屏幕模板。
使用pip install时出现“没有空间”的错误 问题现象 在Notebook实例中,使用pip install时,出现“No Space left...”的错误。 解决办法 建议使用pip install --no-cache ** 命令安装,而不是使用pip install
Notebook无法执行代码,如何处理? 当Notebook出现无法执行时,您可以根据如下几种情况判断并处理。 如果只是Cell的执行过程卡死或执行时间过长,如图1中的第2个和第3个Cell,导致第4个Cell无法执行,但整个Notebook页面还有反应,其他Cell也还可以单击,
自定义镜像导入模型部署上线调用API报错 部署上线调用API报错,排查项如下: 确认配置文件模型的接口定义中有没有POST方法。 确认配置文件里url是否有定义路径。例如:“/predictions/poetry”(默认为“/”)。 确认API调用中body体中的调用路径是否拼接自定义路径
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的
训练输出路径被其他作业使用 问题现象 在创建训练作业时出现如下报错:操作失败!Other running job contain train_url: /bucket-20181114/code_hxm/ 原因分析 根据报错信息判断,在创建训练作业时,同一个“训练输出路径”在被其他作业使用
使用预置算法训练时,训练失败,报“bndbox”错误 问题现象 使用预置算法创建训练作业,训练失败,日志中出现如下报错。 KeyError: 'bndbox' 原因分析 用于训练的数据集中,使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。 处理方法 此问题有两种解决方法
训练作业失败,返回错误码139 问题现象 训练作业运行失败,返回错误码139,如下图所示: [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f
日志提示“label_map.pbtxt cannot be found” 问题现象 使用目标检测算法训练时,训练作业日志运行出现如下报错:ERROR:root:label_map.pbtxt cannot be found. It will take a long time to
创建批量部署发布单 创建批量部署发布单,可以满足您在实际业务中需要批量创建多个组件用于部署发布的业务场景。 创建批量部署发布单 登录ServiceStage控制台。 选择“发布管理 > 创建发布单”。 参考下表填写发布单基本信息,其中带“*”标志的参数为必填参数。 参数名称 参数说明