检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
下线自定义后端 概述 已部署的自定义后端,如果需要暂停提供服务,可以下线自定义后端,下线时会同步下线和删除该自定义后端对应发布的API。 操作步骤 登录ROMA Connect控制台,在“实例”页面单击实例上的“查看控制台”,进入实例控制台。 在左侧的导航栏选择“服务集成 APIC
配置流量控制策略 概述 流量控制可限制单位时间内API的被调用次数,保护后端服务。为了提供持续稳定的服务,您可以创建流控策略,对绑定策略的API进行流量控制。 流量控制策略和API本身是相互独立的,只有将API绑定流量控制策略后,流量控制策略才对API生效。 同一个API在同一个
配置客户端配额策略 概述 客户端配额可限制单位时间内客户端调用API的总次数,保护后端服务。您可以创建客户端配额策略,对绑定策略的客户端进行调用次数限制。 客户端配额策略和客户端本身是相互独立的,只有将客户端绑定客户端配额策略后,客户端配额策略才对客户端生效。 仅具有Tenant
创建前端自定义认证 如果您需要把自己的认证系统用于API调用的认证鉴权,可以使用自定义认证来实现。 自定义认证包括前端和后端两种类型: 前端自定义认证:指ROMA Connect使用自定义的认证函数,对收到的API请求进行安全认证。 后端自定义认证:指API的后端服务使用自定义的认证函数,对来自ROMA
退订使用中的资源说明 退订使用中的资源是指客户购买包年/包月资源后,发生退订时,可退订当前正在使用的部分。若资源已经续费,则正在使用的部分和未生效的续费部分会同时退订。 退订资源有以下三种情况:非五天无理由退订、可五天无理由退订、不可退订。 云服务退订的相关注意事项,可参考云服务退订规则概览。
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” 问题现象 使用mindspore进行训练时,出现如下报错: [ERROR] RUNTIME(3002)model execute error, retCode=0x91
如何解决训练过程中出现的cudaCheckError错误? 问题现象 Notebook中,运行训练代码出现如下错误。 cudaCheckError() failed : no kernel image is available for execution on the device
使用订阅算法训练结束后没有显示模型评估结果 问题现象 AI Gallery中的YOLOv5算法,训练结束后没有显示模型评估结果。 原因分析 未标注的图片过多,导致没有模型评估结果。 处理方法 对所有训练数据进行标注。 父主题: 预置算法运行故障
ModelArts SDK下载文件目标路径设置为文件名,部署服务时报错 问题现象 ModelArts SDK在OBS下载文件时,目标路径设置为文件名,在本地IDE运行不报错,部署为在线服务时报错。 代码如下: session.obs.download_file(obs_path,
FDI任务失败,修改问题后任务写入仍然报错 原因分析 Writer端写入数据时,先从Kafka通道的topic中消费数据,成功入库后才将消费偏移量提交给Kafka。如果写入数据时发生异常,将不会提交消费偏移量,等待修复问题后,重启任务,可以重新消费并处理未成功入库的数据。所以即使
DWS变成只读状态导致FDI任务运行失败 原因分析 在DWS磁盘空间达到阈值,例如80%,或者某些大数据量的表存在数据倾斜时,DWS集群会变为只读状态。从FDI侧来看,在某个时间点,所有访问DWS的任务均异常停止。 解决方案 处理DWS只读状态问题,恢复数据库服务后,如果FDI的
常见问题 如何处理当前环境下已存在同名的天气预报微服务应用? 父主题: 使用ServiceStage托管和治理天气预报微服务应用
权限管理 IPDCenter基础服务采用权限精细化管理,对用户权限的分配和管理进行细致的划分和控制,以确保用户只能访问和操作已被授权的资源和功能。这种管理方式可以提高系统的安全性和效率,防止未经授权的访问和操作,同时也可以减少管理和维护的工作量。 新建权限 添加权限 在角色桌面首页,选择左上角的,单击“管理中心”。
组织管理 您可以通过组织管理功能添加部门、管理团队,构建一个稳定的组织体系。 在部门中添加用户时,您需要提前创建用户。 在团队中添加角色时,您需要提前创建角色。 添加部门 单个添加 在角色桌面首页,选择左上角的,单击“管理中心”。 选择“用户及授权管理 > 组织管理”,进入组织管理页面。
设置断点续训练 什么是断点续训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkp
训练作业重调度 当训练作业发生故障恢复时(例如进程级恢复、POD级重调度、JOB级重调度等),作业详情页面中会出现“故障恢复详情”页签,里面记录了训练作业的启停情况。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。
修改训练作业优先级 使用专属资源池训练作业时,支持在创建训练作业时设置任务优先级,也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。 什么是训练作业优先级 在用户运行训练作业过程中,需要对训练作业做优先级划分。比如有一些任务是低优先级
制作自定义镜像用于训练模型 训练作业的自定义镜像制作流程 使用预置镜像制作自定义镜像用于训练模型 已有镜像迁移至ModelArts用于训练模型 从0制作自定义镜像用于创建训练作业(Pytorch+Ascend) 从0制作自定义镜像用于创建训练作业(PyTorch+CPU/GPU)
模型配置文件编写说明 模型开发者发布模型时需要编写配置文件config.json。模型配置文件描述模型用途、模型计算框架、模型精度、推理代码依赖包以及模型对外API接口。 配置文件格式说明 配置文件为JSON格式,参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 描述
同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器,当用户在云服务器页面修改了裸金属服务器状态后,您可通过“同步”功能,同步其状态至ModelArts。 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“节点”列表页面。