检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
更多信息请参见《智能边缘平台用户指南》。 与云监控的关系 ModelArts使用云监控服务(Cloud Eye Service, 简称CES)监控在线服务和对应模型负载,执行自动实时监控、告警和通知操作。CES的更多信息请参见《云监控服务用户指南》。 与云审计的关系 ModelArts使用云审计服务(Cloud
创建Notebook文件后,右上角的Kernel状态为“No Kernel”如何处理? 问题现象 现象:创建Notebook文件后,右上角的Kernel状态为“No Kernel”。 原因分析 可能因为用户工作目录下的code.py和创建kernel依赖的import code文件名称冲突。
PoolResourceFlavorCount object 状态为创建中状态的资源量。 available PoolResourceFlavorCount object 状态为可用状态的资源量。 abnormal PoolResourceFlavorCount object 状态为非正常状态的资源量。 deleting
查询服务详情,根据服务ID查询服务详情。 启动停止边缘节点服务实例 启动停止边缘节点服务实例。 更新服务配置 更新模型服务。 查询服务监控信息 查询服务监控信息。 查询服务更新日志 查询实时服务更新日志。 查询服务事件日志 查询服务事件日志,包含服务的操作记录及部署过程中的关键动作、部署失败原因。
单击服务名称,进入部署模型服务详情页面,可以查看服务信息。 “详情”:可以查看服务的基本信息,包括服务、模型、资源等设置信息。 “监控”:可以查看服务监控和资源监控信息。 “算力利用率”表示每分钟NPU的平均使用率,当请求率较低时,使用率会显示为0。 “事件”:可以查看服务的事件信息。事
在线服务处于运行中状态时,如何填写推理请求的request header和request body 问题现象 部署在线服务完成且在线服务处于“运行中”状态时,通过ModelArts console的调用指南tab页签可以获取到推理请求的地址,但是不知道如何填写推理请求的header及body。
安全 责任共担 资产识别与管理 身份认证与访问控制 数据保护技术 审计与日志 服务韧性 监控安全风险 故障恢复 更新管理 认证证书 安全边界
规则类型:选择阈值类告警。 监控对象:选择命令行输入。 命令行输入框: sum(nt_npg{type="NT_NPU_CARD_LOSE"} !=2) by (cluster_name, node_ip,type) 图2 告警规则设置 告警条件:选择触发条件在1个监控周期内,如果平均值>=1达到连续1次时,产生重要告警。
单机单卡 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 监控资源 父主题: 调试与训练
管理同步在线服务 查看在线服务详情 查看在线服务的事件 管理在线服务生命周期 修改在线服务配置 在云监控平台查看在线服务性能指标 集成在线服务API至生产环境中应用 父主题: 使用ModelArts Standard部署模型并推理预测
服务管理概述 在开发环境中部署本地服务进行调试 部署在线服务 查询服务详情 推理服务测试 查询服务列表 查询服务对象列表 更新服务配置 查询服务监控信息 查询服务日志 删除服务
Cluster节点池 管理Lite Cluster资源池标签 扩缩容Lite Cluster资源池 升级Lite Cluster资源池驱动 监控Lite Cluster资源 释放Lite Cluster资源
ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 监控Lite Cluster资源:ModelArts支持使用AOM和Prometheus对资源进行监控,方便您了解当前的资源使用情况。 释放Lite Cluster资源:针对不再使用的Lite
查询数据集导入任务列表 创建导入任务 查询数据集导入任务的详情 查询数据集导出任务列表 创建数据集导出任务 查询数据集导出任务的状态 同步数据集 查询数据集同步任务的状态 查询智能标注的样本列表 查询单个智能标注样本的信息 分页查询智能任务列表 启动智能任务 获取智能任务的信息 停止智能任务
服务管理 通过 patch 操作对服务进行更新 查询服务监控信息 查询服务列表 部署服务 查询支持的服务部署规格 查询服务详情 更新服务配置 删除服务 查询专属资源池列表 查询服务事件日志 启动停止边缘节点服务实例 查询服务更新日志 添加资源标签 删除资源标签 查询推理服务标签
user_id String APP创建用户ID。 状态码: 401 表6 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 状态码: 403 表7 响应Body参数 参数 参数类型
CES云监控 授予子用户使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 可选 SMN消息服务 授予子用户使用SMN消息服务的权限。SMN消息通知服务配合CES监控告警功能一起使用。
图20 创建“dropdown”类型的表单 图21 删除表单 资源监控 在使用过程中,如果想了解资源使用情况,可在右侧区域选择“Resource Monitor”,展示“CPU使用率”和“内存使用率”。 图22 资源监控 父主题: 通过JupyterLab在线使用Notebook实例进行AI开发
可以访问云服务,保证租户之前的相互隔离。 提供可靠的备份和灾难恢复机制,以确保数据不会因为硬件故障或自然灾害等原因而丢失。 提供透明的安全监控和事件响应服务,及时的安全更新和漏洞修补。 而云服务客户则需要执行以下任务: 将数据和应用程序加密,以保护数据的机密性和完整性。 确保AI
服务”管理页面。 单击目标服务名称,进入服务详情页面。 您可以查看服务的“名称”、“状态”等信息,详情说明请参见表1。 表1 在线服务配置 参数 说明 名称 在线服务名称。 状态 在线服务当前状态。 来源 在线服务的来源。 服务ID 在线服务的ID。 描述 您可以单击编辑按钮,添加服务描述。