-
查看资源池详情 - AI开发平台ModelArts
查看资源池规格(若创建资源池时未设置容器引擎大小,则显示默认值) 查看资源池监控 在资源池详情页,切换到“监控”页签。展示了CPU使用量、内存利用率、磁盘可用容量等使用情况,均以资源池的维度呈现。当资源池中有AI加速卡时,还会显示GPU、NPU的相关监控信息。 图4 查看资源视图 查看标签 通过给资源池添
-
单机单卡 - AI开发平台ModelArts
单机单卡 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 监控资源 父主题: 调试与训练
-
k8s Cluster资源配置 - AI开发平台ModelArts
k8s Cluster资源配置 配置流程 在k8s集群配置Ascend使用环境 网络 存储 kubectl工具配置 容器镜像 日志监控 父主题: 弹性集群k8s Cluster
-
服务管理 - AI开发平台ModelArts
服务管理 服务管理概述 部署本地服务进行调试 部署在线服务 查询服务详情 推理服务测试 查询服务列表 查询服务对象列表 更新服务配置 查询服务监控信息 查询服务日志 删除服务
-
服务管理 - AI开发平台ModelArts
服务管理 通过 patch 操作对服务进行更新 查询服务监控信息 查询服务列表 部署服务 查询支持的服务部署规格 查询服务详情 更新服务配置 删除服务 查询专属资源池列表 查询服务事件日志 启动停止边缘节点服务实例 查询服务更新日志 添加资源标签 删除资源标签 查询推理服务标签
-
进入ML Studio操作界面 - AI开发平台ModelArts
Editor,可以通过拖拉拽的方式,完成模型开发。此处介绍MLS操作界面。 MLS由资产管理和资产编排两个功能模块组成,完整界面如图8所示,左边是资产管理界面,右边是资产编排界面。 图8 MLS资产管理和资产编排界面 其中资产管理模块主要用于管理资产,包括算子、算链两类资产。可以通过点击左侧导航条上的图标进入
-
资源管理 - AI开发平台ModelArts
查询网络资源列表 查询网络资源 删除网络资源 更新网络资源 查询资源实时利用率 创建资源池 查询资源池列表 查询资源池 删除资源池 更新资源池 资源池监控 资源池统计 查询资源规格列表 查询专属资源池作业列表 查询专属资源池作业统计信息
-
算链编排操作 - AI开发平台ModelArts
新建算链 单击Launcher界面的MLS Editor图标,或者单击JupyterLab导航栏“File >New >MLS Editor”菜单,在新弹出的Kernel选择框中选择相应Kernel,即可创建一个新的算链。 创建算链后,左侧界面自动跳转到算子预览界面。具体操作同快速入门。
-
从0到1利用ML Studio进行机器学习建模 - AI开发平台ModelArts
Editor可视化编辑界面,具体参考进入ML Studio操作界面章节。 Step1 创建一个空算链 单击Launcher界面的MLS Editor,选择名为PySpark-2.4.5的Kernel,创建一个空的算链。 创建算链后,左侧界面自动跳转到资产预览界面。 图1 算链创建成功
-
推理服务支持虚拟私有云(VPC)直连的高速访问通道 - AI开发平台ModelArts
接经VPC对等连接发送到实例处理,访问速度更快。 由于请求不经过推理平台,所以会丢失以下功能: 认证鉴权 流量按配置分发 负载均衡 告警、监控和统计 图1 VPC直连的高速访问通道示意图 准备工作 使用专属资源池部署在线服务,服务状态为“运行中”。 需使用新版专属资源池部署服务,
-
训练任务的排队逻辑是什么? - AI开发平台ModelArts
训练任务的排队逻辑是什么? 当前训练任务排队的逻辑是先进先出,前面的任务没运行完后面的任务不会运行,有可能会造成小任务被“饿死”,需要用户注意。 饿死指的是前面的任务被一个大的任务堵着(例如是64卡),需要等空闲64卡这个任务才能运行,64卡的任务后面跟着1卡的。即使现在空出来30卡,这个1卡的任务也排不上。
-
访问在线服务(VPC高速访问通道) - AI开发平台ModelArts
接经VPC对等连接发送到实例处理,访问速度更快。 由于请求不经过推理平台,所以会丢失以下功能: 认证鉴权 流量按配置分发 负载均衡 告警、监控和统计 图1 VPC直连的高速访问通道示意图 准备工作 使用专属资源池部署在线服务,服务状态为“运行中”。 需使用新版专属资源池部署服务,
-
资源池介绍 - AI开发平台ModelArts
务中访问自己VPC上的资源,可通过“打通VPC”来实现。 更加完善的集群信息:全新改版的专属资源池详情页面中,提供了作业、节点、资源监控等更加全面的集群信息,可帮助您及时了解集群现状,更好的规划使用资源。 自助管理集群GPU/NPU驱动:每个用户对集群的驱动要求不同,在新版专属资
-
给子用户配置部署上线基本使用权限 - AI开发平台ModelArts
obs:bucket:ListAllMyBuckets 创建批量服务。 按需配置。 边缘服务 CES ces:metricData:list 查看服务的监控指标。 按需配置。 IEF IEF Administrator 管理边缘服务。 按需配置。 创建自定义策略时,建议将项目级云服务和全局级云
-
创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts
创建训练作业界面无云存储名称和挂载路径排查思路 问题现象 创建训练作业界面没有云存储名称和挂载路径这两个选项。 原因分析 用户的专属资源池没有进行网络打通,或者用户没有创建过SFS。 处理方法 在专属资源池列表中,单击资源池“ID/名称”,进入详情页。单击右上角“配置NAS VPC”,检查是否开启了NAS
-
部署为边缘服务 - AI开发平台ModelArts
部署为边缘服务 AI应用准备完成后,您可以将AI应用部署为边缘服务。在“部署上线>边缘服务”界面,列举了用户所创建的边缘服务。边缘服务依赖智能边缘平台(IEF),部署前需要在智能边缘平台上创建边缘节点。 前提条件 数据已完成准备:已在ModelArts中创建状态“正常”可用的AI应用。
-
推理简介 - AI开发平台ModelArts
应用进行部署。ModelArts当前支持如下几种部署类型: 在线服务 将AI应用部署为一个Web Service,并且提供在线的测试UI与监控功能。 批量服务 批量服务可对批量数据进行推理,完成数据处理后自动停止。 边缘服务 通过智能边缘平台,在边缘节点将AI应用部署为一个Web
-
风险操作 - AI开发平台ModelArts
升级、卸载huawei-npu插件。 可能导致NPU驱动使用异常。 升级、卸载volcano插件。 可能导致作业调度异常。 卸载ICAgent插件。 可能导致日志、监控功能异常。 helm 升级、回退、卸载os-node-agent。 可能影响节点故障检测。 升级、回退、卸载rdma-sriov-dev-plugin。
-
发布解决方案 - AI开发平台ModelArts
ery > 我的主页”进入个人中心页面。 左侧菜单栏选择“解决方案”进入解决方案列表页,单击右上方的“发布”,进入发布解决方案页面。 根据界面提示填写解决方案的相关信息,单击下方的“提交”。 在解决方案列表页可以查看发布的方案信息。 父主题: 合作伙伴
-
服务管理权限 - AI开发平台ModelArts
atus (request body携带status信息) modelarts:nodeservice:action - √ √ 查询服务监控信息 GET /v1/{project_id}/services/{service_id}/monitor modelarts:service:getMonitor