检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
一个变量,用户可以根据实际情况指定对应的值。 比如${access key}表示输入用户自己的access key。 ma-cli configure --auth AKSK access key [***]: ${access key} secret key [***]: ${secret
部署推理服务 非分离部署推理服务 分离部署推理服务 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.908)
部署推理服务 非分离部署推理服务 分离部署推理服务 父主题: 主流开源大模型基于Server适配PyTorch NPU推理指导(6.3.910)
部署推理服务 非分离部署推理服务 分离部署推理服务 父主题: 主流开源大模型基于Server适配PyTorch NPU推理指导(6.3.911)
表自己访问特定的云服务,以完成其在ModelArts平台上执行的AI计算任务。 综上,对于图1 权限管理抽象可以做如下解读: 用户访问任何云服务,均是通过标准的IAM权限体系进行访问控制。用户首先需要具备相关云服务的权限(根据您具体使用的功能不同,所需的相关服务权限亦有差异)。
service_type String 镜像支持服务类型。枚举值如下: COMMON:通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 size Long 镜像大小(单位KB)。
训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space
时序预测-time_series_v2算法部署在线服务预测报错 问题现象 在线服务预测报错:ERROR: data is shorter than windows。 原因分析 该报错说明预测使用的数据行数小于window超参值。 在使用订阅算法时序预测-time_series_v
菜单栏中选择“模型部署>在线服务”,进入在线服务管理页面。 单击在线服务列表“操作”列的“更多>删除”删除服务。 勾选在线服务列表中的服务,然后单击列表左上角“删除”按钮,批量删除服务。 单击目标服务名称,进入服务详情页面,单击右上角“删除”删除服务。 删除操作无法恢复,请谨慎操作。
镜像名称,长度限制512个字符,支持小写字母、数字、中划线、下划线和点。 name_fuzzy_match 否 Boolean 镜像名称是否模糊匹配,默认为true。 namespace 否 String 镜像所属组织,可以在SWR控制台“组织管理”创建和查看。 type 否 String 镜像类型。枚举值如下: BUILD_IN:系统内置镜像。
kernel,并导致实例崩溃 在Notebook实例中运行训练代码,如果数据量太大或者训练层数太多,亦或者其他原因,导致出现“内存不够”问题,最终导致该容器实例崩溃。 出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题,如果重新运行训练代码仍将失败。 如
集成在线服务API至生产环境中应用 针对已完成调测的API,可以将在线服务API集成至生产环境中应用。 前提条件 确保在线服务一直处于“运行中”状态,否则会导致生产环境应用不可用。 集成方式 ModelArts在线服务提供的API是一个标准的Restful API,可使用HTTP
服务部署、启动、升级和修改时,拉取镜像失败如何处理? 问题现象 服务部署、启动、升级和修改时,拉取镜像失败。 原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
设置在线服务故障自动重启 场景描述 当系统检测到Snt9b硬件故障时,自动复位Snt9B芯片并重启推理在线服务,提升了推理在线服务的恢复速度。 约束限制 仅支持使用Snt9b资源的同步在线服务。 只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。
ModelArts版本配套关系表 昇腾云服务6.3.911版本说明 昇腾云服务6.3.910版本说明(推荐) 昇腾云服务6.3.909版本说明 昇腾云服务6.3.908版本说明 昇腾云服务6.3.907版本说明 昇腾云服务6.3.906版本说明 昇腾云服务6.3.905版本说明 昇腾云服务6.3.904版本说明
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
对于在线/批量/边缘服务,因资源ID与账单中上报的资源ID不一致,所以需通过如下方法查询账单停止计费: 使用公共资源池创建的在线/批量/边缘服务,通过此方式停止服务后,即可停止计费。 使用专属资源池创建的在线/批量/边缘服务,需删除对应的专属资源池。删除后,即可停止计费。 在运行在线服务时,如
部署推理服务 非分离部署推理服务 分离部署推理服务 父主题: 主流开源大模型基于Server适配PyTorch NPU推理指导(6.3.909)
自定义镜像的大小推荐15GB以内,最大不要超过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。 ModelArts公共资源池的容器引擎空间为50G,专属资源池的容器引擎空间的默认为50G,支持在创建专属资源池时自定义容器引擎空间。 确定错误类型 提示找不到文件等错误,请参见训练作业日志中提示“No