检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
推理部署故障恢复 用户部署的在线推理服务运行过程中,如发生硬件故障导致推理实例故障,ModelArts会自动检测到并迁移受影响实例到其它可用节点,实例启动后恢复推理请求处理能力。故障的硬件节点会自动隔离不再调度和运行推理服务实例。 父主题: 安全
进入“ModelArts>部署上线>在线服务”页面,检查是否有“运行中”的推理作业。如果有,单击该作业列表右方操作下的“停止”即可停止计费。 进入“ModelArts>部署上线>批量服务”页面,检查是否有“运行中”的推理作业。
修改封面图和二级标题 在发布的资产详情页面,单击右侧的“编辑”,选择上传新的封面图,为资产编辑独特的主副标题。 编辑完成之后单击“保存”。封面图和二级标题内容自动同步,您可以直接在资产详情页查看修改结果。
构建零门槛线上模型体验,零基础开发者开箱即用,初学者三行代码使用所有模型 通过AI Gallery的AI应用在线模型体验,可以实现模型服务的即时可用性,开发者无需经历繁琐的环境配置步骤,即可直观感受模型效果,快速尝鲜大模型,真正达到“即时接入,即时体验”的效果。
在线上,模型文件从OBS下载到/home/mind/model目录之后,文件owner将统一修改为ma-user。 在本地机器上启动另一个终端,执行以下验证指令,得到符合预期的推理结果。
在线服务鉴权 计费工作流在线主服务鉴权。 创建在线服务包 计费工作流购买资源。 表2 WorkflowExecution API 说明 获取Execution列表 查询Workflow下的执行记录列表。 新建Workflow执行 创建工作流执行。
微调大师:“训练中” AI应用:“运行中” 在线推理服务:“运行中” 计费规则 资源整点扣费,按需计费。 计费的最小单位为秒,话单上报后的每一小时对用户账号进行一次扣费。
部署上线:模型部署为在线服务、边缘服务时,会收取费用,使用完请及时停止服务。同时,也需清理存储到OBS中的数据。
在推理生产环境中部署推理服务 介绍如何在创建AI应用,部署并启动推理服务,在线预测在线服务。 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.905)
部署上线:模型部署为在线服务、边缘服务时,会收取费用,使用完请及时停止服务。同时,也需清理存储到OBS中的数据。
表2 Query参数 参数 是否必选 参数类型 描述 update_time 否 Number 待过滤的更新时间,查询在线服务更新日志可使用,可准确过滤出某次更新任务;默认不过滤。
图1 进入“我的订阅” 在展开的版本列表中,单击“部署 > 在线服务”跳转至部署页面。 图2 部署模型 如果您选择部署的是商用模型,则选择服务类型后会弹出“修改配额”窗口,根据需要选择配额后单击“确定”即可跳转至“部署”页面。
在线上,模型文件从OBS下载到/home/mind/model目录之后,文件owner将统一修改为ma-user。 在本地机器上启动另一个终端,执行以下验证指令,得到符合预期的推理结果。
pytorch、tensorflow、mindspore、tensorflow-mindspore、cylp-cbcpy、rlstudio-ray、mindquantum-mindspore镜像支持以下2种方式访问: 在线JupyterLab访问,具体参见通过JupyterLab在线使用
在推理生产环境中部署推理服务 介绍如何在创建AI应用,部署并启动推理服务,在线预测在线服务。 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.906)
AI推理应用运行在昇腾设备上一般有两种方式: 方式1:通过Ascend PyTorch,后端执行推理,又称在线推理。 方式2:通过模型静态转换后,执行推理,又称离线推理。 通常为了获取更好的推理性能,推荐使用方式2的离线推理。
ModelArts支持部分场景下在线服务进行无损滚动升级。按要求进行升级前准备,做好验证,即可实现业务不中断的无损升级。
查看服务的事件类型和事件信息,请参见查看在线服务的事件 日志 展示当前服务下每个模型的日志信息。包含最近5分钟、最近30分钟、最近1小时和自定义时间段。 自定义时间段您可以选择开始时间和结束时间。 当服务启用运行日志输出后,页面展示存放到云日志服务LTS中的日志信息。
昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。
部署上线 ModelArts将存储在OBS中的模型部署上线为在线服务。 Standard AI全流程开发 数据管理 数据集存储在OBS中。 数据集的标注信息存储在OBS中。 支持从OBS中导入数据。 开发环境 Notebook实例中的数据或代码文件可以存储在OBS中。