检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.906)
LLaMA-VID基于DevServer适配PyTorch NPU推理指导(6.3.910) 方案概览 本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展LLaMA-VID的推理过程。 约束限制 本方案目前仅适用于企业客户。
主流开源大模型基于Server适配PyTorch NPU推理指导(6.3.910) 推理场景介绍 部署推理服务 推理性能测试 推理精度测试 推理模型量化 eagle投机小模型训练 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明 附录:大模型推理常见问题 父主题: LLM大语言模型训练推理
通过人工标注方式标注数据 创建ModelArts人工标注作业 人工标注图片数据 人工标注文本数据 人工标注音频数据 人工标注视频数据 管理标注数据 父主题: 标注ModelArts数据集中的数据
模型推理代码编写说明 本章节介绍了在ModelArts中模型推理代码编写的通用方法及说明,针对常用AI引擎的自定义脚本代码示例(包含推理代码示例),请参见自定义脚本代码示例。本文在编写说明下方提供了一个TensorFlow引擎的推理代码示例以及一个在推理脚本中自定义推理逻辑的示例。
查看在线服务的事件 服务的(从用户可看见部署服务任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应服务的详情页面进行查看。 方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 表1 事件 事件类型 事件
设置在线服务故障自动重启 场景描述 当系统检测到Snt9b硬件故障时,自动复位Snt9B芯片并重启推理在线服务,提升了推理在线服务的恢复速度。 约束限制 仅支持使用Snt9b资源的同步在线服务。 只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。
运行第一条Workflow 了解Workflow的功能与构成后,可通过订阅Workflow的方式尝试运行首条工作流,进一步了解Workflow的运行过程。 数据集准备。 订阅工作流。 运行工作流。 准备数据集 前往AI Gallery,在“资产集市>数据>数据集”页面下载常见生活垃圾图片。
查看Standard专属资源池详情 资源池详情页介绍 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“Standard资源池”列表。 在“Standard资源池”列表页的搜索框中,支持根据资源池的名称、资源池ID、资源池的
升级Standard专属资源池驱动 场景介绍 当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 驱动升级有两种升级方式:安全升级、强制升级。
使用TMS标签实现资源分组管理 ModelArts支持对接标签管理服务TMS,在ModelArts中创建资源消耗性任务时,可以为这些任务配置标签,通过标签实现资源的多维分组管理。 ModelArts支持配置标签的任务有:创建训练作业任务、创建Notebook、创建推理在线服务、创建ModelArts
我接入的模型需要满足什么要求才能在创建Agent时作为思考模型? 模型本身支持FunctionCall。 接入的模型需要符合OpenAI接口规范且具体请参见模型API接入接口规范。 流式返回的工具调用信息必须在一条消息内,不能分拆返回。 接入模型服务时 ,在模型服务描述中填写:S
FDI任务失败,修改问题后任务写入仍然报错 原因分析 Writer端写入数据时,先从Kafka通道的topic中消费数据,成功入库后才将消费偏移量提交给Kafka。如果写入数据时发生异常,将不会提交消费偏移量,等待修复问题后,重启任务,可以重新消费并处理未成功入库的数据。所以即使
向DWS写入数据时越来越慢怎么解决 原因分析 查看界面上的采集数据,如果写入数据耗时在秒级,属于正常的情况。如果写入几千条数据超过5秒,一般是性能劣化的表现。 解决方案 如果对DWS的某个表频繁访问,会导致写入性能逐渐降低,需要对DWS进行调优,例如,定时使用analyze规划表、VACUUM
变量V2 变量定义,变量V2连接器包含“追加到数组变量”、“追加到字符串变量”、“数值递减”、“数值递增”、“变量定义 ”、“变量赋值”六个执行动作。 连接参数 变量连接器无需认证,无连接参数。 追加到数组变量 需要先定义一个数组变量,可将“值”内填写的数据,以字符串的形式追加到
服务部署、启动、升级和修改时,拉取镜像失败如何处理? 问题现象 服务部署、启动、升级和修改时,拉取镜像失败。 原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
使用订阅算法训练结束后没有显示模型评估结果 问题现象 AI Gallery中的YOLOv5算法,训练结束后没有显示模型评估结果。 原因分析 未标注的图片过多,导致没有模型评估结果。 处理方法 对所有训练数据进行标注。 父主题: 预置算法运行故障
创建模型时,OBS文件目录对应镜像里面的目录结构是什么样的? 问题现象 创建模型时,元模型来源指定的OBS目录下存放了自定义的文件和文件夹,都会复制到镜像中去。复制进去的路径是什么,怎么读取对应的文件或者文件夹里面的内容? 原因分析 通过OBS导入模型时,ModelArts会将指
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 问题现象 在使用pytorch启动多进程的时候,出现如下报错: RuntimeError: Cannot re-initialize CUDA in
创建前端自定义认证 概述 如果您需要把自己的认证系统用于API调用的认证鉴权,可以使用自定义认证来实现。 自定义认证包括前端和后端两种类型: 前端自定义认证:指ROMA Connect使用自定义的认证函数,对收到的API请求进行安全认证。 后端自定义认证:指API的后端服务使用自定义的认证函数,对来自ROMA