检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
息进行升级。 约束限制 服务升级关系着业务实现,不当的升级操作会导致升级期间业务中断的情况,请谨慎操作。 ModelArts支持部分场景下在线服务进行无损滚动升级。按要求进行升级前准备,做好验证,即可实现业务不中断的无损升级。 表1 支持无损滚动升级的场景 创建模型的元模型来源 服务使用的是公共资源池
Integer 模型部署的实例数,即计算节点的个数。 model_id 否 String 模型ID。 specification 否 String 在线服务的资源规格。详见部署服务 weight 否 Integer 权重百分比,分配到此模型的流量权重;仅当infer_type为real-t
常量折叠是编译器优化中的通用技术之一,在编译节点简化常量表达。通过多数的现代编译器不会真的产生两个乘法的指令再将结果存储下来,取而代之的是会识别出语句的结构,并在编译时期将数值计算出来而不是运行时去计算(在本例子,结果为2,048,000)。 i = 320 * 200 * 32;
Gallery工具链服务创建成功且实际开始运行时,才会上报话单并开始计费,其他状态不上报就不计费,各个服务开始计费的状态如下。 微调大师:“训练中” AI应用:“运行中” 在线推理服务:“运行中” 计费规则 资源整点扣费,按需计费。 计费的最小单位为秒,话单上报后的每一小时对用户账号进行一次扣费。如果使用过程中暂停、终止了消耗资源的AI
ebook实例。 训练作业:训练作业运行时会收取费用,使用完请及时停止训练作业。同时,也需清理存储到OBS中的数据。 模型部署:模型部署为在线服务、边缘服务时,会收取费用,使用完请及时停止服务。同时,也需清理存储到OBS中的数据。 专属资源池:在使用ModelArts进行AI全流
String 内置属性:标签级别难例原因。通过中划线间隔单个难例原因ID,例如:“3-20-21-19”。难例原因ID可选值如下: 0:未识别出任何目标物体。 1:置信度偏低。 2:基于训练数据集的聚类结果和预测结果不一致。 3:预测结果和训练集同类别数据差异较大。 4:连续多张相似图片的预测结果不一致。
String 内置属性:标签级别难例原因。通过中划线间隔单个难例原因ID,例如:“3-20-21-19”。难例原因ID可选值如下: 0:未识别出任何目标物体。 1:置信度偏低。 2:基于训练数据集的聚类结果和预测结果不一致。 3:预测结果和训练集同类别数据差异较大。 4:连续多张相似图片的预测结果不一致。
String 服务ID。 表2 Query参数 参数 是否必选 参数类型 描述 update_time 否 Number 待过滤的更新时间,查询在线服务更新日志可使用,可准确过滤出某次更新任务;默认不过滤。 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token
若需要部署量化模型,需在Notebook中进行模型权重转换后再部署推理服务。 在推理生产环境中部署推理服务 介绍如何在创建AI应用,部署并启动推理服务,在线预测在线服务。 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.906)
ascendcloud-aigc-6.3.904-xxx.tar.gz 文件名中的xxx表示具体的时间戳,以包的实际时间为准。 获取路径:Support-E网站。 说明: 如果没有软件下载权限,请联系您所在企业的华为方技术支持下载获取。 基础镜像 西南-贵阳一:swr.cn-southwest-2
AI开发平台ModelArts ModelArts CommonOperations ModelArts Dependency Access 模型管理/在线服务/批量服务/边缘服务/边缘部署专属资源池 对象存储服务OBS OBS Administrator 云监控服务CES CES ReadOnlyAccess
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
String 内置属性:标签级别难例原因。通过中划线间隔单个难例原因ID,例如:“3-20-21-19”。难例原因ID可选值如下: 0:未识别出任何目标物体。 1:置信度偏低。 2:基于训练数据集的聚类结果和预测结果不一致。 3:预测结果和训练集同类别数据差异较大。 4:连续多张相似图片的预测结果不一致。
https://gitee.com/mindspore/models.git -b v1.5.0 图2 下载后的模型包文件 下载花卉识别数据集。 本样例使用的数据集为类别数为五类的花卉识别数据集。 在Terminal里执行如下命令下载并解压数据集,将数据集保存在“./models/dataset/flower_photos”文件夹。
ModelArts标注的数据存储在OBS中。 自动训练 训练作业结束后,其生成的模型存储在OBS中。 部署上线 ModelArts将存储在OBS中的模型部署上线为在线服务。 Standard AI全流程开发 数据管理 数据集存储在OBS中。 数据集的标注信息存储在OBS中。 支持从OBS中导入数据。 开发环境
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
"desc_act": false } 启动vLLM,如果是使用命令行的方式,指定--quantization "gptq"参数,其他参数请参考启动在线推理服务。 python -m vllm.entrypoints.openai.api_server --model <your_model>
Tenant Administrator 可选 CES云监控 授予子账号使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 可选 SMN消息服务 授予子账号使用SMN消息服务的
String 内置属性:标签级别难例原因。通过中划线间隔单个难例原因ID,例如:“3-20-21-19”。难例原因ID可选值如下: 0:未识别出任何目标物体。 1:置信度偏低。 2:基于训练数据集的聚类结果和预测结果不一致。 3:预测结果和训练集同类别数据差异较大。 4:连续多张相似图片的预测结果不一致。
String 内置属性:标签级别难例原因。通过中划线间隔单个难例原因ID,例如:“3-20-21-19”。难例原因ID可选值如下: 0:未识别出任何目标物体。 1:置信度偏低。 2:基于训练数据集的聚类结果和预测结果不一致。 3:预测结果和训练集同类别数据差异较大。 4:连续多张相似图片的预测结果不一致。