检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在线上,模型文件从OBS下载到/home/mind/model目录之后,文件owner将统一修改为ma-user。 在本地机器上启动另一个终端,执行以下验证指令,得到符合预期的推理结果。
以图像识别为例,用户经常会从网上找一些图片用于训练,但是其质量难以保证,有可能图片的名字、路径、后缀名都不满足训练算法的要求;图片也可能有部分损坏,造成无法解码、无法被算法处理的情况。
在线服务鉴权 计费工作流在线主服务鉴权。 创建在线服务包 计费工作流购买资源。 表2 WorkflowExecution API 说明 获取Execution列表 查询Workflow下的执行记录列表。 新建Workflow执行 创建工作流执行。
在线上,模型文件从OBS下载到/home/mind/model目录之后,文件owner将统一修改为ma-user。 在本地机器上启动另一个终端,执行以下验证指令,得到符合预期的推理结果。
亮点特性4:提供在线的交互式开发调试工具JupyterLab ModelArts集成了基于开源的JupyterLab,可为您提供在线的交互式开发调试。
ModelArts支持部分场景下在线服务进行无损滚动升级。按要求进行升级前准备,做好验证,即可实现业务不中断的无损升级。
存储支持在线按需扩容。 图2 自定义存储配置 使用Notebook将OBS数据导入云硬盘EVS 打开已创建的Notebook实例,选择Notebook的python-3.9.10,即可编辑Untitled.ipynb文件。
AI推理应用运行在昇腾设备上一般有两种方式: 方式1:通过Ascend PyTorch,后端执行推理,又称在线推理。 方式2:通过模型静态转换后,执行推理,又称离线推理。 通常为了获取更好的推理性能,推荐使用方式2的离线推理。
微调大师:“训练中” AI应用:“运行中” 在线推理服务:“运行中” 计费规则 资源整点扣费,按需计费。 计费的最小单位为秒,话单上报后的每一小时对用户账号进行一次扣费。
模型部署:模型部署为在线服务、边缘服务时,会收取费用,使用完请及时停止服务。同时,也需清理存储到OBS中的数据。
测试音频speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/example/asr_example.wav的识别结果如下: 图2 测试音频识别结果 步骤九:在Aishell1测试集上测试
例如快速识别恶意租户,恶意IP。 ModelArts服务具备攻击流量停止后,快速恢复业务的能力。 云服务域名使用安全及租户内容安全策略 ModelArts服务使用的租户可见域名、租户不可见域名均满足如下安全相关要求,避免了域名使用过程中的合规和钓鱼风险。
表2 Query参数 参数 是否必选 参数类型 描述 update_time 否 Number 待过滤的更新时间,查询在线服务更新日志可使用,可准确过滤出某次更新任务;默认不过滤。
在推理生产环境中部署推理服务 介绍如何在创建AI应用,部署并启动推理服务,在线预测在线服务。 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.906)
部分模型支持“在线体验”功能,请以实际环境为准。 模型介绍 表1列举了ModelArts Studio大模型即服务平台支持的模型清单,模型详细信息请查看界面介绍。
通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 可选 SMN消息服务 授予子账号使用SMN消息服务的权限。SMN消息通知服务配合CES监控告警功能一起使用。
desc_act必须设置为false,内容如下: { "bits": 8, "group_size": -1, "desc_act": false } 启动vLLM,如果是使用命令行的方式,指定--quantization "gptq"参数,其他参数请参考启动在线推理服务
昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。
部署上线 ModelArts将存储在OBS中的模型部署上线为在线服务。 Standard AI全流程开发 数据管理 数据集存储在OBS中。 数据集的标注信息存储在OBS中。 支持从OBS中导入数据。 开发环境 Notebook实例中的数据或代码文件可以存储在OBS中。
昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。