检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Lite Cluster资源池上使用Snt9B完成推理任务 场景描述 本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务,随后登录至该Pod容器内部署在线服务,并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。
使用AOM查看Lite Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况并上报到AOM,用户可直接在AOM上查看默认配置好的基础指标,也支持用户自定义一些指标项上报到AOM查看。
管理应用中的错误码 操作场景 调用接口出错后,用户可根据每个接口对应的错误码来定位错误原因。AstroZero支持用户自定义错误码,并支持对错误码描述进行多语言国际化配置,实现根据语言的不同将错误码描述信息进行不同的展示。 除了在环境配置中设置错误码,用户还可以在应用开发设计器中
管理应用中的工作流 工作流即业务流程管理,源自业界工作流N 2.0标准。低代码平台基于该规范实现了自己的业务流程管理系统,由于工作流本身已成为了业界一套行业规范,因此在低代码平台中称实现此类流程的引擎为工作流。在AstroZero环境配置中,可管理账号下所有的工作流,包括查看、启用、禁用、运行工作流等。
报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决? 问题现象 原因分析 密钥文件不存在于该路径下,或者该路径下密钥文件名被修改。 解决方法 重新选择密钥路径。 父主题: VS Code连接开发环境失败故障处理
目标表中配置的RowId字段类型不正确导致写入数据失败 原因分析 使用RowId的方式采集Oracle表数据时,由于设置表字段类型不正确,导致报错,如下图。 解决方案 修改表字段类型,RowId一般是使用字母、数字生成的18位字符串,采集到目标端需要为字符类型。 父主题: 数据集成组合任务
系统管理员的工厂模型设置 工厂模型设置概述 维护公司注册 维护工厂建模 管理工厂员工 父主题: MBM Space使用示例
创建Qwen2-0.5B或Qwen2-1.5B模型的LoRA微调类型的调优任务,显示创建失败 问题现象 创建LoRA调优任务,选择支持Modellink框架类型的模型Qwen2-0.5B,数据集选择MOSS格式的jsonl数据,添加超参设置,创建调优任务失败。 关键日志报错: AttributeError:
根据配置文件历史ID删除配置文件历史 功能介绍 此API用于通过配置文件历史ID删除配置文件历史。 URI DELETE /v3/{project_id}/cas/configs/{config_id}/histories/{config_history_id} 表1 路径参数 参数
在SLB中管理灰度状态 管理灰度发布的整个执行阶段。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 启动灰度 如果初始配置发布时,没有选择启用灰度,灰度服务当前状态为待启动,可以在灰度管理中启用灰度。 进入AppStage运维中心。
在WiseDBA中查看数据库产生的事件 支持查询GeminiDB(for Cassandra)数据库产生的大Key和热Key事件。 查看大Key事件 单个分区键的行数不能超过10万;单个分区键的大小不超过100MB。 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
准备环境 本文档中的模型运行环境是ModelArts Lite的Server。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
# 基于LLaMAFactory的训练代码 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──demo.yaml # 样例yaml配置文件
# 基于AscendSpeed的训练代码 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本
# 基于AscendSpeed的训练代码 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本