检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CombineTmsTags objects 标签的融合结构,相同key合并。 表4 CombineTmsTags 参数 参数类型 描述 key String 标签的key。 values Array of strings 相同key的标签value合并后的列表。 状态码: 400 表5 响应Body参数
压缩策略的适用场景 压缩策略 场景 SmoothQuant-W8A8 长序列的场景 大并发量的场景 AWQ-W4A16 小并发量的低时延场景 更少推理卡数部署的场景 约束限制 表2列举了支持模型压缩的模型,不在表格里的模型不支持使用MaaS压缩模型。 表2 支持模型压缩的模型 模型名称
选择“我的服务”页签。 选择待删除的服务,单击操作列的“更多 > 删除”,在弹窗中输入“DELETE”,单击“确定”,删除服务。 单实例QPS的推荐值说明 单实例流量限制QPS和请求的输入输出有关,表2中的QPS推荐值是在多轮对话、摘要生产和信息检索场景下预估出的数据,仅供参
--cann_version -cv 选填 使用Profiling工具采集时对应的CANN软件版本,可通过在环境中执行如下命令获取其version字段,目前配套的兼容版本为“6.3.RC2”,“7.0.RC1”和“7.0.0”,此字段不填默认按“7.0.RC1”版本数据进行处理,其余版本采集的Profiling数据在分析时可能会导致不可知问题:
参数错误 请检查填写的参数。 400 ModelArts.0107 The values of the request parameters ({0},{1}) are invalid. 请求的参数值 ({0},{1})是无效的. 检查提示的参数值是否是有效的。 400 ModelArts
必须大于0,不配置默认值为1。当小于1时,代表滚动升级时增加的实例数的百分比;当大于1时,代表滚动升级时最大扩容的实例数。 max_unavailable 否 Float 必须大于0,不配置默认值为0。当小于1时,代表滚动升级时允许缩容的实例数的百分比;当大于1时,代表滚动升级时允许缩容的实例数。 terminat
909软件包中的AscendCloud-AIGC-6.3.909-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
本示例仅用于示意Ascend容器镜像制作流程,且在匹配正确的Ascend驱动/固件版本的专属资源池上运行通过。 准备一台Linux aarch64架构的主机,操作系统使用ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。 购买ECS服务器的具体操作请参考购买并
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
当Tokens的免费调用额度使用完时,操作列的“体验”会置灰。 在业务环境中调用模型服务的API进行推理。 在预置服务列表,选择所需的服务,单击操作列的“更多 > 调用”,在调用弹窗中获取API地址和调用示例,在业务环境中调用API进行体验。操作指导请参见调用MaaS部署的模型服务。
静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动,且输入输出长度也在一定范围内变化时,模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求,能评估推理框架在实际业务中能支持的并发数。
开启图模式后,服务第一次响应请求时会有一个较长时间的图编译过程,并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务
开启图模式后,服务第一次响应请求时会有一个较长时间的图编译过程,并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务
文档中针对数据集预处理时,handler-name参数的说明,新增不同 handler 对训练数据的拼接和推理prompt的构造等说明。 支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b
调用预测请求的账号名。 DOMAIN_ID 调用预测请求的账号ID。 PROJECT_NAME 调用预测请求的项目名。 PROJECT_ID 调用预测请求的项目ID。 USER_NAME 调用预测请求的用户名。 USER_ID 调用预测请求的用户ID。 “#”表示引用变量,匹配的字符串需要用单引号。
静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动,且输入输出长度也在一定范围内变化时,模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求,能评估推理框架在实际业务中能支持的并发数。
准备环境 本文档中的模型运行环境是ModelArts Lite的Cluster。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表2。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备环境 本文档中的模型运行环境是ModelArts Lite的Cluster。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表2。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
run”之前运行。 语句中的“logits”,表示根据不同网络中分类层权重的变量名,配置不同的参数。此处填写其对应的关键字。 mox.set_flag('checkpoint_exclude_patterns', 'logits') 如果使用的是MoXing内置网络,其对应的关键字需使用如下
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。