检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本文档适配昇腾云ModelArts 6.3.907版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 软件配套版本 表1 获取软件 分类 名称 获取路径
使用AWQ量化工具转换权重 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化,量化方法为per-group。 Step1 模型量化
t_shape及dynamic_dims动态参数。其中input_shape的-1表示动态shape所在的维度,dynamic_dims指定动态维度的取值范围,比如“[1~4],[8],[16]”表示该动态维度支持1、2、3、4、8、6共六种大小。 # config.ini [ascend_context]
录下。 gallery-cli download {repo_id} {文件名} 如下所示,表示下载文件“config.json”到服务器的缓存目录“/test”下,当回显“100%”时表示下载完成。 gallery-cli download ur5468675/test_cli_model1
输入在控制台不会回显 AKSK鉴权 如下命令表示使用AKSK进行鉴权,需要交互式输入AK及SK信息。默认提示AK和SK,且输入在控制台不会回显。 以下样例中所有以${}装饰的字符串都代表一个变量,用户可以根据实际情况指定对应的值。 比如${access key}表示输入用户自己的access key。
当前支持免费分享和订阅的资产类型有:Notebook代码样例、数据集、算法、模型、镜像。 商用资产由华为云云商店提供卖家发布和买家购买相关功能,AI Gallery仅提供列表展示。购买商业售卖的AI资产,本质上是购买算法、模型等AI资产的使用配额,在配额定义的约束下,有限地使用算法、模型等。 卖家发布AI类资产操
AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel
AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel
3600:粒度为1小时 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 metrics Array of metrics objects 指标对象列表。 取值范围 JSON数组大小不超过20。 表4 metrics 参数 参数类型 描述 metric metric
PyTorch版本支持2.1。 获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E
量预警步骤如下: 进入控制台“费用中心 > 资源包”,单击右上角“剩余量预警”。 在“剩余量预警”弹窗中,设置套餐包阈值类型,并在套餐包列表中打开需开启剩余量预警的套餐包开关、设置阈值类型和剩余量阈值。 图1 设置剩余量预警 设置完成后,单击“确定”,即可完成套餐包剩余量预警。 父主题:
AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。 本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel, W8A16 per-channel
AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。 本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel,W8A16 per-channel
JobStep的输入在运行时配置;data字段也可使用data=wf.data.OBSPath(obs_path="fake_obs_path")表示 outputs=wf.steps.JobOutput(name="train_url",
profile is "DEFAULT". -H, -h, --help Show this message and exit. 表1 参数说明 参数名 参数类型 是否必选 参数说明 -d / --drop-last-dir Bool 否 如果指定,在复制文件夹时不会将源
atch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Deepspeed-ZeRO-1替换为Deepspeed-ZeRO
atch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Deepspeed-ZeRO-1替换为Deepspeed-ZeRO
Snt9B和300IDUO。 获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.909软件包中的AscendCloud-AIGC-6.3.909-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E
Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。 表1 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理 是否支持W4A16量化
本文档适配昇腾云ModelArts 6.3.909版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 软件配套版本 表1 获取软件 分类 名称 获取路径