检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
代码目录如下: AutoSmoothQuant #量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码
模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.908中的AscendCloud-LLM-xxx.zip软件包和算子包AscendCloud-OPP,AscendCloud-LLM关键文件介绍如下。
代码目录如下: AutoSmoothQuant #量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码
代码目录如下: AutoSmoothQuant #量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码
代码目录如下: AutoSmoothQuant #量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码
代码目录如下: AutoSmoothQuant #量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码
代码目录如下: AutoSmoothQuant #量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码
代码目录如下: AutoSmoothQuant #量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码
代码目录如下: AutoSmoothQuant #量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块 ├── autosmoothquant # 量化代码
Kubernetes的临时存储卷,临时卷会遵从Pod的生命周期,与Pod一起创建和删除。 使用临时存储路径 HostPath 适用于以下场景: 容器工作负载程序生成的日志文件需要永久保存。 需要访问宿主机上Docker引擎内部数据结构的容器工作负载。 节点存储。
释放Lite Cluster资源 针对不再使用的Lite Cluster资源,可以释放资源,停止计费相关介绍请见停止计费。 Lite Cluster资源池资源释放后不可恢复,请谨慎操作。
请参考k8s Cluster环境配置详细流程。 其中k8s Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。
请参考k8s Cluster环境配置详细流程。 其中k8s Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。
请参考k8s Cluster环境配置详细流程。 其中k8s Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。
docker pull {image_url} 步骤三 上传代码包和权重文件 上传安装依赖软件推理代码AscendCloud-LLM-6.3.909-xxx.zip和算子包AscendCloud-OPP-6.3.909-xxx.zip到主机中,包获取路径请参见表2。
监控Lite Cluster资源 使用AOM查看Lite Cluster监控指标 使用Prometheus查看Lite Cluster监控指标 父主题: Lite Cluster资源管理
unzip AscendCloud-3rdLLM-6.3.905-*.zip 运行推理构建脚本build.sh文件,自动获取ascend_vllm_adapter文件夹中提供的vLLM相关算子代码。
请参考k8s Cluster环境配置详细流程。 其中k8s Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。
是否开启NPU FlashAttention融合算子,具体约束详见NPU_Flash_Attn融合算子约束 是,配置以下参数。 flash_attn: sdpa 否,配置以下参数关闭。 flash_attn: disabled 是否使用固定句长。
父主题: Lite Cluster资源管理