检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
2409-aarch64-snt9b-20241213131522-aafe527 SWR上拉取。 约束限制 本文档适配昇腾云ModelArts 6.3.912版本,请参考表2获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 步骤一:检查环境 请参考DevServ
${container_draft_model_path}同时使用。 --use-v2-block-manager:vllm启动时使用V2版本的BlockSpaceManger来管理KVCache索引,如果不使用该功能,则无需配置。注意:如果使用投机推理功能,必须开启此参数。 -
plugins: configmap1980: - --rank-table-version=v2 # 保持不动,生成v2版本ranktablefile env: [] svc: - --publish-not-ready-addresses=true
支持昇腾的后端,仅直接支持CUDA和AMD ROCm,因此PyTorch在GPU上的训练代码无法直接在昇腾设备运行。PyTorch 2.1版本提供了新硬件适配的插件机制,通过昇腾提供的Ascend Extension for PyTorch插件,NPU可以成为PyTorch支持的硬件直接使用。
ndError: No module named 'multipart'"关键字异常,可更新python-multipart为0.0.12版本,具体请参考问题4:"No module named 'multipart'"报错: 父主题: 主流开源大模型基于DevServer适配LlamaFactory
${container_draft_model_path}同时使用。 --use-v2-block-manager:vllm启动时使用V2版本的BlockSpaceManger来管理KVCache索引,如果不使用该功能,则无需配置。注意:如果使用投机推理功能,必须开启此参数。 -
可选参数,此处以订阅算法举例 item_version_id="1.0.1", # 订阅算法的版本号,该示例为1.0.1版本,可选参数,此处以订阅算法举例 parameters=[ wf.AlgorithmParameters(name="task_type"
2312-aarch64-snt9b-20240727152329-0f2c29a 从SWR拉取。 约束限制 本文档适配昇腾云ModelArts 6.3.907版本,请参考表2获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 Step1 准备环境 请参考DevSe
2312-aarch64-snt9b-20240528150158-b521cc0 SWR上拉取 约束限制 本文档适配昇腾云ModelArts 6.3.905版本,请参考表2获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 Lora训练使用单机单卡资源。 确保容器可以访问公网。 Step1
适配的Cann版本是cann_8.0.rc3。 约束限制 本方案目前仅适用于企业客户。 本文档适配昇腾云ModelArts 6.3.910版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”
zip cd llm_inference/ascend_vllm bash build.sh 运行完后,会安装适配昇腾的vllm-0.4.2版本。 Step6 启动推理服务 配置需要使用的NPU卡编号。例如:实际使用的是第1张卡,此处填写“0”。 export ASCEND_RT_VISIBLE_DEVICES=0
业务场景 依赖的服务 依赖策略项 支持的功能 管理模型 SWR SWR Admin 从自定义镜像导入、从OBS导入时使用自定义引擎。 SWR共享版不支持细粒度权限项,因此需要配置Admin权限。 OBS obs:bucket:ListAllMybuckets(获取桶列表) obs:bu
2312-aarch64-snt9b-20240528150158-b521cc0 SWR上拉取 约束限制 本文档适配昇腾云ModelArts 6.3.905版本,请参考表2获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 训练资源需要使用单机8卡。 确保容器可以访问公网。 Step1
2312-aarch64-snt9b-20240606190017-b881580 从SWR拉取。 约束限制 本文档适配昇腾云ModelArts 6.3.906版本,请参考获取软件和镜像获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 推理需要单机单卡。 确保容器可以访问公网。 Step1
CANN cann_8.0.rc3 驱动 23.0.6 PyTorch 2.1.0 约束限制 本文档适配昇腾云ModelArts 6.3.908版本,请参考获取软件和镜像获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 训练作业使用单机单卡资源。 确保容器可以访问公网。 本案例仅支持在专属资源池上运行。
推理评测代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 获取模型权重文件
模型镜像版本 模型 版本 CANN cann_8.0.rc2 PyTorch 2.1.0 约束限制 本文档适配昇腾云ModelArts 6.3.905版本,请参考获取软件和镜像获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 训练作业至少需要单机8卡。 确保容器可以访问公网。 本案例仅支持在专属资源池上运行。
Long 训练作业的版本ID。 version_name String 训练作业的版本名称。 pre_version_id Long 训练作业前一版本的ID。 engine_type Long 训练作业的引擎类型。 engine_name String 训练作业的引擎名称。 engine_id
ndError: No module named 'multipart'"关键字异常,可更新python-multipart为0.0.12版本,具体请参考6-问题6:No module named 'multipart'"报错: 。 父主题: 主流开源大模型基于DevServer适配LlamaFactory
当前服务使用的资源池规格。如果使用公共资源池部署,则不显示该参数。 个性化配置 您可以为在线服务的不同版本设定不同配置条件,并支持携带自定义运行参数,丰富版本分流策略或同一版本内的不同运行配置。您可以打开个性化配置按钮,单击“查看配置”修改服务个性化配置。 服务流量限制 服务流量限制是指每秒内一个服务能够被访问的次数上限。