检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
output_path="/home/xxx") 运行结果将存储在output文件夹中,如果用户指定了output_path,会指定位置保存,如果不指定则在当前代码执行目录生成文件夹保存输出。整体运行的结果都存放在output文件夹中,每转一次模型就会根据模型名称以及相关参数生成结果文件,如下图所示。
镜像中只安装运行时依赖的安全包,减少镜像的大小,同时安装包需要更新到最新的无漏洞版本。敏感信息和镜像解耦,可以在服务部署时配置,不能直接硬编码在Dockerfile中。定期针对镜像进行安全扫描,及时安装补丁修复漏洞。增加健康检查接口,确保健康检查可以正常返回业务状态,便于告警和故
Standard推理镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud压缩包及该目录下的推理代码AscendCloud-LLM-6.3.908-xxx.zip和算子包AscendCloud-OPP-6.3.908-xxx.zip。 unzip
本教程案例是基于ModelArts Standard运行,需要购买ModelArts专属资源池。 准备权重 准备对应模型的权重文件。 准备代码 准备AscendCloud-3rdLLM-6.3.905-xxx.zip和AscendCloud-OPP-6.3.905-xxx.zip。
非SWR界面显示的压缩后的镜像大小)和OBS模型包大小总和不大于30G。 https示例 使用Flask启动https,Webserver代码示例如下: from flask import Flask, request import json app = Flask(__name__)
获取模型软件包,并上传到机器SFS Turbo的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud压缩包及该目录下的推理代码AscendCloud-LLM-6.3.909-xxx.zip,并直接进入到llm_inference/ascend_vllm文件夹下面 unzip
Standard推理镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud压缩包及该目录下的推理代码AscendCloud-LLM-6.3.908-xxx.zip和算子包AscendCloud-OPP-6.3.908-xxx.zip。 unzip
nt8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。 python
更新服务配置 更新当前服务对象配置。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数;其它平台的Session鉴权请参考Session鉴权。 方式1:根据部署在线服务生成的服务对象进行更新服务配置 1 2 3 4 5 6 7
--save_steps=5 --max_steps 100 <cfgs_yaml_file>:性能或精度测试配置的yaml文件地址,如代码目录中performance_cfgs.yaml、accuracy_cfgs.yaml相对或绝对路径,根据自己要求执行 <model_name>:训练模型名,如qwen2-7b
Standard推理镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud压缩包及该目录下的推理代码AscendCloud-LLM-6.3.908-xxx.zip和算子包AscendCloud-OPP-6.3.908-xxx.zip。 unzip
CANN cann_8.0.rc2 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.906-xxx.zip软件包中的AscendCloud-AIGC-6.3.906-xxx.zip 说明:
非SWR界面显示的压缩后的镜像大小)和OBS模型包大小总和不大于30G。 https示例 使用Flask启动https,Webserver代码示例如下: from flask import Flask, request import json app = Flask(__name__)
nt8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。 python
Standard推理镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud压缩包及该目录下的推理代码AscendCloud-LLM-6.3.910-xxx.zip和算子包AscendCloud-OPP-6.3.910-xxx.zip。 unzip
nt8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。 python
理框架在实际业务中能支持的并发数。 性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/llm_evaluation目录下。 代码目录如下: benchmark_tools ├── benchmark_parallel
理框架在实际业务中能支持的并发数。 性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/llm_evaluation目录下。 代码目录如下: benchmark_tools ├── benchmark_parallel
获取模型软件包,并上传到机器SFS Turbo的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud压缩包及该目录下的训练代码AscendCloud-LLM-6.3.908-xxx.zip,并直接进入到llm_train/AscendSpeed文件夹下面 unzip
获取模型软件包,并上传到机器SFS Turbo的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud压缩包及该目录下的训练代码AscendCloud-LLM-6.3.912-xxx.zip,并直接进入到llm_train/AscendFactory文件夹下面 unzip