检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
json文件,里面是提取的per-tensor的scale值。内容示例如下: 注意: 抽取完成后,可能提取不到model_type信息,需要手动将model_type修改为指定模型,如"llama"。 当前社区vllm只支持float8的kv_cache量化,抽取脚本中dtype类型是"float8_e4m3fn
hquant/examples/smoothquant_model.py中的main函数,保存模型时将safe_serialization指定为False int8_model.save_pretrained(output_path,safe_serialization=False)
打印如下信息,表示构建镜像成功。 图5 成功构建镜像 Step6 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图6 复制登录指令 Step7 上传镜像 在ECS服务器中输
打印如下信息,表示构建镜像成功。 图5 成功构建镜像 Step6 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图6 复制登录指令 Step7 上传镜像 在ECS服务器中输
软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.910-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Suppor
String 推理方式,枚举值如下: real-time:在线服务,默认值 batch:批量服务 edge: 边缘服务 limit 否 String 指定每一页返回的最大条目数,默认为1000。 offset 否 String 返回数据的起始偏移量,默认为0。 请求参数 表3 请求Header参数
需要配置OBS的使用权限。 更多需要配置的云服务权限请参见表1,比如SWR等,重复操作此步骤。 再单击“下一步”,设置最小授权范围。单击“指定区域项目资源”,勾选待授权使用的区域,单击“确定”。 提示授权成功,查看授权信息,单击“完成”。此处的授权生效需要15-30分钟。 创建子
hquant/examples/smoothquant_model.py中的main函数,保存模型时将safe_serialization指定为False int8_model.save_pretrained(output_path,safe_serialization=False)
torchvision_npu-0.16.*.whl Step6 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图4 复制登录指令 Step7 上传镜像 在ECS服务器中输
hquant/examples/smoothquant_model.py中的main函数,保存模型时将safe_serialization指定为False int8_model.save_pretrained(output_path,safe_serialization=False)
/home/ma-user/work/training_data/train-00000-of-00001-a09b74b3ef9c3b56.parquet 必须修改。训练时指定的输入数据路径。请根据实际规划修改。 ORIGINAL_HF_WEIGHT /home/ma-user/work/models/llama-2-13b-chat-hf
/home/ma-user/work/training_data/train-00000-of-00001-a09b74b3ef9c3b56.parquet 必须修改。训练时指定的输入数据路径。请根据实际规划修改。 ORIGINAL_HF_WEIGHT /home/ma-user/work/models/llama-2-13b-chat-hf
Turbo HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象,用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS
文件删除后不可恢复,请谨慎操作。 管理模型可见范围 模型发布后,支持修改可见范围。 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。 “指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 管理模型可用范围 仅当发布模型时,“可用范围”启用“申请用户可
Turbo HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象,用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS
ORIGINAL_TRAIN_DATA_PATH /home/ma-user/work/training_data/alpaca_gpt4_data.json 必须修改。训练时指定的输入数据路径。请根据实际规划修改。 ORIGINAL_HF_WEIGHT /home/ma-user/work/models/llama-2-13b-chat-hf
ORIGINAL_TRAIN_DATA_PATH /home/ma-user/work/training_data/alpaca_gpt4_data.json 必须修改。训练时指定的输入数据路径。请根据实际规划修改。 ORIGINAL_HF_WEIGHT /home/ma-user/work/models/llama-2-13b-chat-hf
activate python-3.9.10 #如果没有该conda环境需要手动建立一个 export work_dir=${work_dir} #指定work_dir路径 bash install.sh 在benchmark_eval目录下安装依赖。 cd opencompass #在benchmark_eval目录下
activate python-3.9.10 #如果没有该conda环境需要手动建立一个 export work_dir=${work_dir} #指定work_dir路径 bash install.sh 在benchmark_eval目录下安装依赖。 cd opencompass #在benchmark_eval目录下
torchvision_npu-0.16.*.whl Step6 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图5 复制登录指令 Step7 上传镜像 在ECS服务器中输