检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
export DEFER_DECODE=1 # 是否使用推理与Token解码并行;默认值为1表示开启并行,取值为0表示关闭并行。开启该功能会略微增加首Token时间,但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间,默认值为10,单位为ms。将Token
clone,请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 如果无法访问公网,则可以配置代理,增加`--build-arg`参数指定代理地址,可访问公网。 docker build --build-arg "https_proxy=http://xxx
括数据配置等,比如full, lora等,该名称需要和<cfgs_yaml_file>里面对应。 如单独修改某个参数值,也可单击“增加超参”,在增加的超参填写框中,按照表1表格中的配置进行填写。 图3 超参 步骤三 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当
如需开启以下高阶配置,请在•创建推理脚本文件run_vllm.sh章节创建的推理脚本run_vllm.sh中增加需要开启的高阶配置。 词表切分 在分布式场景下,默认不使用词表切分能提升推理性能,同时也会增加单卡的显存占用。不建议开启词表并行,如确需使用词表切分,配置以下环境变量。 export USE_VOCAB_PARALLEL=1
yyyyMMdd-yyyyMMdd:搜索指定时间段内添加的样本,格式为“起始日期-结束日期”,查询天数不能超过30天。例如:“20190901-2019091501”表示搜索2019年9月1日至2019年9月15日期间的样本。 score 否 String 根据置信度筛选。 slice_thickness
clone,请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 若无法访问公网,则可以配置代理,增加`--build-arg`参数指定代理地址,可访问公网。 docker build --build-arg "https_proxy=http://xxx
e 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次,根据实际需要修改
docker pull {image_url} 步骤三 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录" #容器内挂载的目录,例如/home/ma-user/ws
docker pull {image_url} 步骤三 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录" #容器内挂载的目录,例如/home/ma-user/ws
docker pull {image_url} 步骤三:启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录" #容器内挂载的目录,例如/home/ma-user/ws
docker pull {image_url} Step3 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录" #容器内挂载的目录,例如/home/ma-user/ws
docker pull {image_url} Step3 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录" #容器内挂载的目录,例如/home/ma-user/ws
clone,请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 如果无法访问公网,则可以配置代理,增加`--build-arg`参数指定代理地址,可访问公网。 docker build --build-arg "https_proxy=http://xxx
动类型、实例数量、当前版本、目标版本、升级方式、升级范围和开启滚动开关。 目标版本:在目标版本下拉框中,选择一个目标驱动版本。对于资源池新增加的节点,可能会与资源池原有节点驱动不一致,为了保持驱动一致,目标版本可选择当前驱动版本,升级完成后所有节点驱动会升级为统一版本。 升级方式:可选择安全升级或强制升级。
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预
权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预
权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预
如果没有用户组,也可以创建一个新的用户组,并通过“用户组管理”功能添加用户,并配置授权。如果指定的子账号没有在用户组中,也可以通过“用户组管理”功能增加用户。 子账号启动其他用户的SSH实例 子账号可以看到所有用户的Notebook实例后,如果要通过SSH方式远程连接其他用户的Notebo
e 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次,根据实际需要修改
发请求时model指定为lora1或者lora2即为LoRA推理。 --quantization:推理量化参数。当使用量化功能,则在推理服务启动脚本中增加该参数,如果未使用量化功能,则无需配置。根据使用的量化方式配置,可选择awq、smoothquant或者GPTQ方式。 --speculative-model