检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
动服务时需要该参数。如果服务部署在Notebook中,该参数为Notebook中权重路径;如果服务部署在生产环境中,该参数为服务启动脚本run_vllm.sh中的${model_path}。 --request-rate:请求频率,支持多个,如 0.1 1 2。实际测试时,会根据
torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务。另外,当启动服务时的模型或者参数发生改变时,请删除.torchair_cache文件
--tokenizer:tokenizer路径,可以是huggingface的权重路径。backend取值是openai时,tokenizer路径需要和推理服务启动时--model路径保持一致,比如--model /data/nfs/model/llama_7b, --tokeniz
|── finetune # 微调加载的数据 |──converted_weights # HuggingFace格式转换megatron格式后权重文件 |── saved_dir_for_output # 训练输出保存权重,目录结构会自动生成,无需用户创建
动服务时需要该参数。如果服务部署在Notebook中,该参数为Notebook中权重路径;如果服务部署在生产环境中,该参数为服务启动脚本run_vllm.sh中的${model_path}。 --request-rate:请求频率,支持多个,如 0.1 1 2。实际测试时,会根据
包含错误码,如:Ecs.0000时,可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。 包含错误码,如:BMS.0001时,可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。 包含错误码,如:CCE.01400001时,可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施
方法一:检查VS Code网络是否正常。在VS Code插件市场上搜索ModelArts-HuaweiCloud,如果显示如下则网络异常,请切换代理或使用其他网络。 操作完成后再次执行搜索,若显示如下则网络正常,请回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。
“自动停止” 默认开启,且默认值为“1小时”,表示该Notebook实例将在运行1小时之后自动停止,即1小时后停止规格资源计费。 开启自动停止功能后,可选择“1小时”、“2小时”、“4小时”、“6小时”或“自定义”几种模式。选择“自定义”模式时,可指定1~24小时范围内任意整数。 填写Not
这个临时响应用来通知客户端,它的部分请求已经被服务器接收,且仍未被拒绝。 101 Switching Protocols 切换协议。只能切换到更高级的协议。 例如,切换到HTTP的新版本协议。 200 OK 接口调用成功。 201 Created 创建类的请求完全成功。 202 Accepted
介绍如何在Notebook中配置NPU环境,部署并启动推理服务,完成精度测试和性能测试。 如果需要部署量化模型,需在Notebook中进行模型权重转换后再部署推理服务。 在推理生产环境中部署推理服务 介绍如何在创建AI应用,部署并启动推理服务,在线预测在线服务。 父主题: 主流开源大模型基于Standard适配PyTorch
MANAGED:托管,即资源在服务上。 DEDICATED:非托管,即资源在用户账号上,只有在category为EFS时支持。 status String EVS扩容状态,扩容时的状态为RESIZING,此时实例可以正常使用。 表9 user 参数 参数类型 描述 domain domain
投机推理时开启,设置输出长度是否使用数据集的真实长度,不输入默认为false。当使用该选项时,测试数据的输出长度为数据集的真实长度,--output-tokens的值会被忽略。 --num-speculative-tokens:仅当开启--use-spec-decode时生效,需
启动服务时需要该参数。若服务部署在Notebook中,该参数为Notebook中权重路径;若服务部署在生产环境中,该参数为服务启动脚本run_vllm.sh中的${model_path}。 --request-rate:请求频率,支持多个,如 0.1 1 2。实际测试时,会根据r
添加数据:您可以将本地图片快速添加到ModelArts,同时自动上传至创建项目时所选择的OBS路径中。单击“添加数据”,根据弹出的对话框的引导,输入正确的数据并添加。 同步新数据:将图片数据上传至创建项目时指定的OBS目录,然后单击“同步新数据”,快速将原OBS目录中的新数据添加到ModelArts数据集。
来实现身份认证,无需复杂的签名过程,适合于客户端环境安全可控的场景,如内网系统之间的API调用。在ModelArts中,支持在部署在线服务时开启AppCode认证(部署模型为在线服务中的“支持APP认证”参数)。对于已部署的在线服务,ModelArts支持修改其配置开启AppCode认证。
String 模型运行时环境,系统默认使用python2.7。runtime可选值与model_type相关,当model_type设置为Image时,不需要设置runtime,当model_type设置为其他常用框架时,请选择您使用的引擎所对应的运行时环境。目前支持的运行时环境列表请参见推理支持的AI引擎。
service_port:服务端口,与启动服务时的端口保持,比如8080。 max_out_len:在运行类似mmlu、ceval等判别式回答时,max_out_len建议设置小一些,比如16。在运行human_eval等生成式回答(生成式回答是对整体进行评测,少一个字符就可能会导致判断错误)时,max_out
service_port:服务端口,与启动服务时的端口保持,比如8080。 max_out_len:在运行类似mmlu、ceval等判别式回答时,max_out_len建议设置小一些,比如16。在运行human_eval等生成式回答(生成式回答是对整体进行评测,少一个字符就可能会导致判断错误)时,max_out
“自动停止” 默认开启,且默认值为“1小时”,表示该Notebook实例将在运行1小时之后自动停止,即1小时后停止规格资源计费。 开启自动停止功能后,可选择“1小时”、“2小时”、“4小时”、“6小时”或“自定义”几种模式。选择“自定义”模式时,可指定1~24小时范围内任意整数。 填写Not
MANAGED:托管,即资源在服务上。 DEDICATED:非托管,即资源在用户账号上,只有在category为EFS时支持。 status String EVS扩容状态,扩容时的状态为RESIZING,此时实例可以正常使用。 表10 user 参数 参数类型 描述 domain domain