检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
i、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件,为用户提供推理部署方案,帮助用户使能大模型业务。 约束限制 本方案目前仅适用于部分企业客户。 本文档适配昇腾云ModelArts 6.3.909版本,请参考软
ls/{pool_name}/workloads 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 作业所属的资源池。 请求参数 无 响应参数 状态码: 200
{task_id}/save-image-job 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。
instance_id String 实例ID。 status String 节点的状态。枚举值如下: init:初始化 wait_inputs:等待输入 pending:等待 creating:创建中 created:创建成功 create_failed:创建失败 running:运行中 stopping:停止中
{task_id}/save-image-job 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。
参数类型 描述 code_dir String 算法的代码目录。如:“/usr/app/”。应与boot_file一同出现。 boot_file String 算法的代码启动文件,需要在代码目录下。如:“/usr/app/boot.py”。应与code_dir一同出现。 command
多个,如 128 2048 128 2048,数量需和--prompt-tokens的数量对应。 --benchmark-csv:结果保存文件,如benchmark_parallel.csv。 脚本运行完成后,测试结果保存在benchmark_parallel.csv中,示例如下图所示。
ls/{pool_name}/workloads 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 作业所属的命名空间。 表2 Query参数 参数 是否必选
tasks/{task_id}/versions 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。 请求参数 表2 请求Body参数 参数
参数类型 描述 code_dir 否 String 算法的代码目录。如:“/usr/app/”。应与boot_file一同出现。 boot_file 否 String 算法的代码启动文件,需要在代码目录下。如:“/usr/app/boot.py”。应与code_dir一同出现。 command
多个,如 128 2048 128 2048,数量需和--prompt-tokens的数量对应。 --benchmark-csv:结果保存文件,如benchmark_parallel.csv。 --served-model-name: 选择性添加,在接口中使用的模型名;如果没有配置,则默认为tokenizer。
多个,如 128 2048 128 2048,数量需和--prompt-tokens的数量对应。 --benchmark-csv:结果保存文件,如benchmark_parallel.csv。 --served-model-name: 选择性添加,在接口中使用的模型名;如果没有配置,则默认为tokenizer。
变化。如训练作业之前无此问题,后面一直有此问题,则考虑是此原因。 处理方法 通过Notebook调试。 安装时指定版本。如:pip install xxx==1.x.x 第三方pip源可能随时更新,可通过制作自定义镜像,来避免该影响。可参见文档模型训练中使用自定义镜像介绍。 建议与总结
/v2/{project_id}/metrics/runtime/pools 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 apiVersion
多个,如 128 2048 128 2048,数量需和--prompt-tokens的数量对应。 --benchmark-csv:结果保存文件,如benchmark_parallel.csv。 --served-model-name: 选择性添加,在接口中使用的模型名;如果没有配置,则默认为tokenizer。
instance_id String 实例ID。 status String 节点的状态。枚举值如下: init:初始化 wait_inputs:等待输入 pending:等待 creating:创建中 created:创建成功 create_failed:创建失败 running:运行中 stopping:停止中
d}/versions/{version_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。 version_id 是 String
ons/{version_id}/results 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。 version_id 是 String
多个,如 128 2048 128 2048,数量需和--prompt-tokens的数量对应。 --benchmark-csv:结果保存文件,如benchmark_parallel.csv。 --num-scheduler-steps: 需和服务启动时配置的num-scheduler-steps一致。默认为1。
tasks/{task_id}/versions 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。 表2 Query参数 参数 是否必选 参数类型