检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
内容如下: { "bits": 8, "group_size": -1, "desc_act": false } 2. 启动vLLM,如果是使用命令行的方式,指定--quantization "gptq"参数,其他参数请参考Step3 创建服务启动脚本 python
内容如下: { "bits": 8, "group_size": -1, "desc_act": false } 2. 启动vLLM,如果是使用命令行的方式,指定--quantization "gptq"参数,其他参数请参考步骤六 启动推理服务 python
内容如下: { "bits": 8, "group_size": -1, "desc_act": false } 2. 启动vLLM,如果是使用命令行的方式,指定--quantization "gptq"参数,其他参数请参考Step3 启动推理服务 python
s 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 String 每页显示的条目数量。 offset 否 String 偏移量
内容如下: { "bits": 8, "group_size": -1, "desc_act": false } 2. 启动vLLM,如果是使用命令行的方式,指定--quantization "gptq"参数,其他参数请参考Step3 创建服务启动脚本 python
持的标注格式及其说明请参见不同类型数据集支持的功能列表。 图3 数据来源选择本地上传 图4 数据来源选择本地上传 更多参数填写请参见表2。 表2 数据集的详细参数 参数名称 说明 导入路径 选择需要导入数据的OBS路径,此位置会作为数据集的数据存储路径。 说明: “导入路径”不支
用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID。 api_id 是 String API编号。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 String 分页展示时,一页展示多少项。默认为1000。 offset 否
使用创建的“AppKey/AppSecret”或“AppCode”调用服务的支持APP认证的接口。 APP认证的服务授权给应用后,需要1-2分钟生效。 在线服务授权管理 如果您需要使用支持APP认证功能,建议您在部署在线服务之前进行授权管理操作完成应用创建。进入“模型部署 > 在
查询Workflow待办事项 获取Workflow待办列表。 在线服务鉴权 计费工作流在线主服务鉴权。 创建在线服务包 计费工作流购买资源。 表2 WorkflowExecution API 说明 获取Execution列表 查询Workflow下的执行记录列表。 新建Workflow执行
on-examplesitHub,单击,输入仓库地址,单击确定后即开始克隆,克隆完成后,JupyterLab左侧导航出现代码库文件夹。 图2 使用git插件克隆GitHub的开源代码仓库 克隆GitHub的私有仓库 克隆GitHub私有仓库时,会弹出输入个人凭证的对话框,如下图。
一次调度多次推理,降低调度上的cpu-overhead。 量化 W4A16-AWQ、GPTQ 权重Int4量化,降低显存消耗和时延。小并发时延提升80%,精度损失2%以内。 W8A8-smoothQuant 权重Int8量化,降低显存消耗,吞吐提升30%;精度损失1.5%以内。 W8A16-GPTQ I
一次调度多次推理,降低调度上的cpu-overhead。 量化 W4A16-AWQ、GPTQ 权重Int4量化,降低显存消耗和时延。小并发时延提升80%,精度损失2%以内。 W8A8-smoothQuant 权重Int8量化,降低显存消耗,吞吐提升30%;精度损失1.5%以内。 W8A16-GPTQ I
类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。 用于训练的文本,至少有2种以上的分类,每种分类样本数据数不少20行。 创建数据集 数据准备完成后,需要创建相应项目支持的类型的数据集,具体操作请参考创建ModelArts数据集。
路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用
Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/workflows/{workflow_id}/executions 表1 路径参数 参数 是否必选 参数类型 描述
默认开启,且默认值为“1小时”,表示该Notebook实例将在运行1小时之后自动停止,即1小时后停止规格资源计费。 开启自动停止功能后,可选择“1小时”、“2小时”、“4小时”、“6小时”或“自定义”几种模式。选择“自定义”模式时,可指定1~24小时范围内任意整数。 填写Notebook详细参数,如镜像、资源规格等。
格自行选择: 1. modelarts.pool.visual.xlarge 对应1卡 2. modelarts.pool.visual.2xlarge 对应2卡 3. modelarts.pool.visual.4xlarge 对应4卡 4. modelarts
QExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写,“workspace_id”为2获取的工作空间ID。 返回状态码“200 OK”,响应Body如下所示: { "id": "f3deca1406da4910a50f3919940b9bda"
1-py_3.9-euler_2.10.7-aarch64-snt3p Ascend snt3p Notebook、训练、推理部署 华北-北京四 表2 PyTorch 预置镜像 适配芯片 适用范围 适用区域 pytorch_2.1.0-cann_8.0.rc1-py_3.9-euler_2
Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/workflows/{workflow_id}/executions 表1 路径参数 参数 是否必选 参数类型 描述