检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
String 服务ID。 表2 Query参数 参数 是否必选 参数类型 描述 update_time 否 Number 待过滤的更新时间,查询在线服务更新日志可使用,可准确过滤出某次更新任务;默认不过滤。 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token
在“模型详情”页面右上角,单击“调优”、“压缩”或“部署”,可以直接使用模型进行训推。 当按钮置灰时,表示模型不支持该任务。部分模型支持“在线体验”功能,请以实际环境为准。 模型介绍 表1列举了ModelArts Studio大模型即服务平台支持的模型清单,模型详细信息请查看界面介绍。
AI开发平台ModelArts ModelArts CommonOperations ModelArts Dependency Access 模型管理/在线服务/批量服务/边缘服务/边缘部署专属资源池 对象存储服务OBS OBS Administrator 云监控服务CES CES ReadOnlyAccess
ModelArts标注的数据存储在OBS中。 自动训练 训练作业结束后,其生成的模型存储在OBS中。 部署上线 ModelArts将存储在OBS中的模型部署上线为在线服务。 Standard AI全流程开发 数据管理 数据集存储在OBS中。 数据集的标注信息存储在OBS中。 支持从OBS中导入数据。 开发环境
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
"desc_act": false } 启动vLLM,如果是使用命令行的方式,指定--quantization "gptq"参数,其他参数请参考启动在线推理服务。 python -m vllm.entrypoints.openai.api_server --model <your_model>
Tenant Administrator 可选 CES云监控 授予子账号使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 可选 SMN消息服务 授予子账号使用SMN消息服务的
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
个可能需要进行付费调用,评估1000条大概需要0.15美元 OPENAIKEY="" 注:openai不支持中国大陆和香港,不能使用中国的代理。 推理结果保存的文件名,可不用修改,使用默认的文件名 OUTPUTNAME=pred 步骤11 执行推理脚本 bash scripts/
06:00完成了数据校验,10:06:00-10:12:00完成了图像分类,11:30:00完成了服务部署,并在12:00:00停止运行在线服务。同时,使用公共资源池运行实例,模型训练时选择资源池规格为CPU: 8 核 32GB、计算节点个数为1个(单价:3.40 元/小时);服务部署时选择资源池规格为CPU:
SampleLabels objects 视频在线服务推理结果。 service_id String 在线服务ID。 service_name String 在线服务名称。 service_resource String 用户绑定的在线服务资源ID。 total_sample_count
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
cision_compare_details_{timestamp}.csv文件的API详细达标情况。 详细工具的使用指导请参考离线预检和在线预检介绍。 父主题: msprobe工具使用指导
because {reason}. 创建代理映射失败,因为{原因}。 根据提示失败原因进行排查。 400 ModelArts.3817 Failed to update the AI proxy mapping because {reason}. 更新代理映射路径失败,因为{原因}。 根据提示失败原因进行排查。
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
步骤二 权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
步骤二 权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
Step2 权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
步骤二 权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
在ModelArts Studio左侧导航栏中,选择“模型部署”。 在“模型部署”页面,单击“我的服务”页签,在目标模型服务右侧,单击操作列“更多 > 在线体验”,进入“模型体验”页面。 在“模型体验”页面右上角,单击“参数设置”,拖动或直接输入数值配置推理参数。单击“恢复默认”可以将参数值调回默认值。