检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
json文件中配置。当业务可提供正常服务时,健康检查接口返回健康状态,否则返回异常状态。 如果要实现无损滚动升级,必须配置健康检查接口。 自定义镜像如果需要在“在线服务”模块使用OBS外部存储挂载功能,需要新建一个OBS挂载专属目录如“/obs-mount/”,避免选择存量目录覆盖已有文件。OBS挂载
//docs.vllm.ai/en/latest/getting_started/quickstart.html。 以下服务启动介绍的是在线推理方式,离线推理请参见https://docs.vllm.ai/en/latest/getting_started/quickstart
在“AI应用管理 > AI应用 > 我的订阅”页面,选择并展开订阅的目标模型。在版本列表单击“部署”,可以将订阅的ModelArts模型部署为“在线服务”、“批量服务”或“边缘服务”,详细操作步骤请参见部署服务。 使用订阅的HiLens技能: 在“产品订购 > 订单管理 > AI Ga
导出ModelArts数据集中的数据到AI Gallery 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出到AI Gallery。用户可以通过任务历史查看数据导出的历史记录。发布到AI Gallery中的数据集,可以设置是否公开,将数据集公开给其他人使用。
SWR OperateAccess 必选 CES云监控 授予子用户使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 必选 SMN消息服务 授予子用户使用SMN消息服务的
该接口支持管理员给IAM子用户设置委托,支持设置当前用户的访问密钥。 若没有授权,ModelArts服务的数据管理、训练管理、开发环境、在线服务等功能将不能正常使用。 调用查看授权列表接口查看用户的授权信息。 在管理用户授权时,可以调用删除授权接口删除指定用户的授权或者删除全量用户的授权。
Step3 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本:
gz 也可以从HuggingFace官网下载到本地后,通过docker cp命令复制到容器中/home/ma-user目录下,如下图所示。 在线下载地址: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main
业务场景 依赖的服务 委托授权项 说明 在线服务 LTS lts:groups:create lts:groups:list lts:topics:create lts:topics:delete lts:topics:list 建议配置,在线服务配置LTS日志上报。 批量服务 OBS
3.5,1.4,0.2 4.9,3.0,1.4,0.2 4.7,3.2,1.3,0.2 根据定义好的映射关系,最终推理请求样例如下所示,与在线服务使用的格式类似: { "data": { "req_data": [{ "input_1": 5.1, "input_2":
性,屏蔽了大量AI模型开发使用过程中的技术细节,并制定了统一合理的规范。使用者可以便捷地使用、下载模型。同时支持用户上传自己的预训练模型到在线模型资产仓库中,并发布上架给其他用户使用。AI Gallery在原有Transformers库的基础上,融入了对于昇腾硬件的适配与支持。对
标签 - ModelArts支持对接标签管理服务TMS,在ModelArts中创建资源消耗性任务(例如:创建Notebook、训练作业、推理在线服务)时,可以为这些任务配置标签,通过标签实现资源的多维分组管理。 标签详细用法请参见ModelArts如何通过标签实现资源分组管理。 说明:
//docs.vllm.ai/en/latest/getting_started/quickstart.html。 以下服务启动介绍的是在线推理方式,离线推理请参见https://docs.vllm.ai/en/latest/getting_started/quickstart
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions Array of Constraint objects 数据约束条件。 value Map<String,Object>
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions Array of Constraint objects 数据约束条件。 value Map<String,Object>
若需要部署量化模型,需在Notebook中进行模型权重转换后再部署推理服务。 在推理生产环境中部署推理服务 介绍如何创建AI应用,部署模型并启动推理服务,在线预测服务。 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.907)
//docs.vllm.ai/en/latest/getting_started/quickstart.html。 以下服务启动介绍的是在线推理方式,离线推理请参见https://docs.vllm.ai/en/latest/getting_started/quickstart
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions Array of Constraint objects 数据约束条件。 value Map<String,Object>
//docs.vllm.ai/en/latest/getting_started/quickstart.html。 以下服务启动介绍的是在线推理方式,离线推理请参见https://docs.vllm.ai/en/latest/getting_started/quickstart