检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
若需要部署量化模型,需在Notebook中进行模型权重转换后再部署推理服务。 在推理生产环境中部署推理服务 介绍如何创建AI应用,部署模型并启动推理服务,在线预测服务。 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.907)
开发者快速了解并学习大模型。 构建零门槛线上模型体验,零基础开发者开箱即用,初学者三行代码使用所有模型 通过AI Gallery的AI应用在线模型体验,可以实现模型服务的即时可用性,开发者无需经历繁琐的环境配置步骤,即可直观感受模型效果,快速尝鲜大模型,真正达到“即时接入,即时体验”的效果。
训练管理 创建算法 查询算法列表 查询算法详情 更新算法 删除算法 获取支持的超参搜索算法 创建训练作业 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的运行指标 查询训练作业列表
查项出现故障时,隔离故障硬件并重新下发训练作业。针对于分布式场景,容错检查会检查本次训练作业的全部计算节点。 推理部署故障恢复 用户部署的在线推理服务运行过程中,如发生硬件故障导致推理实例故障,ModelArts会自动检测到并迁移受影响实例到其它可用节点,实例启动后恢复推理请求处
目录下查看转换后的权重文件。 注意:权重转换完成后,需要将例如saved_models/pretrain_hf中的文件与原始Hugging Face模型中的文件进行对比,查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json
任务不同调整参数target-pipeline-parallel-size,默认为1。 权重转换完成后,需要将转换后的文件与原始Hugging Face模型中的文件进行对比,查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json
任务不同调整参数target-pipeline-parallel-size,默认为1。 权重转换完成后,需要将转换后的文件与原始Hugging Face模型中的文件进行对比,查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json
任务不同调整参数target-pipeline-parallel-size,默认为1。 注意:权重转换完成后,需要将转换后的文件与原始Hugging Face模型中的文件进行对比,查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json
息进行升级。 约束限制 服务升级关系着业务实现,不当的升级操作会导致升级期间业务中断的情况,请谨慎操作。 ModelArts支持部分场景下在线服务进行无损滚动升级。按要求进行升级前准备,做好验证,即可实现业务不中断的无损升级。 表1 支持无损滚动升级的场景 创建AI应用的元模型来源
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String
Gallery工具链服务创建成功且实际开始运行时,才会上报话单并开始计费,其他状态不上报就不计费,各个服务开始计费的状态如下。 微调大师:“训练中” AI应用:“运行中” 在线推理服务:“运行中” 计费规则 资源整点扣费,按需计费。 计费的最小单位为秒,话单上报后的每一小时对用户账号进行一次扣费。如果使用过程中暂停、终止了消耗资源的AI
ebook实例。 训练作业:训练作业运行时会收取费用,使用完请及时停止训练作业。同时,也需清理存储到OBS中的数据。 部署上线:模型部署为在线服务、边缘服务时,会收取费用,使用完请及时停止服务。同时,也需清理存储到OBS中的数据。 专属资源池:在使用ModelArts进行AI全流
注意:权重转换完成后,需要将例如saved_models/pretrain_hf中的文件与原始Hugging Face模型中的文件进行对比,查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json
Tenant Administrator 可选 CES云监控 授予子用户使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 可选 SMN消息服务 授予子用户使用SMN消息服务的
注意:权重转换完成后,需要将例如saved_models/pretrain_hf中的文件与原始Hugging Face模型中的文件进行对比,查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json
重文件。 权重转换完成后,需要将例如saved_models/pretrain_hf中的文件与原始Hugging Face模型中的文件进行对比,查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json
注意:权重转换完成后,需要将例如saved_models/pretrain_hf中的文件与原始Hugging Face模型中的文件进行对比,查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions Array of Constraint objects 数据约束条件。 value Map<String,Object>
__name__ == '__main__': main() 结果对比 分别以单机单卡和两节点16卡两种资源类型完成100epoch的cifar-10数据集训练,训练时长和测试集准确率如下。 表1 训练结果对比 资源类型 单机单卡 两节点16卡 耗时 60分钟 20分钟 准确率
Tenant Administrator 可选 CES云监控 授予子账号使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 可选 SMN消息服务 授予子账号使用SMN消息服务的