检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标 训练作业:用户在运行训练作业时,可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。 在线服务:用户将模型部署为在线服务后,可以通过监控功能查看CPU、内存、GPU等资源使用统计信息和模型调用次数统计,具体参见查看服务详情章节。 父主题: ModelArts
cision_compare_details_{timestamp}.csv文件的API详细达标情况。 详细工具的使用指导请参考离线预检和在线预检介绍。 父主题: msprobe工具使用指导
停止失败: REBOOTING: 重启中: REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS: 重装操作系统中: REINSTALLINGOS_FAILED。重装操作系统失败。
停止失败: REBOOTING: 重启中: REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS: 重装操作系统中: REINSTALLINGOS_FAILED。重装操作系统失败。
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(cpu/
Gallery社区的Notebook案例,使用的资源是ASCEND的,“Run in ModelArts”跳转到CodeLab,就可以使用昇腾卡进行训练。 也支持切换规格 父主题: Standard Notebook
删除Workflow工作流 查询Workflow工作流 修改Workflow工作流 总览Workflow工作流 查询Workflow待办事项 在线服务鉴权 创建在线服务包 获取Execution列表 新建Workflow Execution 删除Workflow Execution 查询Workflow
Notebook”,单击“创建”,在创建Notebook页面,资源池规格只能选择专属资源池。 使用子账号用户登录ModelArts控制台,选择“模型部署 > 在线服务”,单击“部署”,在部署服务页面,资源池规格只能选择专属资源池。 父主题: 典型场景配置实践
1009”:“AppKey or AppSecret is invalid”。 查询AppKey和AppSecret,使用APP认证访问在线服务,请参考访问在线服务(APP认证)。 父主题: 服务预测
3.5-medium:https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/tree/main stabilityai/stable-diffusion-3.5-large:https://huggingface
调用:提供高性能算子下发和图模式两种方案,兼顾性能和灵活性。 特性:服务调度、特性实现和社区一致,针对昇腾硬件做亲和替换和优化。 接口:离线SDK、在线OpenAI Server和社区完全一致,无缝迁移。 Ascend-vLLM支持的特性介绍 表1 Ascend-vLLM支持的特性 特性名称
Server Standard自动学习、Workflow、Notebook、模型训练、模型部署 变更计费模式 不支持 支持变更为包年/包月计费模式。 变更计费模式 变更规格 不涉及 支持变更实例规格。 适用场景 适用于可预估资源使用周期的场景,价格比按需计费模式更优惠。对于长期使用者,推荐该方式。
模型的端口没有配置,如您在自定义镜像配置文件中修改了端口号,需要在部署模型时,配置对应的端口号,使新的模型重新部署服务。 如何修改默认端口号,请参考使用自定义镜像创建在线服务,如何修改默认端口。 父主题: 服务部署
停止失败: REBOOTING: 重启中: REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS: 重装操作系统中: REINSTALLINGOS_FAILED。重装操作系统失败。
链接仓库协议。当前支持:ssh,https。 url String 链接仓库地址。 credential Object 证书信息,请参见表30。 表30 credential字段数据结构说明 参数 参数类型 说明 ssh_private_key String ssh私有证书。 access_token
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String
针对机器学习类模型,仅支持“application/json” data 在线服务-非必选 批量服务-必选 String 请求体以json schema描述。参数说明请参考官方指导。 表5 response结构说明 参数 是否必选 参数类型 描述 Content-type 在线服务-非必选 批量服务-必选 String
据。在资源占用情况窗口打开时,会定期向后台获取最新的资源使用率数据并刷新。 操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。 操作二:单击图例“cpuUsage”、“gpuMemUsage”、“gpuUtil”、“memUsage”“npuMemUsage
Standard部署模型并推理预测 推理部署使用场景 创建模型 创建模型规范参考 将模型部署为实时推理作业 将模型部署为批量推理服务 管理ModelArts模型 管理同步在线服务 管理批量推理作业
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String