正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
日志提示“Unexpected keyword argument passed to optimizer” 问题现象 在使用keras时,升级版本>=2.3.0之后,之前跑通的代码出现如下报错: TypeError: Unexpected keyword argument passed
temperature > 0。 使用beam_search场景下,n取值建议为1<n≤10。如果n=1,会导致推理请求失败。 说明: n建议取值不超过10,n值过大会导致性能劣化,显存不足时,推理请求会失败。 use_beam_search 否 False Bool 是否使用beam_search替换采样。
runtime is found分析,是cuda runtime没有找到。 处理方法 建议您按以下步骤排查处理: 确认部署在线服务时是否选择了GPU规格。 在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本(customize_service
任务。 当操作记录里有节点处于替换中时,该资源池无法进行重置节点操作。 当资源池处于驱动升级状态时,该资源池无法进行重置节点操作。 GPU和NPU规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。 图7 查看资源池节点 图8 操作记录 重启节点: “节点”页签中提供
本方案目前仅适用于部分企业客户。 本文档适配昇腾云ModelArts 6.3.908版本,请参考软件配套版本获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 资源规格推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9B资源。 推理部署使用的服务框架是vLLM。vLLM支持v0.5.0版本。
若需要部署量化模型,请参考推理模型量化在Notebook中进行权重转换,并将转换后的权重上传至OBS中。 权重文件夹不要以"model"命名,若以"model"命名会导致后续创建AI应用报错。 推理启动脚本run_vllm.sh制作请参见下文创建推理脚本文件run_vllm.sh的介绍。 SSL证书制作包含cert
数。在服务启动阶段,当健康检查请求连续失败达到所填次数后,服务会进入异常状态;在服务运行阶段,当健康检查请求连续失败达到所填次数后,服务会进入告警状态。 说明: 当AI应用配置了健康检查,部署的服务在收到停止指令后,会延后3分钟才停止。 “AI应用说明” 为了帮助其他AI应用开发
任务。 当操作记录里有节点处于替换中时,该资源池无法进行重置节点操作。 当资源池处于驱动升级状态时,该资源池无法进行重置节点操作。 GPU和NPU规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。 图2 操作记录 图3 查看资源池节点 授权运维 华为云技术支持在故障
空间,以实际取值为准。 feature String 实例类别。枚举值: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 billing_items Array of strings 计费资源类型。枚举值: STORAGE:存储资源计费。
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(cpu/
标注多个标签进行训练而成的模型,最后部署成在线服务之后也是对标注的多个标签去进行识别的。如果只需要快速识别一种标签,建议单独训练识别此标签的模型使用,并选择较大的部署上线的规格也可以提供识别速度。 父主题: 一般性问题
空间,以实际取值为准。 feature String 实例类别。枚举值: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 billing_items Array of strings 计费资源类型。枚举值: STORAGE:存储资源计费。
feature 否 String 实例类别,默认为NOTEBOOK。枚举值如下: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 limit 否 Integer 每一页的数量,默认值10。 name 否 String 实例名称,支
feature 否 String 实例类别,默认为NOTEBOOK。枚举值如下: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 limit 否 Integer 每一页的数量,默认值10。 name 否 String 实例名称,支
空间,以实际取值为准。 feature String 实例类别。枚举值: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 billing_items Array of strings 计费资源类型。枚举值: STORAGE:存储资源计费。
梯度,如果需要关闭重计算,可以在yaml配置 `disable_gradient_checkpointing: true` 关闭,但显存占用会直线上升。 attn_mask 只支持布尔(bool)数据类型,或者为None。 query的shape仅支持 [B, N1, S1, D],其中N1≤
a-user/work”目录下的数据,在Notebook实例停止或重启后,会被保留。 为避免重启,请勿在开发环境中进行重型作业训练,如大量占用资源的作业。 父主题: 数据存储
、模型推理(即AI应用管理和部署上线)支持的AI框架及其版本,请参见如下描述。 统一镜像列表 ModelArts提供了ARM+Ascend规格的统一镜像,包括MindSpore、PyTorch。适用于Standard开发环境,模型训练,服务部署,请参考下表。镜像的URL、包含的依
后部署成在线服务之后也是对标注的多个标签去进行识别的。如果只需要快速识别一种标签,建议单独训练识别此标签的模型使用,并选择较大的部署上线的规格也可以提供识别速度。 父主题: Standard数据管理
桶(存放代码)”,采用分布式训练。 表1 不同场景所需服务及购买推荐 场景 OBS SFS SWR DEW ModelArts VPC ECS EVS 单机单卡 按需购买。(并行文件系统) × 免费。 免费。 包月购买。 免费。 × 按需购买。 单机多卡 × 包月购买。 (HPC型500G)