检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中,去升级了pytroch1.4的版本,导致之前在pytroch1.3跑通的代码报错如下: “RuntimeError:max_pool2d_wit
flavor String 实例的机器规格,缺省时返回全部类型。现在支持的有: modelarts.vm.cpu.free modelarts.vm.gpu.free flavor_details Object 规格详情,用于展示规格信息,以及查询规格是否售罄。请参见表16。 status
求帮助。 图片大Shape性能劣化严重怎么办? 在昇腾设备上,可能由于GPU内存墙导致在大shape下遇到性能问题,MindSporeLite提供了Flash Attention编译优化机制,可以考虑升级最新版本的MindSporeLite Convertor来进行编译期的算子优
数据由于指定了ascend后端,Output的内容在显存中,通过tensor的get_data_to_numpy方法来获取,并将数据读取到内存中使用。 outputs = model.predict(inputs) outputs = [output.get_data_to_numpy()
标注多个标签进行训练而成的模型,最后部署成在线服务之后也是对标注的多个标签去进行识别的。如果只需要快速识别一种标签,建议单独训练识别此标签的模型使用,并选择较大的部署上线的规格也可以提供识别速度。 父主题: 一般性问题
Query参数 参数 是否必选 参数类型 描述 app_name 否 String APP名称。 limit 否 String 分页展示时,一页展示多少项。默认为1000。 offset 否 String 分页展示时,从第几页开始。默认为0。 order 否 String 返回的APP列表
STOPPING,停止中 STOPPED,停止 UNAVAILABLE,故障 DELETED,已删除 RESIZING,规格变更中 RESIZE_FAILED,规格变更失败 sortby 否 String 分类标准,支持“name”、“creation_timestamp”。默认为“name”。
日志提示“Unexpected keyword argument passed to optimizer” 问题现象 在使用keras时,升级版本>=2.3.0之后,之前跑通的代码出现如下报错: TypeError: Unexpected keyword argument passed
api_id 是 String API编号。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 String 分页展示时,一页展示多少项。默认为1000。 offset 否 String 分页展示时,从第几页开始。默认为0。 app_name 否 String APP名称,支持模糊查找。
PRE_PAID:包周期 cloud_server CloudServer object 云服务信息。 endpoints_response Array of Endpoints objects 实例私有IP信息。 flavor String 实例规格名称。 id String 实例ID。
约束与限制 本节介绍ModelArts服务在使用过程中的约束和限制。 规格限制 表1 规格说明 资源类型 规格 说明 计算资源 所有按需计费、包年/包月、套餐包中的计算资源规格,包括CPU、GPU和NPU 购买的所有类型的计算资源均不支持跨Region使用。 计算资源 套餐包 套
、模型推理(即AI应用管理和部署上线)支持的AI框架及其版本,请参见如下描述。 统一镜像列表 ModelArts提供了ARM+Ascend规格的统一镜像,包括MindSpore、PyTorch。适用于Standard开发环境,模型训练,服务部署,请参考下表。镜像的URL、包含的依
后部署成在线服务之后也是对标注的多个标签去进行识别的。如果只需要快速识别一种标签,建议单独训练识别此标签的模型使用,并选择较大的部署上线的规格也可以提供识别速度。 父主题: Standard数据管理
业务运行阶段,先将业务系统对接在线服务请求,然后进行业务逻辑处理和监控设置。 图1 推理服务的端到端运维流程图 整个运维过程会对服务请求失败和资源占用过高的场景进行监控,当超过阈值时发送告警通知。 图2 监控告警流程图 方案优势 通过端到端的服务运维配置,可方便地查看业务运行高低峰情况,并能够实时感知在线服务的健康状态。
影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 高 不可恢复。 插件 升级、卸载gpu-beta插件。 可能导致GPU驱动使用异常。 中 回退版本、重装插件。 升级、卸载huawei-npu插件。 可能导致NPU驱动使用异常。 中 回退版本、重装插件。 升级、卸载volcano插件。 可能导致作业调度异常。
ip训练的详细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买DevServer资源。 本方案目前仅适用于企业客户。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B单机单卡。 表1 环境要求 模型 版本 CANN
选择AI应用遵循的许可证。 计算规格选择 是 按需选择计算规格。单击“选择”,在弹窗中选择资源规格并设置运行时长控制,单击“确定”。 在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。 选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据,AI Gal
ModelArts的SDK支持哪些安装环境? ModelArts通过OBS的API访问OBS中的文件,算内网还是公网? 调用API提交训练作业后,能否绘制作业的资源占用率曲线? 如何使用API接口获取订阅算法的订阅id和版本id? 使用SDK如何查看旧版专属资源池列表? 调用API接口创建训练作业和部署服务时,如何填写资源池的参数?
其环境规格取决于开发环境资源规格;例如在一个modelarts.vm.cpu.2u的Notebook中,部署本地Predictor,其运行环境就是cpu.2u。 部署在线服务Predictor,即将存储在OBS中的模型文件部署到线上服务管理模块提供的容器中运行,其环境规格(如CPU规格,GPU规格)由表3
/home/ma-user/modelarts/user-job-dir/data/cn-news-128-1f-mind/ 图14 训练进程 查看卡占用情况,如图所示,此时0号卡被占用,说明进程正常启动。 npu-smi info //查看卡信息 图15 查看卡信息 训练任务大概会运行两小时左右,训