正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(cpu/me
synchronize_auto_labeling_data Boolean 团队标注任务是否同步智能标注结果。可选值如下: true:执行完智能标注后,将待确认结果同步至团队成员。 false:不同步智能标注结果(默认值)。 synchronize_data Boolean 团队标注任务是否同步更新新增数据。可选值如下:
模型转换报错如何查看日志和定位? 通过如下的配置项打开对应的模型转换日志,可以看到更底层的报错。如配置以下的环境变量之后,再重新转换模型,导出对应的日志和dump图进行分析: 报错日志中搜到“not support onnx data type”,表示MindSpore暂不支持该算子。 报错日志中搜到“Convert
在模型精度对齐后,针对Stable Diffusion模型性能调优,可以通过AOE工具进行自助性能调优,进一步可以通过profiling工具对于性能瓶颈进行分析,并针对性的做一些调优操作。 可以直接使用benchmark命令测试mindir模型性能,用来对比调优前后性能是否有所提升。 # shell
删除处理任务 功能介绍 删除处理任务,支持删除“特征分析”任务和“数据处理”两大类任务。可通过指定路径参数“task_id”来删除某个具体任务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。 筛选数据 在标注
更新处理任务 功能介绍 更新处理任务,支持更新“特征分析”任务和“数据处理”两大类任务,仅支持更新任务的描述。可通过指定路径参数“task_id”来更新某个具体任务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK
查询处理任务详情 功能介绍 查询处理任务详情,支持查询“特征分析”任务和“数据处理”两大类任务。可通过指定路径参数“task_id”来查询某个具体任务的详情。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
profiling:单独对推理、训练Profiling性能数据进行算子调优分析,在分析完成后,给出相关分析说明到执行终端中,并生成“ma_advisor_profiling_**.html”文件到执行目录中,目前暂不支持同时分析多卡Profiling性能数据。 ma-advisor analyze
KMS密钥管理权限。本示例中使用“华南-广州”Region举例,所以需要配置DEW密钥管理权限。 (可选)配置智能边缘平台使用权限。ModelArts的边缘服务依赖智能边缘平台,要求配置Tenant Administrator权限。 注意:Tenant Administrator
tatus modelarts:dataset:getDataset - √ √ 表13 智能任务的细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 查询智能标注的样本列表 GET /v2/{project_id}/datasets/{dataset
成本和运维成本构成。 成本分配 ModelArts支持企业项目管理,可以由企业项目服务来管理同一账号下不同项目的成本。 成本分析 通过华为云费用账单来分析账号下的成本支出情况。 成本优化 长期使用的资源,建议客户使用更优惠的方式购买(包年包月);针对临时使用的资源,您可选择按需的资源规格,避免浪费。
版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。 原因分析 分析EulerOS内核是如何在不知情的情况下升级的: 首先查看当前操作系统内核。 [root@Server-ddff ~]# uname -r
写到K8S NodeCondtition中。同时,节点故障指标默认会上报到AOM,您可在AOM配置告警通知。 当发生节点异常时,在故障初步分析阶段,您可先按表1识别是否为亚健康并自助进行处理,若不是,则为故障,请联系客户经理发起维修流程(若无客户经理可提交工单)。 表1 节点故障类型定义
PRO的区别 ModelArts自动学习,提供了AI初学者,零编码、零AI基础情况下,可使用自动学习功能,开发用于图像分类、物体检测、预测分析、文本分类、声音分类等场景的模型。 而ModelArts PRO是一款为企业级AI应用打造的专业开发套件。用户可根据预置工作流生成指定场景
园区人员穿戴规范检测和物品摆放的无人巡检。 预测分析 预测分析项目,是一种针对结构化数据的模型自动训练应用,能够对结构化数据进行分类或者数据预测。可用于用户画像分析,实现精准营销。也可应用于制造设备预测性维护,根据设备实时数据的分析,进行故障识别。 声音分类 声音分类项目,是识别
支持各种部署场景,既能部署为云端的在线推理服务和批量推理任务,也能部署到端,边等各种设备。 一键部署,可以直接推送部署到边缘设备中,选择智能边缘节点,推送模型。 ModelArts基于Snt3高性能AI推理芯片的深度优化,具有PB级别的单日推理数据处理能力,支持发布云上推理的API百万个以上,推理网络时延毫秒。
创建AI应用成功后,部署服务报错,如何排查代码问题 问题现象 创建AI应用成功后,部署服务失败,如何定位是模型代码编写有问题。 原因分析 用户自定义镜像或者通过基础镜像导入的AI应用时,用户自己编写了很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。
space left 问题现象 创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。 原因分析 TensorFlow多节点任务会启动parameter server(简称ps)和worker两种角色,ps和worker会被调度到相同
果是NPU上全新开发的网络参考PyTorch迁移精度调优,排查溢出和精度问题。 理解GPU和NPU的构造以及运行的差别,有助于在迁移过程中分析问题并发挥NPU的优势。由于构造和运行机制的差别,整个迁移过程并非是完全平替,GPU在灵活性上是有其独特的优势的,而NPU上的执行目前还是