-
TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts
TensorFlow-1.8作业连接OBS时反复出现提示错误 问题现象 基于TensorFlow-1.8启动训练作业,并在代码中使用“tf.gfile”模块连接OBS,启动训练作业后会频繁打印如下日志信息: Connection has been released. Continuing
-
自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts
自定义镜像导入配置运行时依赖无效 问题现象 通过API接口选择自定义镜像导入创建AI应用,配置了运行时依赖,没有正常安装pip依赖包。 原因分析 自定义镜像导入不支持配置运行时依赖,系统不会自动安装所需要的pip依赖包。 处理方法 重新构建镜像。 在构建镜像的dockerfile
-
ML Studio简介 - AI开发平台ModelArts
MLS为AI开发者提供可视化的操作界面来编排机器学习模型的训练、评估和预测的过程,无缝衔接数据分析和预测应用,为用户的数据挖掘分析业务提供易用、高效、高性能的工具。 了解概念 算子 在MLS中,算子是一种基本功能单元,以ipynb格式保存,实质上是一段代码,对应Notebook中的一个Cell。
-
ModelArts环境挂载目录说明 - AI开发平台ModelArts
/home/ma-user/work/ 否 客户数据的持久化目录。 /data 否 客户PFS的挂载目录。 /cache 否 裸机规格时支持,用于挂载宿主机NVMe的硬盘。 /train-worker1-log 否 兼容训练任务调试过程。 /dev/shm 否 用于PyTorch引擎加速。 /modelarts
-
通过OBS导入AI应用时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志? - AI开发平台ModelArts
通过OBS导入AI应用时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志? 问题现象 用户通过OBS导入AI应用时,选择使用基础镜像,用户自己编写了部分推理代码实现自己的推理逻辑,出现故障后希望通过故障日志排查定位故障原因,但是通过logger打印日志无法在在线服务的日志中查看到部分内容。
-
查看训练作业详情 - AI开发平台ModelArts
如果昇腾以及MindSpore框架的训练作业运行失败,您可以在作业状态的提示信息中,单击昇腾论坛进行发帖提问或者搜索问题。 非昇腾规格的作业运行失败后,您可以在作业状态的提示信息中,单击ModelArts开发者论坛进行发帖或者搜索已有问题。 “创建时间” 记录训练作业创建时间。 “运行时长” 记录训练作业运行时长。 “重启次数”
-
通过自定义镜像创建AI应用失败 - AI开发平台ModelArts
通过自定义镜像创建AI应用失败 问题现象 通过用户自定义镜像创建AI应用失败。 原因分析 可能原因如下: 导入AI应用使用的镜像地址不合法或实际镜像不存在 用户给ModelArts的委托中没有SWR相关操作权限 用户为子账号,没有主账号SWR的权限 使用的是非自己账号的镜像 使用的镜像为公开镜像
-
moxing.tensorflow是否包含整个TensorFlow,如何对生成的checkpoint进行本地Fine Tune? - AI开发平台ModelArts
moxing.tensorflow是否包含整个TensorFlow,如何对生成的checkpoint进行本地Fine Tune? 问题现象 使用MoXing训练模型,“global_step”放在Adam名称范围下,而非MoXing代码中没有Adam名称范围,如图1所示。其中1为
-
批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts
批量服务输入/输出obs目录不存在或者权限不足 问题现象 输入输出目录不存在,报如下错误 "error_code": "ModelArts.3551", "error_msg": "OBS path xxxx does not exist." 当访问目录权限不足时,报如下错误 "error_code":
-
边缘服务部署失败 - AI开发平台ModelArts
边缘服务部署失败 问题现象 部署边缘服务时,出现“异常”状态。 原因分析 部署边缘服务时,使用到IEF纳管的边缘节点,就需要用户给ModelArts的委托赋予Tenant Administrator权限,否则将无法成功部署边缘服务。具体可参见IEF的权限说明。 处理方法 在Mod
-
通过OBS创建AI应用时,构建日志中提示pip下载包失败 - AI开发平台ModelArts
通过OBS创建AI应用时,构建日志中提示pip下载包失败 问题现象 通过OBS创建AI应用构建失败,查看构建日志,提示pip下载包失败。如下载numpy 1.16版本失败。 原因分析 一般下载包失败时,可能有如下几个原因: pip源中不存在该包,当前默认pip源为pypi.org中的包,请在pypi
-
在ModelArts镜像管理注册镜像报错ModelArts.6787 - AI开发平台ModelArts
在ModelArts镜像管理注册镜像报错ModelArts.6787 问题现象 在“镜像管理”界面注册镜像时报错“ModelArts.6787:镜像***无法使用,在SWR路径下***无法找到指定镜像,请在SWR控制台检查镜像及访问权限配置,或使用其他镜像并重试”。 原因分析 报错主要有如下原因:
-
语音内容 - AI开发平台ModelArts
的“未标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。 标注音频
-
数据处理 - AI开发平台ModelArts
ModelArts提供了四种基本的数据处理功能: 数据校验:帮助AI开发者提前识别数据中的不合法数据,如已损坏数据、不合格数据等,有效防止数据噪声造成的算法精度下降或者训练失败问题。 数据清洗:在数据校验的基础上,对数据进行一致性检查,处理一些无效值。 数据选择:在AI开发过程中,采集的数据可能存在大量重复数据,重复
-
免费体验自动学习 - AI开发平台ModelArts
自动学习训练免费规格用于使用体验,训练作业会在1小时后自动停止(不包括模型发布时间),因此建议设置最大训练时长为1小时。 限时免费的规格,性能有限,如果您的数据量较大,或者训练时长会超过1小时,建议选择收费的计算规格用于模型训练。 免费规格的资源是有限的,当使用人数较多时,会出现
-
选择标签列 - AI开发平台ModelArts
若标签列为枚举型数据,数据类型应选择“离散值”,预测分析将训练分类模型。 若标签列为数值型连续数据,数据类型应选择“连续数值”,预测分析将训练回归模型。 分类问题(离散值)在模型训练完成后,评估结果会展现召回率(Recall)、精确率(Precision)、准确率(Accuracy)及F1值(F1 Score)。
-
AI Gallery简介 - AI开发平台ModelArts
下架后,已发布资产仅发布者可见。已经被订阅的资产,即便资产下架后,基于配额资源的约束,仍然可有效使用该资产,不会因为该资产的下架而产生使用问题。 资产介绍 模型:共享了用户本地上传的模型,以及从ModelArts发布到AI Gallery的算法、Workflow和AI应用。 数据
-
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts
使用自定义镜像创建训练作业找不到启动文件 问题现象 使用自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命令的启动文件目录是否正确,具体操作如下:
-
训练过程中无法找到so文件 - AI开发平台ModelArts
训练过程中无法找到so文件 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致训练失败: libcudart.so.9.0 cannot open shared object file no such file or directory 原因分析 编译生成s
-
ModelArts资源池管理功能全面升级 - AI开发平台ModelArts
多个资源池共享一个网络等一系列新增功能,未来还会有更多新增功能将不断开放。 如果使用中遇到问题,如何获得帮助或提出反馈? 与ModelArts的其他功能一致,您可以随时在产品的侧边栏反馈问题或获取帮助。同时也建议您阅读本文档的后续章节,以便进一步了解ModelArts专属资源池相