检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
上传OBS的文件规范: 文件名规范:不能有+、空格、制表符。 如不需要提前上传训练数据,请创建一个空文件夹用于存放工程后期生成的文件。如:“/bucketName/data-cat”。 如需要提前上传待标注的图片,请创建一个空文件夹,然后将图片文件保存在该文件夹下,图片的目录结构如
阶段。 资源利用率:在作业进程IO没有变化的情况下,采集一定时间段内的GPU利用率或NPU利用率,并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化,则判定作业卡死。 系统预置了卡死检测的环境变量“MA_HANG_DETECT_TI
在线服务”,单击生成的在线服务名称,即可进入在线服务详情页。 在服务详情页,单击选择“预测”页签。 图4 上传预测图片 单击“上传”,选择一张需要预测的图片,单击“预测”,即可在右边的预测结果显示区查看您的预测结果。 图5 预测样例图 图6 查看预测结果 本案例中数据和算法生成的模型仅适用
在线服务”,单击生成的在线服务名称,即可进入在线服务详情页。 在服务详情页,单击选择“预测”页签。 图4 上传预测图片 单击“上传”,选择一张需要预测的图片,单击“预测”,即可在右边的预测结果显示区查看您的预测结果。 图5 预测样例图 图6 查看预测结果 本案例中数据和算法生成的模型仅适用
DUMP模型转换中间图。 设置DUMP中间图环境变量。 # 1:表示dump图全量内容。2:表示不dump权重数据的基础图。3:表示只dump节点关系的精简图。 export DUMP_GE_GRAPH=2 # 1:表示dump图所有图。2:表示dump除子图外的所有图。3:表示只dump最后一张图。
如果OBS路径符合要求,请您按照服务具体情况执行3。 自动学习项目不同导致的失败原因可能不同。 图像识别训练失败请检查是否存在损坏图片,如有请进行替换或删除。 物体检测训练失败请检查数据集标注的方式是否正确,目前自动学习仅支持矩形标注。 预测分析训练失败请检查标签列的选取。标签列目前支持离散和连续型数据,只能选择一列。
APPcode认证是一种简易的API调用认证方式,通过在HTTP请求头中添加参数X-Apig-AppCode来实现身份认证,无需复杂的签名过程,适合于客户端环境安全可控的场景,如内网系统之间的API调用。在ModelArts中,支持在部署在线服务时开启AppCode认证(部署模型为在线服务中的“支持A
部署后的AI应用是如何收费的? ModelArts支持将AI应用按照业务需求部署为服务。训练类型不同,部署后的计费方式不同。 将AI应用部署为服务时,根据数据集大小评估模型的计算节点个数,根据实际编码情况选择计算模式。 具体计费方式请参见ModelArts产品价格详情。部署AI应
on, 即文本、图片、json格式。 data 是 String 针对files、images类型的数据, 该参数为其本地路径,如 : data = "/home/ma-user/work/test.jpg" 针对json类型的数据, 该参数可以是其本地路径,如: data =
以及是否存在计算快慢卡和下发快慢卡。如下图所示,可以看到8号卡的计算耗时明显大于其他卡,因此8号卡的“短板效应”将会拖慢集群的整体训练速度,后续性能分析需要重点关注8号卡的计算维度。 图4 多卡不同step计算、下发和通信耗时统计值 图5 多卡不同step通信带宽统计值 环境变量Environment
开发Workflow的核心概念介绍 Workflow Workflow是一个有向无环图(Directed Acyclic Graph,DAG),由节点和节点之间的关系描述组成。 图1 Workflow介绍 节点与节点之间的依赖关系由单箭头的线段来表示,依赖关系决定了节点的执行顺序,示例
被用户标注为某个分类的所有样本中,模型正确预测为该分类的样本比率,反映模型对正样本的识别能力。 precision:精确率 被模型预测为某个分类的所有样本中,模型正确预测的样本比率,反映模型对负样本的区分能力。 accuracy:准确率 所有样本中,模型正确预测的样本比率,反映模型对样本整体的识别能力。 f1:F1值
ModelArts训练好后的模型如何获取? 使用自动学习产生的模型只能在ModelArts上部署上线,无法下载至本地使用。 使用自定义算法或者订阅算法训练生成的模型,会存储至用户指定的OBS路径中,供用户下载。 父主题: 功能咨询
检查依赖包是否存在 检查依赖包路径是否能被识别 检查训练作业使用的资源规格是否正确 建议与总结 检查依赖包是否存在 如果依赖包不存在,您可以使用以下两种方式完成依赖包的安装。 方式一(推荐使用):在创建我的算法时,需要在“代码目录”下放置相应的文件或安装包。 请根据依赖包的类型,在代码目录下放置对应文件:
Standard数据管理 添加图片时,图片大小有限制吗? 数据集图片无法显示,如何解决? 如何将多个物体检测的数据集合并成一个数据集? 导入数据集失败 表格类型的数据集如何标注 本地标注的数据,导入ModelArts需要做什么? 为什么通过Manifest文件导入失败? 标注结果存储在哪里?
掉卡 NPU卡丢失。 节点规格的NPU卡数和k8sNode中可调度卡数不一致。 可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 NT_NPU_OTHER NPU 其他 NPU其他错误。 检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 发起维修流程。
用户自定义镜像或者通过基础镜像导入的模型时,用户自己编写了很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。 处理方法 服务部署失败后,进入服务详情界面,查看服务部署日志,明确服务部署失败原因(用户代码输出需要使用标准输入输出函数,否则输出的内容不会呈现到前
背景信息 目前只有“图像分类”和“物体检测”类型的标注作业支持智能标注功能。 启动智能标注时,需标注作业存在至少2种标签,且每种标签已标注的图片不少于5张。 启动智能标注时,必须存在未标注图片。 启动智能标注前,保证当前系统中不存在正在进行中的智能标注任务。 检查用于标注的图片数据,确保
如何关闭Mox的warmup 问题现象 训练作业mox的Tensorflow版本在运行的时候,会先执行“50steps” 4次,然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch(warmup),由于网络的参数是随机初始化的,如果一开始就采用较大的学习率会出现数值不稳定的问题,这是使用warm
训练作业的启动文件如何获取训练作业中的参数? 训练作业参数有两种来源,包括后台自动生成的参数和用户手动输入的参数。具体获取方式如下: 创建训练作业时,“输入”支持配置训练的输入参数名称(一般设置为“data_url”),以及输入数据的存储位置,“输出”支持配置训练的输出参数名称(