检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OBS并行文件系统中。 Summary数据上传到Notebook路径/home/ma-user/work/下的方式,请参见上传本地文件至JupyterLab。 Summary数据如果是通过OBS并行文件系统挂载到Notebook中,请将模型训练时产生的Summary文件先上传到O
在“新增访问密钥”弹窗中,填写该密钥的描述说明,单击“确定”。根据提示单击“立即下载”,下载密钥。密钥文件会直接保存到浏览器默认的下载文件夹中,文件名为“credentials.csv”,可打开文件查看访问密钥(Access Key Id和Secret Access Key)。 “proj
MindStudio-Insight提供时间线视图、内存、算子耗时、通信瓶颈分析等功能,借助于数据库支持超大性能数据处理,可以支持20GB的集群性能文件分析,并且能够支持大模型场景下的性能调优,相比于Chrometrace、tensorboard等工具提供了更优的功能和性能。 更多详细信息,请参见昇腾
clone Hugging Face上的模型,以SD模型为例。如果下载时若出现“SSL_ERROR_SYSCALL”报错,多重试几次即可。另外由于网络限制以及文件较大,下载可能很慢需要数个小时,如果重试多次还是失败,建议直接从网站下载大文件后上传到服务器/home目录的个人开发目
创建并管理工作空间 工作空间是白名单功能,如果有试用需求,请提工单申请权限。 背景信息 ModelArts的用户需要为不同的业务目标开发算法、管理和部署模型,此时可以创建多个工作空间,把不同应用开发过程的输出内容划分到不同工作空间中,便于管理和使用。 基于工作空间可以实现资源逻辑隔离、资源配额
API文档以及常用的Python编码,您可以参考本章节使用MoXing Framework的一些进阶用法。 读取完毕后将文件关闭 当读取OBS文件时,实际调用的是HTTP连接读取网络流,注意要记得在读取完毕后将文件关闭。为了防止忘记文件关闭操作,推荐使用with语句,在with语句退出时会自动调用mox.file.File对象的close()方法:
unreachable’ 原因分析 出现该问题的可能原因如下: 因为安全性问题,ModelArts内部训练机器不能访问外网。 处理方法 将pretrained改成false,提前下载好预训练模型,加载下载好的预训练模型位置即可,可参考如下代码。 import torch import torchvision
Notebook”中创建Notebook实例,在Terminal或ipynb文件中直接调用ModelArts SDK的接口。在Notebook中调用SDK,可直接参考接口说明,执行OBS管理、作业管理、模型管理和服务管理等操作。 ModelArts SDK支持在本地安装配置使用。使用时,需进行Session鉴权。
资源池 创建资源池失败 Standard资源池节点故障定位 资源池推理服务一直初始化中如何解决 专属资源池关联SFS Turbo显示异常
moxing framework的数据下载加速特性。加速特性适用场景为:文件数在100w~1000w的场景、单个大文件及文件大小大于20GB的场景。 登录ModelArts管理控制台,在左侧菜单栏中选择“模型训练 > 训练作业”,进入训练作业管理页面。 单击右上角“创建训练作业”
调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码,调用成功时无此字段。 error_solution String 调用失败时的提示解决信息,调用成功时无此字段。
目录下并发创建的文件数量是否过大,占用过多存储空间会出现inode耗尽的情况,导致空间不足。 请排查是否使用的是GPU资源。如果使用的是CPU规格的资源,“/cache”与代码目录共用10G,会造成内存不足,请更改为使用GPU资源。 请在代码中添加环境变量来解决。 import os
由于OBS允许同名的文件和文件夹(Unix操作系统不允许),如果存在同名的文件和文件夹,例如“obs://bucket_name/sub_dir_0/abc”,当调用mox.file.exists时,不论abc是文件还是文件夹,都会返回True。 判断一个OBS路径是否为文件夹,如果是则返回True,否则返回False。
查询标注团队的成员列表 创建标注团队的成员 批量删除标注团队成员 查询标注团队成员详情 更新标注团队成员 删除标注团队成员 查询数据集导入任务列表 创建导入任务 查询数据集导入任务的详情 查询数据集导出任务列表 创建数据集导出任务 查询数据集导出任务的状态 同步数据集 查询数据集同步任务的状态 查询智能标注的样本列表
used in loss computation. 原因分析 分布式Tensorflow不能使用“tf.variable”要使用“tf.get_variable”。 处理方法 请您将“启动文件”中的“tf.variable”替换为“tf.get_variable”。 父主题: 业务代码问题
“xxx.whl”文件无法安装,需要您按照如下步骤排查: 当出现“xxx.whl”文件无法安装,在启动文件中添加如下代码,查看当前pip命令支持的文件名和版本。 import pip print(pip.pep425tags.get_supported()) 获取到支持的文件名和版本如下:
调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码,调用成功时无此字段。 error_solution String 调用失败时的提示解决信息,调用成功时无此字段。
数据校验:对您的数据集的数据进行校验,是否存在数据异常。 物体检测:将发布好的数据集版本进行训练,生成对应的模型。 模型注册:将训练后的结果注册到模型管理中。 服务部署:将生成的模型部署为在线服务。 快速查找创建好的项目 在自动学习总览页,您可以通过搜索框,根据自动学习的属性类型(项目
数据校验:对您的数据集的数据进行校验,是否存在数据异常。 文本分类:将发布好的数据集版本进行训练,生成对应的模型。 模型注册:将训练后的结果注册到模型管理中。 服务部署:将生成的模型部署为在线服务。 快速查找创建好的项目 在自动学习总览页,您可以通过搜索框,根据自动学习的属性类型(项目
delArts中使用该镜像。 有两种方式来注册镜像。 方式一:使用ma-cli image register命令来注册镜像。注册命令会返回注册好的镜像信息,包括镜像id,name等,如下图所示。该命令的更多信息可参考镜像构建命令。 ma-cli image register --swr-path=swr