检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
BS中读取文件,导致训练过程一直在等待文件读取,效率低。 解决方法 建议将海量小文件,在本地压缩打包。例如打包成.zip格式。 将此压缩后的文件上传至OBS。 训练时,可直接从OBS下载此压缩文件至/cache目录。此操作仅需执行一次,无需训练过程反复与OBS交互导致训练效率低。
进行了断开操作,SSH默认配置中不存在超时主动断连的动作,但是防火墙会关闭超时空闲连接(参考:http://bluebiu.com/blog/linux-ssh-session-alive.html),后台的实例运行是一直稳定的,重连即可再次连上。 解决方法 如果想保持长时间连接
每个资源池至少需要有一个节点池,当只有一个节点池时不支持删除。 查看节点池的存储配置 在节点池管理的更新页面,可以查看该节点池配置的系统盘、容器盘或数据盘的磁盘类型、大小、数量、写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。 在Lite资源池的扩缩容页面,也可以查看节点池的存储配置信息。 查找搜索节点池 在节点
运行中服务出现告警时,需要分析是您的代码是否出现漏洞导致内存溢出、是否因为业务使用量太大需要更多的内存。如果因业务原因需要更多内存,请升级在线服务选择更大内存规格的计算节点。 父主题: 服务部署
数据集版本ID。当导出数据集某一版本的数据时,需要指定该参数。 with_column_header 否 Boolean 导出时是否将列名写到CSV文件的第一行,对于表格数据集有效。可选值如下: true:导出时将列名写到CSV文件的第一行(默认值) false:导出时不将列名写到CSV文件的第一行 表3
可通过总览页面,快速判断是否有其他模块的作业或实例在运行中,并进入到相关作业或实例上,判断是否使用了专属资源池。如判断相关作业或实例可停止,则可以停止,释放出更多的资源。 图1 总览 单击进入专属资源池详情页面,查看作业列表。 观察队头是否有其他作业在排队,如果已有作业在排队,则新建的作业需要继续等待。
Step1 创建用户组并加入用户 主用户账号下面可以创建多个子账号,并对子账号的权限进行分组管理。此步骤介绍如何创建用户组、子账号、并将子账号加入用户组中。 主用户登录管理控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入IAM服务。 图1 统一身份认证 创建用户组。
查询智能标注的样本列表 查询单个智能标注样本的信息 分页查询智能任务列表 启动智能任务 获取智能任务的信息 停止智能任务 查询处理任务列表 创建处理任务 查询数据处理的算法类别 查询处理任务详情 更新处理任务 删除处理任务 查询数据处理任务的版本列表 创建数据处理任务版本 查询数据处理任务的版本详情
删除算法 获取支持的超参搜索算法 创建训练作业 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的运行指标 查询训练作业列表 查询超参搜索所有trial的结果 查询超参搜索某个trial的结果
训练作业常用文件路径是什么? 如何安装C++的依赖库? 训练作业中如何判断文件夹是否复制完毕? 如何在训练中加载部分训练好的参数? 训练作业的启动文件如何获取训练作业中的参数? 训练作业中使用os.system('cd xxx')无法进入相应的文件夹? 训练作业如何调用shell脚本,是否可以执行
导入数据到ModelArts数据集 处理ModelArts数据集中的数据 标注ModelArts数据集中的数据 发布ModelArts数据集中的数据版本 分析ModelArts数据集中的数据特征 导出ModelArts数据集中的数据
认值。 表1 预置的环境变量 环境变量 说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX 系统设置的默认值为3,表示使用RoCE v2协议。 NCCL_IB_TC 系统设置的默认值为128,表示数据包走交换机的队列4,队列4使用PFC流控机制来保证网络是无损的。
用户授予OBS的系统权限。子用户的IAM权限是由其主用户设置的,如果主用户没有赋予OBS的putObjectAcl权限即会导致创建模型构建失败。 处理方法 了解ModelArts依赖的OBS权限自定义策略,请参见ModelArts依赖的OBS权限自定义策略样例。 在统一身份认证服
查询Notebook实例详情 更新Notebook实例 删除Notebook实例 通过运行的实例保存成容器镜像 查询Notebook支持的有效规格列表 查询Notebook支持的可切换规格列表 查询运行中的Notebook可用时长 Notebook时长续约 启动Notebook实例 停止Notebook实例
Gallery AI Gallery的入口在哪里 在AI Gallery订阅商品失败怎么办? 在AI Gallery订阅的数据集可以在SDK中使用吗? AI Gallery支持哪些区域? AI Gallery下载数据到OBS中使用的带宽是用户自己的还是华为云的?
3567:用户只能访问自己账号下的obs目录,ModelArts在读取其他用户obs下的数据时,需要用户委托权限,没有创建委托,就没有权限使用其他用户obs中的数据。 登录ModelArts控制台,管理控制台,在左侧导航栏中选择“权限管理”,单击“查看权限”,检查是否配置了obs的委托权限。 图1
运行中”时,单击“操作”列中的“打开”,进入“JupyterLab Notebook”开发页面。 在JupyterLab的“Launcher”页签下,以TensorFlow为例,您可以单击TensorFlow,创建一个用于编码的文件。 图1 选择不同的AI引擎 文件创建完成后,系
pbtxt。 原因分析 算法要求标注框为矩形标注框,提供的数据标注为非矩形,因此导致该错误发生。 处理方法 请您将数据的标注改为矩形的标注框。 建议与总结 在训练作业前,推荐您检查数据的标注是否符合算法要求(如物体检测类算法的标注框为矩形标注框)。 父主题: 预置算法运行故障
查看作业详情 如何查看训练作业资源占用情况? 如何访问训练作业的后台? 两个训练作业的模型都保存在容器相同的目录下是否有冲突? 训练输出的日志只保留3位有效数字,是否支持更改loss值? 训练好的模型是否可以下载或迁移到其他账号?如何获取下载路径? 父主题: Standard训练作业
xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保证被导入的module中有“__init__.py”存在,创建“module_dir”的“__init__.py”,如原因分析中的结构所示。