检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Linux上安装配置Grafana 适用场景 本章节适用于在Linux操作系统的PC中安装配置Grafana。 前提条件 一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本
训练过程读取数据 在ModelArts上训练模型,输入输出数据如何配置? 如何提升训练效率,同时减少与OBS的交互? 大量数据文件,训练过程中读取数据效率低? 使用Moxing时如何定义路径变量? 父主题: Standard训练作业
确读取,可能报错找不到路径。 原因分析 Notebook是Linux环境,和Windows环境下的换行格式不同,Windows下是CRLF,而Linux下是LF。 解决方法 可以在Notebook中转换文件格式为Linux格式。 shell语言: dos2unix 文件名 父主题:
确读取,可能报错找不到路径。 原因分析 Notebook是Linux环境,和Windows环境下的换行格式不同,Windows下是CRLF,而Linux下是LF。 解决方法 可以在Notebook中转换文件格式为Linux格式。 shell语言: dos2unix 文件名 父主题:
大量数据文件,训练过程中读取数据效率低? 当数据集存在较多数据文件(即海量小文件),数据存储在OBS中,训练过程需反复从OBS中读取文件,导致训练过程一直在等待文件读取,效率低。 解决方法 建议将海量小文件,在本地压缩打包。例如打包成.zip格式。 将此压缩后的文件上传至OBS。
远程连接执行前,会自动在(Windows:C:\Users\{{user}}\.ssh或者downloads;Mac/Linux: Users/{{user}}/.ssh或者downloads)目录下根据密钥名称查找密钥文件。 如果找到则直接使用该密钥打开新窗口并尝试连接远程实例,此时无需选择密钥。 图7 远程连接Notebook实例
迁移过程使用工具概览 基础的开发工具在迁移的预置镜像和开发环境中都已经进行预置,用户原则上不需要重新安装和下载,如果预置的版本不满足要求,用户可以执行下载和安装与覆盖操作。 模型自动转换评估工具Tailor 为了简化用户使用,ModelArts提供了Tailor工具,将模型转换、
训练过程中无法找到so文件 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致训练失败: libcudart.so.9.0 cannot open shared object file no such file or directory 原因分析 编译生成s
原因分析二:当操作系统为macOS/Linux时,可能是密钥文件或放置密钥的文件夹权限问题,请参考解决方法二处理。 解决方法 解决方法一: 请将密钥放在如下路径或其子路径下: Windows:C:\Users\{{user}} macOS/Linux: Users/{{user}} 解决方法二:
原因分析二:当操作系统为macOS/Linux时,可能是密钥文件或放置密钥的文件夹权限问题,请参考解决方法二处理。 解决方法 解决方法一: 请将密钥放在如下路径或其子路径下: Windows:C:\Users\{{user}} macOS/Linux: Users/{{user}} 解决方法二:
copy_parallel(input_storage,'obs://dyyolov8/yolov5_test/yolov5-7.0/datasets') 父主题: 训练过程读取数据
T。 查看可用IP数量(可选) 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“网络”页签,单击网络列表中某个网络操作列的“更多 > 查看可用IP数量”,可以看到该网络所在的网段中可以使用的IP地址数量。 图3 查看可用IP数量
在创建训练作业时,填写输入路径和输出路径。 训练输入选择对应的OBS路径或者数据集路径,训练输出选择对应的OBS路径。 父主题: 训练过程读取数据
如何解决训练过程中出现的cudaCheckError错误? 问题现象 Notebook中,运行训练代码出现如下错误。 cudaCheckError() failed : no kernel image is available for execution on the device
期与训练作业生命周期相同,当训练作业运行结束以后“/cache”目录下面所有内容会被清空,腾出空间,供下一次训练作业使用。因此,可以在训练过程中将数据从OBS复制到“/cache”目录,然后每次从“/cache”目录读取数据,直到训练结束。训练结束以后“/cache”目录的内容会自动被清空。
如何解决训练过程中出现的cudaCheckError错误? 问题现象 Notebook中,运行训练代码出现如下错误。 cudaCheckError() failed : no kernel image is available for execution on the device
查询服务事件日志 功能介绍 查询服务事件日志,包含服务的操作记录及部署过程中的关键动作、部署失败原因。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1
查询API 功能介绍 查询指定API详情。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/app-auth/{service_id}/apis/{api_id}
OBS复制过程中提示“BrokenPipeError: Broken pipe” 问题现象 训练作业在使用MoXing复制数据时,日志中出现报错“BrokenPipeError: [Errno xx] Broken pipe”。 原因分析 出现该问题的可能原因如下: 在大规模分布
查询镜像详情 功能介绍 查询镜像详情。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/images/{id}