检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器,当用户在云服务器页面修改了裸金属服务器状态后,您可通过“同步”功能,同步其状态至ModelArts。 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“节点”列表页面。
Server服务器创建时绑定的虚拟私有云,单击链接可跳转到虚拟私有云详情页。 裸金属服务器 Lite Server服务器为一台裸金属服务器,单击链接可跳转至对应弹性裸金属服务器的详情页。 镜像 Lite Server服务器的镜像。 创建时间 Lite Server服务器的创建时间。
附录:config.json文件 config.json文件用于推理服务启动时,需要修改以下参数,2台机器的每个容器中config.json文件内容一致。 ipAddress:主节点IP地址,即rank_table_file.json文件中的server_id。 manageme
nal的文件和OBS的文件之间的关系是什么? JupyterLab目录的文件与Terminal中work目录下的文件相同。即用户在Notebook中新建的,或者是从OBS目录中同步的文件。 挂载OBS存储的Notebook,JupyterLab目录的文件可以与OBS的文件进行同步
认信息无误,然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。 停止服务器为“强制关机”方式,会中断您的业务,请确保服务器上的文件已保存。 父主题: Lite Server资源管理
下载多个文件 根据文件名下载文件 在服务器执行如下命令,将待下载的文件名枚举出来即可从AI Gallery仓库依次下载多个文件到云服务器的缓存目录下。 gallery-cli download {repo_id} {文件名} {文件名} 其中,“repo_id”如何获取,文件名如何获取。
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中,去升级了pytroch1.4的版本,导致之前在pytroch1.3跑通的代码报错如下: “Runtim
name/dir1/') 示例代码执行后,本地源文件“file1.txt”被上传至“bucket-name”桶的“dir1”文件夹下,路径为“obs://bucket-name/dir1/file1.txt”。其中,桶名称和文件夹的名称均可以按照业务需求自定义。 参数说明 表1
解析Pascal VOC文件 解析xml文件支持本地和OBS,如果是OBS,需要Session信息。 PascalVoc.parse_xml(xml_file_path, session=None) 示例代码 指定xml路径,通过调用parse_xml来解析获取xml文件的信息。 from
Linux下是LF。 解决方法 可以在Notebook中转换文件格式为Linux格式。 shell语言: dos2unix 文件名 父主题: 代码运行故障
Lite Server资源管理 查看Lite Server服务器详情 启动或停止Lite Server服务器 同步Lite Server服务器状态 切换Lite Server服务器操作系统 监控Lite Server资源 NPU日志收集上传 释放Lite Server资源
训练过程中无法找到so文件 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致训练失败: libcudart.so.9.0 cannot open shared object file no such file or directory 原因分析 编译生成so文件的cuda版本与训练作业的cuda版本不一致。
在notebook调试用户代码,并找出问题的代码段。 通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。, 通过训练日志排查问题 通过日志判断出问题的代码范围。 修改代码,在问题代码段添加打印,输出更详细的日志信息。 再次运行作业,判断出问题的代码段。 父主题: 业务代码问题
出现内存溢出的情况,用户可参考表1进行配置。 图4 选择资源池规格 作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。 最后,提交训练作业,训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题:
新的训练方式将统一管理训练日志、训练结果和训练配置,使用yaml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令
原因分析及处理方法 查看训练作业的“日志”,出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。 原因:Moxing在进行文件复制时,未找到train_data_obs目录。
切换Lite Server服务器操作系统 场景描述 Lite Server为一台弹性裸金属服务器,您可以使用BMS服务提供的切换操作系统功能,对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式: 在BMS控制台切换操作系统 使用BMS Go SDK的方式切换操作系统
哪里可以了解Atlas800训练服务器硬件相关内容 场景描述 本文提供Atlas800训练服务器硬件相关指南,包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+Sn
on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。 触发条件和下面的因素有关: 文件名越长,文件数量的上限越小 blocksize越小,文件数量的上限越小。( blocksize,系统默认