检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
4096B。总共有三种大小:1024B、2048B、4096B) 创建文件越快,越容易触发。 处理方法 可以参照日志提示"write line error"文档进行修复。 如果是分布式作业有的节点有错误,有的节点正常,建议提工单请求隔离有问题的节点。 如果是触发了欧拉操作系统的限制,有如下建议措施。 分目录处理,减少单个目录文件量。
报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决? 问题现象 原因分析 密钥文件不存在于该路径下,或者该路径下密钥文件名被修改。 解决方法 重新选择密钥路径。 父主题: VS Code连接开发环境失败故障处理
的1和2有关,目录下文件数量比较大时会启动,使用方式是边用边释放) 处理方法 可以参照日志提示"write line error"文档进行修复。 如果是分布式作业有的节点有错误,有的节点正常,建议提工单请求隔离有问题的节点。 如果是触发了欧拉操作系统的限制,有如下建议措施。 分目录处理,减少单个目录文件量。
VSCode远程连接时卡顿,或Python调试插件无法使用如何处理? 问题现象 VSCode远程连接Notebook时,单击“VS Code接入”跳转至连接界面时一直卡顿,或Python调试插件无法使用。 图1 Python调试插件错误 原因分析 该问题通常由VS Code安装了第三方中文插件引起。
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决? 问题现象 原因分析 实例处于非运行状态。 解决方法 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如
创建项目时,如何快速创建OBS桶及文件夹? 在创建项目时需要选择训练数据路径,本章节将指导您如何在选择训练数据路径时,快速创建OBS桶和OBS文件夹。 在创建自动学习项目页面,单击数据集输入位置右侧的“”按钮,进入“数据集输入位置”对话框。 单击“新建对象存储服务(OBS)桶”,
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决? 问题现象 原因分析 原因分析一:实例配置的白名单IP与本地网络访问IP不符。 解决方法:请修改白名单为本地网络访问IP或者去掉白名单配置。
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决? 问题现象 VS Code连接开发环境时报错“Bad owner or permissions on C:\Users\Administrator/
使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决? 问题现象 MobaXterm成功连接到开发环境后,过一段时间会自动断开。 可能原因 配置MobaXterm工具时,没有勾选“SSH keepalive”或专业版MobaXterm工具的“Stop server
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决? 问题现象 镜像保存时报错“The container size (30G) is greater than the threshold
be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决? 问题现象 或 VS Code连接Notebook一直提示选择证书,且提示信息除标题外,都是乱码。选择证书后,如上图所示仍然没有反应且无法进行连接。
报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决? 问题现象 或 原因分析 Notebook实例重新启动后,公钥发生变化,OpenSSH核对公钥发出警告。 解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o
文档导读 本文档指导您如何安装和配置开发环境、如何通过调用ModelArts SDK提供的接口函数进行二次开发。 章节 内容 SDK简介 简要介绍ModelArts SDK的概念。 快速开始 介绍如何使用ModelArts SDK进行二次开发。 (可选)本地服务器安装ModelArts
报错“Load key "C:/Users/xx/test1/xxx.pem": invalid format”如何解决? 问题现象 原因分析 密钥文件内容不正确或格式不正确。 解决方法 请使用正确的密钥文件进行远程访问,如果本地没有正确的密钥文件或文件已损坏,可以尝试: 登录控制台,搜索“数据加密服务
用户自定义镜像自建的conda环境会查到一些额外的包,影响用户程序,如何解决? 问题现象 用户的自定义镜像运行在Notebook里会查到一些额外的pip包。如下图所示,左侧为自定义镜像运行在本地环境,右侧为运行在Notebook里。 可能原因 Notebook自带moxing、m
install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决? 问题现象 或 原因分析 可能为/home/ma-user/work磁盘空间不足。 解决方法 删除/home/ma-user/work路径下无用文件。
保存训练过程记录的日志LOG文件。 Step3 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。 图4 开启故障重启 Step4 其他配置 选择用户自己的专属资源池,以及规格与节点数。本次qwenvl模型选用
默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。 图2 开启故障重启 Step5 其他配置 选择用户自己的专属资源池,以及规格与节点数。本次qwenvl模型选用
默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。 图2 开启故障重启 Step5 其他配置 选择用户自己的专属资源池,以及规格与节点数。本次qwenvl模型选用
sh文件。具体为删除install.sh的第43行 "git cherrypick 171ba0b3"。该问题会导致代码安装失败,会在后续版本修复。 代码上传至OBS 将AscendSpeed代码包AscendCloud-3rdLLM-905-xxx.zip在本地解压缩后,将llm_train文件上传至OBS中。