检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 问题现象 在使用pytorch启动多进程的时候,出现如下报错: RuntimeError: Cannot re-initialize CUDA in
专属资源池下的在线服务停止后,启动新的在线服务,提示资源不足 停止在线服务后,需要等待几分钟等待资源释放。 父主题: Standard资源池
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中,去升级了pytroch1.4的版本,导致之前在pytroch1.3跑通的代码报错如下: “Runtim
a-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本 (2)执行nvidia-smi失败,提示Failed
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
使用VS Code提交代码时弹出对话框提示用户名和用户邮箱配置错误 在VS Code环境中,执行Ctrl+Shift+P。 搜Python: Select Interpreter,选择对应的Python环境。 单击页面上方的“Terminal > New Terminal”,此时
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象 使用pandas读取csv数据表时,日志报出如下错误导致训练作业失败: pandas.errors.ParserError:
日志提示Custom op has no reg_op_name attr 问题现象 日志提示:Custom op has no reg_op_name attr。 图1 报错提示 原因分析 无。 处理方法 定义context时无需指定: context.ascend.provider
使用用户组02中任意一个子用户登录ModelArts管理控制台。在登录页面,请使用“IAM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。 验证ModelArts权限。 在左上角的服务列表中,选择ModelArts服务,进入ModelArts管理控制台。 在
AM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。 验证ModelArts权限。 在左上角选择区域,区域需与授权配置中的区域相同。 在ModelArts左侧菜单栏中,选择“开发环境>Notebook”,界面未提示权限不足,表明ModelArts的使用权限和委托授权配置成功。
connection to instance xxx: 'ssh' ...”如何解决? 问题现象 或 VS Code连接Notebook一直提示选择证书,且提示信息除标题外,都是乱码。选择证书后,如上图所示仍然没有反应且无法进行连接。 原因分析 当前环境未装OpenSSH或者OpenSSH未安装在默认路径下,详情请参考VS
现如下类似提示。 图1 内存不足提示样例1 运行中服务出现告警时,在事件中出现建议:内存不足,请增加内存。 图2 内存不足提示样例2 原因分析 部署或升级时出现该提示,可能原因是选择的计算节点规格内存太小,无法满足应用部署,请增大内存规格。 运行中服务告警中出现该提示,可能代码有
用户创建模型时构建镜像或导入文件失败 问题现象 用户创建模型时,构建镜像失败,失败日志中提示下载obs文件失败(Get object size from OBS failed!)。 图1 下载obs文件失败 用户创建模型时,事件提示:复制模型文件失败,请检查OBS权限是否正常(Failed to copy
Controlnet训练 使用文本提示词可以生成一副精美的画作,然而无论再怎么精细地使用提示词来指导模型,也无法描述清楚人物四肢的角度、背景中物体的位置、光线照射的角度,使用Controlnet可以通过图像特征来为扩散模型的生成过程提供更加精细控制的方式。 将Controlnet
Controlnet训练 使用文本提示词可以生成一副精美的画作,然而无论再怎么精细地使用提示词来指导模型,也无法描述清楚人物四肢的角度、背景中物体的位置、光线照射的角度,使用Controlnet可以通过图像特征来为扩散模型的生成过程提供更加精细控制的方式。 将Controlnet
命令行自动补全是指用户可以在Terminal中输入命令前缀通过Tab键自动提示支持的ma-cli命令。ma-cli自动补全功能需要手动在Terminal中激活。执行ma-cli auto-completion命令,用户根据提示的补全命令,复制并在当前Terminal中执行,就可以自动补全m
Standard提供了训练作业失败定位与分析功能,如果训练作业运行失败,ModelArts会自动识别导致作业失败的原因,在训练日志界面上给出提示。提示包括三部分:失败的可能原因、推荐的解决方案以及对应的日志(底色标红部分)。 图1 训练故障识别 ModelArts Standard会对
使用自定义镜像创建训练作业找不到启动文件 问题现象 使用自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命令的启动文件目录是否正确,具体操作如下:
训练输出的日志只保留3位有效数字,是否支持更改loss值? 在训练作业中,训练输出的日志只保留3位有效数字,当loss过小的时候,显示为0.000。具体日志如下: INFO:tensorflow:global_step/sec: 0.382191 INFO:tensorflow:step:
IdentityFile C:/Users/my.pem StrictHostKeyChecking no ForwardAgent yes 提示:因为SSH登录时会忽略known_hosts文件,有安全风险 父主题: VS Code使用技巧