检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
权限问题 训练作业访问OBS时,日志提示“stat:403 reason:Forbidden” 日志提示"Permission denied" 父主题: 训练作业
JupyterLab插件故障 git插件密码失效如何解决? 父主题: 开发环境(新版Notebook)
训练作业性能问题 训练作业性能降低 父主题: 训练作业
模型发布 模型发布失败 父主题: 自动学习
VS Code连接开发环境失败故障处理 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 VS Code连接开发环境失败时的排查方法
云上迁移适配故障 无法导入模块 训练作业日志中提示“No module named .*” 如何安装第三方包,安装报错的处理方法 下载代码目录失败 训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数,日志报错
资源池 创建资源池失败 Standard资源池节点故障定位 资源池推理服务一直初始化中如何解决 专属资源池关联SFS Turbo显示异常
模型管理 创建模型失败,如何定位和处理问题? 导入模型提示该账号受限或者没有操作权限 用户创建模型时构建镜像或导入文件失败 创建模型时,OBS文件目录对应镜像里面的目录结构是什么样的? 通过OBS导入模型时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志 通过O
API/SDK 安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” ModelArts SDK下载文件目标路径设置为文件名,部署服务时报错 调用API创建训练作业,训练作业异常 用户执行huaweicloud
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GPU相关问题 业务代码问题 预置算法运行故障 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题 Ascend相关问题
模型训练 自动学习训练作业失败 父主题: 自动学习
其他故障 Notebook中无法打开“checkpoints”文件夹 创建新版Notebook无法使用已购买的专属资源池,如何解决? 在Notebook中使用tensorboard命令打开日志文件报错Permission denied 父主题: 开发环境
initialization:CUDA unknown error 使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA
代码运行故障 Notebook运行代码报错,在'/tmp'中到不到文件 Notebook无法执行代码,如何处理? 运行训练代码,出现dead kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 如何处理使用opencv.imshow造成的内核崩溃?
Lite Server使用前必读 Lite Server使用流程 Lite Server高危操作一览表 Lite Server算力资源和镜像版本配套关系
通过团队标注方式标注数据 团队标注使用流程 创建和管理团队 创建团队标注任务 审核并验收团队标注任务结果 管理团队和团队成员 父主题: 标注ModelArts数据集中的数据
处理ModelArts数据集中的数据 数据处理场景介绍 创建ModelArts数据校验任务 创建ModelArts数据清洗任务 创建ModelArts数据选择任务 创建ModelArts数据增强任务 管理和查看数据处理任务 父主题: 数据准备与处理
导出ModelArts数据集中的数据 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。 目前只有“图像分类”、“物体检测”、“图像分割”类型的数据集支持导出功能。 “图像分类”只支持导出txt格式的标注文件。
模型训练高可靠性 训练作业容错检查 训练日志失败分析 训练作业卡死检测 训练作业重调度 设置断点续训练 设置无条件自动重启 设置训练故障优雅退出 父主题: 使用ModelArts Standard训练模型
分布式模型训练 分布式训练功能介绍 创建单机多卡的分布式训练(DataParallel) 创建多机多卡的分布式训练(DistributedDataParallel) 示例:创建DDP分布式训练(PyTorch+GPU) 示例:创建DDP分布式训练(PyTorch+NPU) 父主题: