检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练过程读取数据 在ModelArts上训练模型,输入输出数据如何配置? 如何提升训练效率,同时减少与OBS的交互? 大量数据文件,训练过程中读取数据效率低? 使用Moxing时如何定义路径变量? 父主题: Standard训练作业
VS Code连接开发环境失败常见问题 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 VS Code连接开发环境失败时的排查方法
CodeLab 如何将git clone的py文件变为ipynb文件 Notebook里面运行的实例,如果重启,数据集会丢失么? Jupyter可以安装插件吗? 是否支持在CodeLab中使用昇腾的卡进行训练? 如何在CodeLab上安装依赖? 父主题: Standard Notebook
在Notebook中使用自定义镜像常见问题 不在同一个主账号下,如何使用他人的自定义镜像创建Notebook? 父主题: Standard Notebook
Lite Cluster Cluster资源池如何进行NCCl Test?
PyCharm Toolkit使用 安装ToolKit工具时出现错误,如何处理? PyCharm ToolKit工具中Edit Credential时,出现错误 为什么无法启动训练? 提交训练作业时,出现xxx isn't existed in train_version错误 提交训练作业报错“Invalid
Lite Server GPU A系列裸金属服务器如何进行RoCE性能带宽测试? GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic? 如何禁止Ubuntu 20.04内核自动升级?
报错“The VS Code Server failed to start”如何解决? 问题现象 解决方法 检查VS Code版本是否为1.78.2或更高版本,如果是,请查看Remote-SSH版本,若低于v0.76.1,请升级Remote-SSH。 打开命令面板(Windows:
OBS操作相关故障 读取文件报错,如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止 保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError:
硬盘限制故障 下载或读取文件报错,提示超时、无剩余空间 复制数据至容器中空间不足 Tensorflow多节点作业下载数据到/cache显示No space left 日志文件的大小达到限制 日志提示"write line error" 日志提示“No space left on device”
外网访问限制 日志提示“ Network is unreachable” 运行训练作业时提示URL连接超时 父主题: 训练作业
预置算法运行故障 日志提示“label_map.pbtxt cannot be found” 日志提示“root: XXX valid number is 0” 日志提示“ValueError: label_map not match” 日志提示“Please set the train_url
服务预测 服务预测失败 服务预测失败,报错APIG.XXXX 在线服务预测报错ModelArts.4206 在线服务预测报错ModelArts.4302 在线服务预测报错ModelArts.4503 在线服务预测报错MR.0105 Method Not Allowed 请求超时返回Timeout
Lite Cluster 资源池创建失败的原因与解决方法? Cluster资源池节点故障如何定位 特权池信息数据显示均为0%如何解决? 重置节点后无法正常使用?
Ascend相关问题 Cann软件与Ascend驱动版本不匹配 训练作业的日志出现detect failed(昇腾预检失败) 父主题: 训练作业
服务部署 自定义镜像模型部署为在线服务时出现异常 部署的在线服务状态为告警 服务启动失败 服务部署、启动、升级和修改时,拉取镜像失败如何处理? 服务部署、启动、升级和修改时,镜像不断重启如何处理? 服务部署、启动、升级和修改时,容器健康检查失败如何处理? 服务部署、启动、升级和修改时,资源不足如何处理?
业务代码问题 日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 日志提示“max_pool2d_with_indices_out_cuda_frame failed
MoXing 使用MoXing复制数据报错 如何关闭Mox的warmup Pytorch Mox日志反复输出 moxing.tensorflow是否包含整个TensorFlow,如何对生成的checkpoint进行本地Fine Tune? 训练作业使用MoXing复制数据较慢,重复打印日志
环境配置故障 Notebook提示磁盘空间已满 Notebook中使用Conda安装Keras 2.3.1报错 Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx Notebook中已安装对应库,仍报错import numba
DevServer权限 表1 DevServer细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 创建DevServer实例 POST /v1/{project_id}/dev-servers modelarts:devserver:create e