检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
deepspeed多卡训练报错TypeError: deepspeed_init() got an unexpected keyword argument 'resume_from_checkpoint' 问题现象 deepspeed多卡训练报错TypeError: deepspeed_init
连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决? 问题现象 原因分析 当前本地网络原因,导致远程自动安装VS Code Server时间过长。 解决方法
报错提示RuntimeError: Default process group has not been initialized, please make sure to call init_process_group 问题现象 报错提示RuntimeError: Default
多节点训练TensorFlow框架ps节点作为server会一直挂着,ModelArts是怎么判定训练任务结束?如何知道是哪个节点是worker呢? TensorFlow框架分布式训练的情况下,会启动ps与worker任务组,worker任务组为关键任务组,会以worker任务组的进程退出码
使用样例的有标签的数据或者自己通过其他方式打好标签的数据放到OBS桶里,在modelarts中同步数据源以后看不到已标注,全部显示为未标注 OBS桶设置了自动加密会导致此问题,需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。 父主题: Standard数据管理
连接远端开发环境时,一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上,如何解决? 问题现象 原因分析 通过查看日志发现本地vscode-scp-done.flag显示成功上传
训练运行报错AttributeError: 'torch_npu._C._NPUDeviceProperties' object has no attribute 'multi_processor_count' 问题现象 训练运行报错“AttributeError: 'torch_npu
连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决? 问题现象 原因分析 当前本地网络原因,导致远程自动安装VS Code Server时间过长。 解决方法
连接远端开发环境时,一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上,如何解决? 问题现象 VS Code连接远端开发环境时,一直处于"Setting up SSH Host
调用transformers出现ImportError: Using the `Trainer` with `PyTorch` requires `accelerate`: Run `pip install --upgrade accelerate` 问题现象 调用transformers
标注过程中,已经分配标注任务后,能否将一个labeler从标注任务中删除?删除后对标注结果有什么影响?如果不能删除labeler,能否删除将他的标注结果从整体标注结果中分离出来? 目前不支持从标注任务中删除labeler。 labeler的标注必须通过审核后,才能同步到最终结果,不支持单独分离操作
镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge,False