检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
进而导致modelarts-os节点上管理污点的maos-node-agent容器无法启动,使得污点无法被自动清理。 处理方法 (推荐)解决方案一(按需使用volcano调度器): CCE页面上修改默认调度器为kube-scheduler。 删除maos-node-agent的pod(重启pod)。
检测每个节点日志是否有报错信息,某个节点报错但作业未退出导致整个训练作业卡死。 解决方案1 查看报错原因,解决报错。 问题现象2 作业卡在sync-batch-norm中或者训练速度变慢。pytorch如果开了sync-batch-norm,多机会慢,因开了sync-batch-norm以后,每一个i
- 应用体验 ModelArts Studio大模型即服务平台提供了MaaS应用实践中心,为具体的应用场景提供一整套解决方案。 在MaaS应用实践中心查看应用解决方案
t导致纳管失败的解决方案 GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案
如果容器引擎客户端机器为云上的ECS或CCE节点,根据机器所在区域有两种网络链路可以选择: 如果机器与容器镜像仓库在同一区域,则上传镜像走内网链路。 如果机器与容器镜像仓库不在同一区域,则上传镜像走公网链路,机器需要绑定弹性公网IP。 使用客户端上传镜像,镜像的每个layer大小不能大于10G。
m8k_gen、humaneval_gen。 约束限制 确保容器可以访问公网。 当前的精度测试仅适用于语言模型精度验证,不适用于多模态模型的精度验证。多模态模型的精度验证,建议使用开源MME数据集和工具(GitHub - BradyFU/Awesome-Multimodal-Large-Language-Models
while getting xxx 问题现象 在Notebook中安装依赖包时报错,报错截图如下: 原因分析 pypi源没有这个包或源不可用。 解决方案 使用别的源下载。 pip install -i 源地址 包名 父主题: 环境配置故障
url发送给他人使用,他人无法打开,报错“……lost token or incorrect token……”。 原因分析 原因是由于其他人没有此账号的令牌导致。 解决方案 在此url后面加上Notebook拥有者的token。 父主题: 实例故障
合作伙伴 注册伙伴 发布解决方案 父主题: AI Gallery(旧版)
de-remote.remot-sdh’,它被报告存在问题”。 原因分析 Remote - SSH只能在开源的VSCode软件中使用。 解决方案 推荐使用开源VS Code软件。 父主题: VS Code连接开发环境失败常见问题
de-remote.remot-sdh’,它被报告存在问题”。 原因分析 Remote - SSH只能在开源的VSCode软件中使用。 解决方案 推荐使用开源VS Code软件。 父主题: VS Code连接开发环境失败故障处理
创建训练作业时,输入输出参数的超参目录有的是/work,有的是/ma-user。 图1 目录是/ma-user 图2 目录是/work 解决方案 这是创建训练作业选用的算法有差异导致的。 如果选择的算法是使用旧版镜像创建的,那么创建训练作业时输入输出参数的超参目录就是/work。
原因分析 原因为Github已取消密码授权方式,此时在git clone私有仓库和git push文件时需要在授权方式框中输入token。 解决方案 使用token替换原先的密码授权方式,在git clone私有仓库和git push文件时,需要在授权方式框中输入token(见下图)
'obs://dyyolov8/yolov5_test/yolov5-7.0/datasets'), mox这个函数怎么定义以变量的形式填写OBS路径? 解决方案 变量定义参考如下示例: input_storage = './test.py' import moxing as mox mox.file
“No Kernel”。 原因分析 可能因为用户工作目录下的code.py和创建kernel依赖的import code文件名称冲突。 解决方案 查看“/home/ma-user/log/”下以“kernelgateway”开头的最新日志文件,搜索“Starting kernel
et::ERR_ADDRESS_IN_USE。 原因分析 可能是用户本地网络的原因,网速不稳定或者网络配置有问题,均可能导致保存失败。 解决方案 1. 切换为稳定的网络后重试。 2. 初始化网络配置,使用管理员权限启动CMD,输入netsh winsock reset指令,完成后重启电脑,再登录数据标注平台重试。
使用自定义镜像创建实例启动后,打开JupyterLab>新建Notebook,选不到kernel。 原因分析 自定义镜像的python环境没有注册。 解决方案 在Terminal里执行命令排查实例存在几个Conda环境。 conda env list 执行如下命令分别切换到对应环境查看是否有ipykernel包。
出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的,如果没有自动重启,创建一直失败,请确认是否是自定义镜像的问题。 解决方案 排查是否是自定义镜像的问题。 自定义镜像构建完成,在ModelArts镜像管理注册时,“架构”和“类型”需要和源镜像保持一致。 图2 注册镜像
Cannot pause container xxx”。 原因分析 执行镜像保存时,Notebook中存在状态为D的进程,会导致镜像保存失败。 解决方案 在Terminal里执行ps -aux命令检查进程。 执行kill -9 <pid>命令将相关进程结束后,再次执行镜像保存即可。 父主题:
配置MobaXterm工具时,没有勾选“SSH keepalive”或专业版MobaXterm工具的“Stop server after”时间设置太短。 解决方案 打开MobaXterm,单击菜单栏“Settings”,如图1 打开“Settings”所示。 图1 打开“Settings” 在打开的“MobaXterm