AI开发平台MODELARTS-Notebook自定义镜像故障基础排查

时间:2024-07-19 14:10:30

Notebook 自定义镜像 故障基础排查

当制作的自定义镜像使用出现故障时,请用户按照如下方法排查:

  • 用户自定义镜像没有ma-user用户及ma-group用户组;
  • 用户自定义镜像中/home/ma-user目录,属主和用户组不是ma-userma-group
  • 用户自定义镜像必须满足用户目录/home/ma-user权限为750,不能为其他权限;
  • 用户自定义镜像使用远程SSH功能,OpenSSH版本要兼容或高于8.0;
  • 用户制作的自定义镜像,在本地执行docker run启动,无法正常运行;
  • 用户自行安装了Jupyterlab服务导致冲突的,需要用户本地使用Jupyterlab命令罗列出相关的静态文件路径,删除并且卸载镜像中的Jupyterlab服务;
  • 用户自己业务占用了开发环境官方的88888889端口的,需要用户修改自己的进程端口号
  • 用户的镜像指定了PYTHONPATHsys.path导致服务启动调用冲突的,需在实例启动后,再指定PYTHONPATHsys.path
  • 用户使用了已开启sudo权限的专属池,使用自定义镜像时,sudo工具未安装或安装错误;
  • 用户使用的canncuda环境有兼容性问题;
  • 用户的docker镜像配置错误、网络或防火墙限制、镜像构建问题(文件权限、依赖缺失或构建命令错误)等原因导致的
  • 用户的Anaconda环境中是否出现了以下问题:
    • “{python_env}/lib”目录下存在以python开头的非法目录(例如“pythonNone”),正常目录名应该是python+版本号(例如“python3.7”),这可能是由于环境配置错误或意外操作导致的。
    • 用户可能手动在Anaconda环境目录“{conda}/envs”下创建了空目录或在环境的“lib”目录下创建了非法目录,这种操作会破坏Anaconda的目录结构。
    • 用户可能手动清空了某个环境目录内的文件,而这些文件是Anaconda环境所必需的,导致环境无法正常工作。
  • 用户修改“/home/ma-user/.ssh”目录权限导致ssh无法使用的。.ssh目录权限参考如下:
    chmod 750 .ssh
    chmod 644 .ssh/authorized_keys
    chmod 644 .ssh/config
    chmod 640 .ssh/environment
    chmod 750 .ssh/etc
    chmod 640 .ssh/known_hosts
    chmod 750 .ssh/var
    chmod 600 .ssh/etc/ssh_host_rsa_key
    chmod 640 .ssh/etc/ssh_host_rsa_key.pub
    chmod 750 .ssh/etc/sshd_config
    chmod 750 .ssh/var/run/sshd.pid
support.huaweicloud.com/docker-modelarts/docker-modelarts_6024.html