云服务器内容精选

  • 子账号启动其他用户的SSH实例 子账号可以看到所有用户的Notebook实例后,如果要通过SSH方式远程连接其他用户的Notebook实例,需要将SSH密钥对更新成自己的,否则会报错ModelArts.6786。更新密钥对具体操作请参见修改Notebook SSH远程连接配置。具体的错误信息提示:ModelArts.6789: 在E CS 密钥对管理中找不到指定的ssh密钥对xxx,请更新密钥对并重试。
  • 什么是动态挂载OBS并行文件系统 并行文件系统(Parallel File System)是 对象存储服务 (Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,详细介绍可以参见并行文件系统。 在ModelArts运行态的Notebook容器中,采用动态挂载特性,将OBS对象存储模拟成本地文件系统。其本质是通过挂载工具,将对象协议转为POSIX文件协议。挂载后应用层可以在容器中正常操作OBS对象。
  • 查看Notebook实例事件 在Notebook的整个生命周期,包括实例的创建、启动、停止、规格变更等关键操作以及实例的运行状态等在后台都有记录,用户可以在Notebook实例详情页中查看具体的事件,通过实例的事件,从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件,也可以设置间隔30秒,1分钟,5分钟自动刷新事件。 图1 查看Notebook实例事件并设置自动刷新 表1 实例创建过程的事件列表 事件名称 事件描述 事件级别 Scheduled 实例被调度成功 提示 PullingImage 正在拉取镜像 提示 PulledImage 镜像拉取完毕 提示 NotebookHealthy 实例运行中,处于健康状态 重要 CreateNotebookFailed 创建实例失败 紧急 PullImageFailed 镜像拉取失败 紧急 FailedCreate Failed to create notebook container. Please contact SRE to check node {node_name} 紧急 CreateContainerError Failed to create container. Please contact SRE to check node {node_name} 紧急 FailedAttachVolume Failed to attach volume. Please contact SRE to check node {node_name} 重要 MountVolumeFailed Mount volume failed; Check whether the DEW secret is correct if the instance cannot change to running in five minutes 紧急 Mount volume failed; Check if vpc of sfs-turbo is interconnected if the instance cannot change to running in five minutes 紧急 Mount volume failed; Please contact SRE to check node {node_name} if the instance cannot change to running in five minutes 紧急 表2 实例启动过程的事件列表 事件名称 事件描述 事件级别 EmptyDirExceeded Usage of empty-dir volume exceeds its limit. A new container will be scheduled and created automatically soon. 紧急 NodeResourcePressure Insufficient node resources. A new container will be scheduled and created automatically soon. 紧急 EphemeralStorageExceeded Local ephemeral storage exceeds its limit. A new container will be scheduled and created automatically soon. 紧急 FailedToStartContainer Failed to start container. Please contact SRE to check node {node_name} 紧急 Scheduled 实例被调度成功 提示 PullingImage 正在拉取镜像 提示 PulledImage 镜像拉取完毕 提示 NotebookHealthy 实例运行中,处于健康状态 重要 RunHookScript 运行自定义脚本 提示 StartNotebookFailed 实例启动失败 紧急 PullImageFailed 镜像拉取失败 紧急 CreateKernelFailed conda命令不可用导致创建jupyter kernel失败 (The jupyter launcher page does not contain the kernel due to conda environment issues, please ensure that {conda_env} is available and the command: {conda_cmdt} env list can be run properly) 重要 权限问题导致创建jupyter kernel失败 (The jupyter launcher page does not contain the kernel due to permission issues, please ensure that the uid {ma_uid} have write permissions to {conda_path}) 重要 ConfigurationError conda命令不可用导致配置modelarts sdk和ma-cli路径到conda env失败 (The modelarts sdk and cli is unavailable in the conda envs due to conda environment issues, please ensure that the {conda_env} is available and the command: {conda_cmd} env list can be run properly) 重要 权限问题导致配置modelarts sdk和ma-cli路径到conda env失败 (The modelarts sdk and cli is unavailable in the conda env due to permission issues,please ensure that the uid {ma_uid} have write permissions to {conda_path}) 重要 FailedToPullImageReason Failed to pull image. Please make sure the image exists in SWR repo, otherwise contact SRE to check node {node_name} 重要 Failed to pull image. Please contact SRE to check node {node_name} 说明: {node_name}表示节点名称,为可变变量,一般为IP形式,如:192.168.1.1 表3 实例停止过程的事件列表 事件名称 事件描述 事件级别 StopNotebook 实例停止 重要 StopNotebookResourceIdle 实例因资源空闲即将自动停止或实例因资源空闲自动停止 重要 表4 更新实例过程的事件列表 事件名称 事件描述 事件级别 UpdateName 更新实例名称 提示 UpdateDescription 更新实例描述 提示 UpdateFlavor 更新实例规格 重要 UpdateImage 更新实例镜像 重要 UpdateStorageSize 实例存储正在扩容 (User %s is updating storage size from %sGB to %sGB) 重要 实例扩容完成 (User %s updated storage size successfully) 重要 UpdateKeyPair 配置实例密钥对 (User %s updated the instance keypair to "{%s}") 重要 更新实例密钥对 (User %s updated the instance keypair from %s to %s) 重要 UpdateWhitelist 更新实例访问白名单 重要 UpdateHook 更新自定义脚本 重要 UpdateStorageSizeFailed 资源售罄引起的实例存储扩容失败 (The EVS disk is sold out) 紧急 内部错误引起的实例扩容失败 (The EVS disk size updated failed. Operations and maintenance personnel are handling the problem) 紧急 表5 镜像保存过程中的事件列表 事件名称 事件描述 事件级别 SaveImage 保存镜像成功 重要 SavedImageFailed D进程引起的保存镜像失败 (There are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes) 紧急 镜像大小引起的保存镜像失败 (Container size %dG is greater than threshold %dG) 紧急 层数限制引起的保存镜像失败 (Too many layers in your image) 紧急 任务超时引起的保存镜像失败 (Operations personnel are handling the problem) 紧急 SWR故障引起的保存镜像失败 (Failed to save the image because the SWR service is faulty) 紧急 表6 实例运行过程的事件列表 事件名称 事件描述 事件级别 NotebookUnhealthy 实例处于不健康状态 紧急 OutOfMemory 实例被OOM掉了 紧急 JupyterProcessKilled jupyter进程被killed掉了 紧急 CacheVolumeExceedQuota /cache目录文件大小超过最大限制 紧急 NotebookHealthy 实例从不健康恢复到了健康状态 重要 EVSSoldOut EVS存储售罄 紧急 表7 OBS动态挂载产生的事件列表 事件名称 事件描述 事件级别 DynamicMountStorage 挂载OBS存储 重要 DynamicUnmountStorage 卸载OBS存储 重要 表8 用户侧触发的事件 事件名称 事件描述 事件级别 RefreshCredentialsFailed 用户鉴权失败 紧急 父主题: 管理Notebook实例
  • 背景信息 Notebook使用涉及到计费,具体收费项如下: 处于“运行中”状态的Notebook,会消耗资源,产生费用。根据您选择的资源不同,收费标准不同,价格详情请参见产品价格详情。当您不需要使用Notebook时,建议停止Notebook,避免产生不必要的费用。 创建Notebook时,如果选择使用云硬盘EVS存储配置,云硬盘EVS会一直收费,建议及时停止并删除Notebook,避免产品不必要的费用。 在创建Notebook时,默认会开启自动停止功能,在指定时间内停止运行Notebook,避免资源浪费。 只有处于“运行中”状态的Notebook,才可以执行打开、停止操作。 一个账户最多创建10个Notebook。
  • 动态扩容EVS有什么限制 Notebook实例的存储配置采用的是云硬盘EVS。 图1 创建Notebook实例时选择云硬盘EVS存储 单次最大可以扩容100GB,扩容后的总容量不超过4096GB。 云硬盘EVS存储容量最大支持4096GB,达到4096GB时,不允许再扩容。 实例停止后,扩容后的容量仍然有效。计费也是按照扩容后的云硬盘EVS容量进行计费。 云硬盘EVS只要使用就会计费,请在停止Notebook实例后,确认不使用就及时删除数据,释放资源,避免产生费用。
  • 打开Notebook实例 针对创建好的Notebook实例(即状态为“运行中”的实例),可以打开Notebook并在开发环境中启动编码。 基于不同AI引擎创建的Notebook实例,打开方式不一样。 pytorch、tensorflow、mindspore、tensorflow-mindspore、cylp-cbcpy、rlstudio-ray、mindquantum-mindspore镜像支持以下2种方式访问: 本地IDE使用PyCharm/VS Code/SSH工具,远程连接访问,具体参见VS Code一键连接Notebook。 在线JupyterLab访问,具体参见JupyterLab简介及常用操作。 mlstudio-pyspark镜像仅支持在线JupyterLab访问,具体参见JupyterLab简介及常用操作 mindstudio镜像仅支持在本地使用MobaXterm通过SSH远程访问,具体参见使用MindStudio开发Ascend算子。 modelbox镜像仅支持在本地使用VS Code插件远程访问,具体参见配置本地VSCode连接云上开发环境Modelbox镜像。 创建实例,持久化存储挂载路径为/home/ma-user/work目录。 存放在work目录的内容,在实例停止、重新启动后依然保留,其他目录下的内容不会保留,使用开发环境时建议将需要持久化的数据放在/home/ma-user/work目录。 父主题: 管理Notebook实例
  • 下载GitHub公共仓库 当“仓库类型”选择“公共仓库”后,输入GitHub上的组织名称,如jupyter,按“Enter”键或者单击击右边的搜索按钮,即可看到代码库和分支内容。如果单击搜索后,响应比较慢,请稍等片刻。 如果该组织下有多个代码库或多个分支,可以从“代码库”列表中选择需要下载的仓库名称,然后从“分支”列表中选择需要下载的分支名称。设置完成后,可单击“下一步”创建Notebook实例。 图2 选择代码仓库和分支
  • 下载GitHub私有仓库 目前支持通过OAuth授权的方式下载GitHub的私有仓库。 在“仓库类型”选择“私有仓库”后,单击“使用OAuth授权”。 图3 单击使用OAuth授权 根据您的当前会话是否登录GitHub,操作不同。 如果已经登录了GitHub,系统将会直接跳转到授权页面。 如果用户未登录GitHub,页面自动跳转至登录页面,请输入正确的帐号密码,然后单击“Sign in”。登录成功后,界面会提示认证信息,单击“Authorize ModelArts-Lab”按钮开启授权。 图4 登录页面 当界面提示“新建授权成功”时,表示已为此GitHub帐号完成授权。您可以手工关闭授权页面,并跳转至“创建Notebook”页面。 在“创建Notebook”页面中,会提示您确认是否已完成授权,单击“确定”。 如果在此对话框中单击“取消”,则OAuth授权失败,无法下载私有仓库的代码。 图5 确认是否完成授权 确定已完成授权后,可以下拉框中选择授权GitHub帐号下的仓库和分支。请依次选择“用户名/组织”、“仓库名称”和“分支”,前一个参数的设置将影响后一个参数的参数值,当下拉框中无内容时,请等候1-2分钟后重新选择。 图6 选择用户名、仓库名称和分支 当仓库和分支选择完成后,单击“下一步”创建Notebook实例。
  • 使用前必读 目前Git存储库功能仅支持EVS类型的Notebook实例。创建Notebook实例时,只有当“存储配置”选择“云硬盘”时,才可以看到“Git存储库”的开关,且该开关默认是关闭的。 启用“Git存储库”后,配置详情如图1所示。“Git存储库”分为“私有仓库”和“公共仓库”。 图1 启用Git存储库 配置好的代码库将下载到对应Notebook实例对应路径下(“/home/ma-user/work”)。此时可以使用JupyterLab的git插件开启愉快的Git之旅,详细操作请参见使用Git插件。 停止Notebook实例,并再次启动时,如果“/home/ma-user/work”目录下已存在同工程名的目录,将不会重复下载,并在work目录下生成git_exception.log文件,提示已有同名文件。如果目录不存在时,重启后将重新下载。