检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
环境的数据迁移工作。 增加了和OBS交互工作的整个训练流程如下: 建议使用OBSutil作为和OBS交互的工具,如何在本机安装obsutil可以参考安装和配置OBS命令行工具。 训练数据、代码、模型下载。(本地使用硬盘挂载或者docker cp,在ModelArts上使用OBSutil)
cfg reboot 第一条命令为安装Linux内核头文件和内核镜像,其中版本为5.4.0-144-generic。 第二条命令为重新生成GRUB引导程序的配置文件,用于在启动计算机时加载操作系统, 命令将使用新安装的内核镜像更新GRUB的配置文件,以便在下次启动时加载新的内核。
在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net
迁移过程使用工具概览 基础的开发工具在迁移的预置镜像和开发环境中都已经进行预置,用户原则上不需要重新安装和下载,如果预置的版本不满足要求,用户可以执行下载和安装与覆盖操作。 模型自动转换评估工具Tailor 为了简化用户使用,ModelArts提供了Tailor工具,将模型转换、
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y
2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。 原因分析 分析EulerOS内核是如何在不知情的情况下升级的: 首先查看当前操作系统内核。 [root@Server-ddff
保存Notebook实例 通过预置的镜像创建Notebook实例,在基础镜像上安装对应的自定义软件和依赖,在管理页面上进行操作,进而完成将运行的实例环境以容器镜像的方式保存下来。镜像保存后,默认工作目录是根目录“/”路径。 保存的镜像中,安装的依赖包不丢失,持久化存储的部分(home/ma-user
镜像 通过预置的镜像创建Notebook实例,在基础镜像上安装对应的自定义软件和依赖,在管理页面上进行操作,进而完成将运行的实例环境以容器镜像的方式保存下来。镜像保存后,默认工作目录是根目录“/”路径。 保存的镜像中,安装的依赖包不丢失,持久化存储的部分(home/ma-user
可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下: cd /home/ma-user/mode
在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net
在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net
A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。) 操作步骤 方法1:使用mlx硬件计数器,估算ROCE网卡收发流量
nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致,可参考安装nvidia-fabricmanag方法。 NCCL必须和CUDA版本相匹配,可单击此处可查看配套关系和安装方法。 使用该裸金属服务器制作自定义镜像时, 必须清除残留文件,请参考清理文件。 父主题:
可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下: cd /home/ma-user/mode
可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,若直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。 以创建llama2-13b预训练作业为例,执行脚本0_pl_pretrain_13b
可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。 以创建llama2-13b预训练作业为例,执行脚本0_pl_pretrain_13b
20.04内核自动升级? 场景描述 在Ubuntu 20.04每次内核升级后,系统需要重新启动以加载新内核。如果您已经安装了自动更新功能,则系统将自动下载和安装可用的更新,这可能导致系统在不经意间被重启;如果使用的软件依赖于特定版本的内核,那么当系统自动更新到新的内核版本时,可能
可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。 以创建llama2-13b预训练作业为例,执行脚本0_pl_pretrain_13b
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
source”。 图3 配置Grafana 单击“Prometheus”,进入Prometheus配置页面。 图4 进入Prometheus配置页面 参考下图进行配置。 图5 配置Grafana数据源 Grafana安装方式不同,Grafana版本也可能不同,图5仅为示例,请以实际配置界面为准。