检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
KeypairReadOnlyAccess 虚拟私有云VPC VPC FullAccess 弹性云服务器ECS ECS FullAccess 弹性文件服务SFS SFS Turbo FullAccess 对象存储服务OBS OBS Administrator 应用运维管理服务AOM AOM FullAccess
Lite Server资源配置 Lite Server资源配置流程 配置Lite Server网络 配置Lite Server存储 配置Lite Server软件环境
--shm-size:表示共享内存,用于多进程间通信。由于需要转换较大内存的模型文件,因此大小要求200g及以上。 修改目录权限,上传代码和数据到宿主机时使用的是root用户,如用ma-user用户训练,此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777 ${work_dir}
客户端配置(用户可根据需要自行配置,不配置默认是不给服务端发心跳包),如图1,图2所示。 图1 打开VS Code ssh config配置文件 图2 增加配置信息 配置信息示例如下: Host ModelArts-xx …… ServerAliveInterval
f/grafana-9.1.6/conf/defaults.ini”文件。 修改[server]中的“root_url”和“serve_from_sub_path”字段。 图1 修改defaults.ini文件 其中: root_url的组成为:https:{jupyterlab
客户端配置(用户可根据需要自行配置,不配置默认是不给服务端发心跳包),如图1,图2所示。 图1 打开VS Code ssh config配置文件 图2 增加配置信息 配置信息示例如下: Host ModelArts-xx …… ServerAliveInterval
表中,停止因运行自动学习作业而创建的服务。操作完成后,ModelArts服务即停止计费。 登录OBS控制台,进入自己创建的OBS桶中,删除存储在OBS中的数据。操作完成后,OBS服务即停止计费。 对于使用专属资源池创建的自动学习作业: 登录ModelArts控制台,在自动学习作业
节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。
节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。
使用自定义镜像创建训练作业时,需要您熟悉docker软件的使用,并具备一定的开发经验。详细步骤如下所示: Step1 创建OBS桶和文件夹 Step2 准备脚本文件并上传至OBS中 Step3 制作自定义镜像 Step4 上传镜像至SWR Step5 在ModelArts上创建Notebook并调试
用户项目ID,获取方法请参见获取项目ID和名称。 storage_id 是 String OBS存储ID。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 category String 存储类型。可选值为OBS。 id String 动态挂载实例ID。 mount_path
Cluster资源配置 Lite Cluster资源配置流程 配置Lite Cluster网络 配置kubectl工具 配置Lite Cluster存储 (可选)配置驱动 (可选)配置镜像预热
去掉尖括号),使用浏览器下载vscode-server-linux-arm64.tar.gz文件。下载完成后,将下载的vscode-server-linux-arm64.tar.gz文件重命名为“vscode-server-linux-x64.tar.gz”。 https://update
钮继续播放,在需要标注处暂停,然后重复执行步骤3完成整个视频的标注。 单击界面右上角的“标注列表”,在“当前文件标签”的详情页将呈现当前视频带标注的时间点。 图3 当前文件标签信息 单击页面左上角“返回数据标注预览”,页面将自动返回标注作业详情页面,同时,标注好的视频将呈现在“已标注”页签下。
查看YAML”查看节点配置信息。 查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。 如图所示,表示有值,节点已开启topo文件和ranktable文件的下发。否则,联系技术支持处理。 图5 查看节点的yaml文件 父主题: Lite
载链接下载数据集。 在创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-llama2-13b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: obs://<
去掉尖括号),使用浏览器下载vscode-server-linux-arm64.tar.gz文件。下载完成后,将下载的vscode-server-linux-arm64.tar.gz文件重命名为“vscode-server-linux-x64.tar.gz”。 https://update
准备模型训练代码 预置框架启动文件的启动流程说明 开发用于预置框架训练的代码 开发用于自定义镜像训练的代码 父主题: 使用ModelArts Standard训练模型
匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。 ECS中构建新镜像(二选一):在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会下载Megatr
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905)