-
使用ma-cli ma-job submit命令提交ModelArts训练作业 - AI开发平台ModelArts
使用ma-cli ma-job submit命令提交ModelArts训练作业 执行ma-cli ma-job submit命令提交ModelArts训练作业。 ma-cli ma-job submit命令需要指定一个位置参数YAML_FILE表示作业的配置文件路径,如果不指定该
-
使用ma-cli dli-job get-job命令查询DLI Spark作业 - AI开发平台ModelArts
使用ma-cli dli-job get-job命令查询DLI Spark作业 执行ma-cli dli-job get-job查询DLI Spark作业列表或单个作业详情。 ma-cli dli-job get-job -h Usage: ma-cli dli-job get-job
-
使用ma-cli dli-job upload命令上传文件到DLI分组资源 - AI开发平台ModelArts
使用ma-cli dli-job upload命令上传文件到DLI分组资源 ma-cli dli-job upload命令支持将本地文件或OBS文件上传到DLI资源组。 $ ma-cli dli-job upload -h Usage: ma-cli dli-job upload
-
SFT全参微调数据处理 - AI开发平台ModelArts
SFT全参微调数据处理 SFT微调(Supervised Fine-Tuning)前需要对数据集进行预处理,转化为.bin和.idx格式文件,以满足训练要求。 这里以LLama2-70B为例,对于LLama2-7B和LLama2-13B,操作过程与LLama2-70B相同,只需修改对应参数即可。
-
SFT全参微调数据处理 - AI开发平台ModelArts
SFT全参微调数据处理 SFT全参微调(Supervised Fine-Tuning)前需要对数据集进行预处理,转化为.bin和.idx格式文件,以满足训练要求。 下载数据 SFT全参微调涉及的数据下载地址:https://huggingface.co/datasets/tats
-
deepspeed多卡训练报错TypeError: deepspeed - AI开发平台ModelArts
deepspeed多卡训练报错TypeError: deepspeed_init() got an unexpected keyword argument 'resume_from_checkpoint' 问题现象 deepspeed多卡训练报错TypeError: deepspeed_init()
-
创建相同帐户下的VPC对等连接 - AI开发平台ModelArts
创建相同帐户下的VPC对等连接 对等连接是建立在两个VPC之间的网络连接,不同VPC之间网络不通,通过对等连接可以实现同一个区域下的不同VPC之间的云上内网通信。 本章节指导用户创建相同帐户下的VPC对等连接,即连通的两个VPC位于同一个帐户下。 详细操作请参见:创建相同帐户下的对等连接。
-
GP Ant8裸金属服务器支持的镜像详情 - AI开发平台ModelArts
GP Ant8裸金属服务器支持的镜像详情 镜像1:Ubuntu20.04 With Nvidia Driver 525 镜像名称:Ubuntu 20.04 x86 64bit SDI3 for Ant8 BareMetal with RoCE and NVIDIA-525 CUDA-12
-
GP Ant1裸金属服务器支持的镜像详情 - AI开发平台ModelArts
GP Ant1裸金属服务器支持的镜像详情 镜像:EulerOS纯净版 镜像名称:EulerOS2.10 x86 64bit sdi3 for Ant1 BareMetal 表1 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.10 64bit 架构类型 x86 RoCE路由配置
-
NPU Snt9B裸金属服务器环境配置 - AI开发平台ModelArts
NPU Snt9B裸金属服务器环境配置 场景描述 物理机环境配置 容器化个人调测环境搭建 父主题: 环境配置
-
NPU Snt9B集合通信算子多机多卡性能测试指导 - AI开发平台ModelArts
NPU Snt9B集合通信算子多机多卡性能测试指导 场景描述 本文介绍如何使用在2台NPU Snt9B服务器上进行集合通信算子多机性能测试,包括的集合通信算子:allreduce、reducescatter、allgather、all2all。 本文选择的服务器镜像是:EulerOS-2
-
NPU Snt9B裸金属服务器多机免密互通解决方案 - AI开发平台ModelArts
NPU Snt9B裸金属服务器多机免密互通解决方案 问题现象 在使用华为云Snt9B裸金属服务器多机多docker容器进行SSH免密互通时,发现免密互通失败。报错为: error: Could not load host key: /etc/ssh/ssh_host_rsa_key
-
SFT全参微调权重转换 - AI开发平台ModelArts
SFT全参微调权重转换 SFT全参微调需将HuggingFace格式权重转换为megatron格式后再进行SFT全参微调。 本章节主要介绍如何将HuggingFace权重转换为Megatron格式。此处的HuggingFace权重文件和转换操作结果同时适用于SFT全参微调和LoRA微调训练
-
Step4 使用保存成功的镜像用于推理部署 - AI开发平台ModelArts
Step4 使用保存成功的镜像用于推理部署 将Step2 在Notebook中调试模型的自定义镜像导入到AI应用中,并部署为在线服务。 登录ModelArts控制台,在左侧导航栏中选择“AI应用管理 > AI应用”,单击“创建”,进入创建AI应用。 设置AI应用的参数,如图1所示。
-
裸金属服务器支持IPV6解决方案 - AI开发平台ModelArts
裸金属服务器支持IPV6解决方案 场景描述 本文旨在介绍裸金属服务器支持IPV6所需配置。裸金属服务器支持IPV6需要依赖规格、镜像、子网、安全组,对这些依赖项设置完成后,即可以在该裸金属服务上使用IPV6进行网络通信。 操作步骤 确认裸金属服务器规格支持IPV6。需要确保要购买
-
华为云BMS GO SDK和Python脚本实现裸金属服务器的操作系统切换 - AI开发平台ModelArts
华为云BMS GO SDK和Python脚本实现裸金属服务器的操作系统切换 场景描述 华为云BMS裸金属服务器在停机状态可以切换操作系统,本文介绍以下两种切换操作系统的方式: 使用BMS Go SDK的方式切换操作系统 使用Python封装API的方式切换操作系统 切换操作系统需满足以下条件:
-
场景描述 - AI开发平台ModelArts
场景描述 本文旨在指导如何在Snt9b裸金属服务器上,进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项: 首次装机时需要配置存储、固件、驱动、网络访问等基础内容,这部分配置尽量稳定减少变化。 裸机上的开发形式建议开发者启动独立的Docker容器作为个人开发环境
-
自动诊断工具MA-Advisor简介 - AI开发平台ModelArts
自动诊断工具MA-Advisor简介 MA-Advisor简介 MA-Advisor是一款昇腾迁移辅助工具,当前包含两大类功能: 一、迁移性能自动诊断,当前支持如下场景的自动诊断: 推理场景下的子图数据调优分析,给出对应融合算子的调优建议。 推理、训练场景下对Profiling
-
报错提示“RuntimeError: Default process group has not been initialized, please make sure to call init - AI开发平台ModelArts
报错提示“RuntimeError: Default process group has not been initialized, please make sure to call init_process_group.” 问题现象 报错提示“RuntimeError: Default
-
使用ma-cli ma-job get-log命令查询ModelArts训练作业日志 - AI开发平台ModelArts
使用ma-cli ma-job get-log命令查询ModelArts训练作业日志 执行ma-cli ma-job get-log命令查询ModelArts训练作业日志。 $ ma-cli ma-job get-log -h Usage: ma-cli ma-job get-log