-
使用ma-cli dli-job upload命令上传文件到DLI分组资源 - AI开发平台ModelArts
使用ma-cli dli-job upload命令上传文件到DLI分组资源 ma-cli dli-job upload命令支持将本地文件或OBS文件上传到DLI资源组。 $ ma-cli dli-job upload -h Usage: ma-cli dli-job upload
-
SFT全参微调权重转换 - AI开发平台ModelArts
SFT全参微调权重转换 SFT全参微调需将HuggingFace格式权重转换为megatron格式后再进行SFT全参微调。 本章节主要介绍如何将HuggingFace权重转换为Megatron格式。此处的HuggingFace权重文件和转换操作结果同时适用于SFT全参微调和LoRA微调训练
-
SFT全参微调数据处理 - AI开发平台ModelArts
SFT全参微调数据处理 SFT微调(Supervised Fine-Tuning)前需要对数据集进行预处理,转化为.bin和.idx格式文件,以满足训练要求。 这里以LLama2-70B为例,对于LLama2-7B和LLama2-13B,操作过程与LLama2-70B相同,只需修改对应参数即可。
-
SFT全参微调数据处理 - AI开发平台ModelArts
SFT全参微调数据处理 SFT全参微调(Supervised Fine-Tuning)前需要对数据集进行预处理,转化为.bin和.idx格式文件,以满足训练要求。 下载数据 SFT全参微调涉及的数据下载地址:https://huggingface.co/datasets/tats
-
deepspeed多卡训练报错TypeError: deepspeed - AI开发平台ModelArts
deepspeed多卡训练报错TypeError: deepspeed_init() got an unexpected keyword argument 'resume_from_checkpoint' 问题现象 deepspeed多卡训练报错TypeError: deepspeed_init()
-
报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exitng now.”如何解决? - AI开发平台ModelArts
报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exitng now.”如何解决? 问题现象 或 原因分析 可能为/home/ma-user/work磁盘空间不足。 解决方法 删除
-
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决? - AI开发平台ModelArts
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决? 问题现象 报错“Bad owner or permissions
-
在lite资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts
在lite资源池上使用Snt9B完成分布式训练任务 场景描述 本案例介绍如何在Snt9B上进行分布式训练任务。lite资源池已经默认安装volcano调度器,训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型,详细代码和指导可参考Bert。
-
上传本地小文件(100MB以内)至JupyterLab - AI开发平台ModelArts
上传本地小文件(100MB以内)至JupyterLab 对于大小不超过100MB的文件直接上传,并展示文件大小、上传进度及速度等详细信息。 图1 上传100MB以下小文件 文件上传完成后给出提示。 图2 上传成功 父主题: 上传本地文件至JupyterLab
-
NVIDIA和CUDA驱动安装指南 - AI开发平台ModelArts
NVIDIA和CUDA驱动安装指南 场景描述 本文介绍如何华为云裸金属服务器中安装NVIDIA和CUDA驱动(以Ant8规格为例)。 1、安装NVIDIA驱动 打开NVIDIA官方网站。 根据Ant8的详细信息和您所需的cuda版本选择驱动 图1 驱动选择 选择后会自动出现Driver版本并下载,或者直接。
-
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
-
GP Ant8裸金属本地盘实现软RAID5的解决方案 - AI开发平台ModelArts
GP Ant8裸金属本地盘实现软RAID5的解决方案 场景描述 本文介绍GP Ant8裸金属服务器使用本地盘实现软RAID5的解决方案,该方案保障了本地盘数据的可靠性,当其中一块硬盘故障时,备份硬盘可自动恢复数据。 RAID1:同时对2个硬盘读写(同样的数据),强调数据的绝对安全
-
NPU Snt9B裸金属服务器多机批量执行命令 - AI开发平台ModelArts
NPU Snt9B裸金属服务器多机批量执行命令 场景描述 在使用NPU Snt9B裸金属服务器进行多机训练/推理作业时,往往需要将多机的环境配置的完全一致。如果逐台登录主机,逐台使用环境配置脚本来配置,虽然可以完成任务,但是效率低下。为了提高效率,本文介绍如何在单节点通过脚本方式实现多台主机批量执行命令。
-
使用ma-cli ma-job get-event命令查询ModelArts训练作业事件 - AI开发平台ModelArts
使用ma-cli ma-job get-event命令查询ModelArts训练作业事件 执行ma-cli ma-job get-event命令查看ModelArts训练作业事件。 $ ma-cli ma-job get-event -h Usage: ma-cli ma-job
-
使用ma-cli ma-job get-engine命令查询ModelArts训练AI引擎 - AI开发平台ModelArts
使用ma-cli ma-job get-engine命令查询ModelArts训练AI引擎 执行ma-cli ma-job get-engine命令查询ModelArts训练使用的AI引擎。 $ ma-cli ma-job get-engine -h Usage: ma-cli ma-job
-
训练运行报错AttributeError: 'torch - AI开发平台ModelArts
训练运行报错AttributeError: 'torch_npu._C._NPUDeviceProperties' object has no attribute 'multi_processor_count' 问题现象 训练运行报错“AttributeError: 'torch_npu
-
昇腾迁移融合算子API替换样例 - AI开发平台ModelArts
昇腾迁移融合算子API替换样例 部分torch原生的API在下发和执行时会包括多个小算子,下发和执行耗时较长,可以通过替换成NPU API来使能融合算子,提升训练性能。 API替换总览 •torch_npu.optim.NpuFusedAdamW •optimizer.clip_grad_norm_fused_
-
示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+Ascend) - AI开发平台ModelArts
示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+Ascend) 场景描述 Step1 创建OBS桶和文件夹 Step2 准备脚本文件并上传至OBS中 Step3 制作自定义镜像 Step4 上传镜像至SWR Step5 在ModelArts上创建Notebook并调试
-
GP Ant8裸金属服务器使用Megatron-Deepspeed训练GPT2并推理 - AI开发平台ModelArts
GP Ant8裸金属服务器使用Megatron-Deepspeed训练GPT2并推理 场景描述 本文将介绍在GP Ant8裸金属服务器中, 使用Megatron-Deepspeed框架训练GPT-2(分别进行单机单卡和单机多卡训练)。 训练完成后给出自动式生成内容,和交互式对话框模式。
-
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口 - AI开发平台ModelArts
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口 原因分析 未安装VS Code或者安装版本过低。 解决方法 下载并安装VS Code(Windows用户请单击“Win”,其他用户请单击“其他”下载),安装完成后单击“刷新”完成连接。