检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发环境 环境配置故障 实例故障 代码运行故障 JupyterLab插件故障 VS Code连接开发环境失败故障处理 自定义镜像故障 其他故障
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.909)
co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet,数据大小:24M左右。 SFT和LoRA微调使用的Alpaca数据集下载:https://huggingface.
co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet,数据大小:24M左右。 SFT和LoRA微调使用的Alpaca数据集下载:https://huggingface.
els at Evaluation)。 步骤一:配置精度测试环境 获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中,代码目录结构如下。目前使用的opencompass版本是0.2.6 benchmark_eval
co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet,数据大小:24M左右。 SFT和LoRA微调使用的Alpaca数据集下载:https://huggingface.
模型管理 模型调试 导入模型 查询模型列表 查询模型对象列表 查询模型详情 删除模型
Standard Notebook 规格限制 文件上传下载 数据存储 环境配置相关 Notebook实例常见错误 代码运行常见错误 CodeLab PyCharm Toolkit使用 VS Code使用技巧 VS Code连接开发环境失败常见问题 在Notebook中使用自定义镜像常见问题
co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet,数据大小:24M左右。 SFT和LoRA微调使用的Alpaca数据集下载:https://huggingface.
专属资源池训练 资源选择推荐 步骤总览 资源购买 基本配置 调试与训练 FAQ 父主题: 历史待下线案例
1.0-cann_8.0.rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240727152329-0f2c29a CANN:cann_8.0.rc2 PyTorch:2.1.0 Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像,请
克隆ModelArts Ascend代码库。 新建Terminal,执行下述命令将对应的repo克隆到Notebook实例。 git clone https://gitee.com/ModelArts/modelarts-ascend.git 图5 下载示例代码 昇腾迁移案例在“~/wor
PyTorch-1.4.0-python3.6 下文将介绍如何在训练中使用评估代码。对训练代码做一定的适配和修正,分为三个方面:添加输出目录、复制数据集到本地、映射数据集路径到OBS。 添加输出目录 添加输出目录的代码比较简单,即在代码中添加一个输出评估结果文件的目录,被称为train_url,也
建议使用官方提供的镜像部署推理服务。镜像地址{image_url}获取请参见表1。 docker pull {image_url} Step3 上传代码包和权重文件 上传安装依赖软件推理代码AscendCloud-LLM-6.3.907-xxx.zip和算子包AscendCloud-OPP-6.3.907-xxx
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GPU相关问题 业务代码问题 预置算法运行故障 训练作业卡死 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题 Ascend相关问题
使用reload ckpt恢复中断的训练 在容错机制下,如果因为硬件问题导致训练作业重启,用户可以在代码中读取预训练模型,恢复至重启前的训练状态。用户需要在代码里加上reload ckpt的代码,使能读取训练中断前保存的预训练模型。具体请参见断点续训练。 父主题: 模型训练高可靠性
CUDA和CUDNN run.sh脚本测试ModelArts训练整体流程 ModelArts环境挂载目录说明 infiniband驱动的安装 如何保证训练和调试时文件路径保持一致 父主题: 专属资源池训练
动容器默认使用ma-user用户。 docker exec -it ${container_name} bash Step3 获取代码并上传 上传代码AscendCloud-AIGC-6.3.906-xxx.zip到容器的工作目录${container_work_dir}中,包获取路径请参见表2。
supported wheel on this platform”报错,具体解决方法请参见2。 处理方法 安装第三方包 pip中存在的包,使用如下代码: import os os.system('pip install xxx') pip源中不存在的包,此处以“apex”为例,请您用如下方式将安装包上传到OBS桶中。