检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
data/finetune/ LLama-Factory微调数据集预处理参数说明 ModelLink开源仓已经支持LLama-Factory格式的数据预处理,目前仅支持sft全参微调,lora微调。数据集预处理脚本参数说明如下: --input:原始数据集的存放路径。 --out
许可证 必填项,根据业务需求选择合适的许可证类型。 描述 必填项,填写资产简介,数据集发布后将显示在数据集页签上,方便用户快速了解资产。 支持1~90个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词,否则发布审核无法通过。 可见范围 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。
BS目录,SDK会将notebook目录code_dir打包上传到obs_path中。 准备训练输出,与单机训练作业调试4相同。 查看训练支持的AI框架,与单机训练作业调试5相同。 保存当前Notebook为新镜像,与单机训练作业调试9相同。 Estimator初始化。 from
Arts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 基础镜像包 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2
outdir:生成的训练data 地址 end_num:生成的data总条数 used_npus:使用哪些NPU model_type:使用模型类型 目前支持 qwen2 llama1 llama2 及 llama3,其中llama1、2及chat都填写llama model_name:模型地址
outdir:生成的训练data 地址 end_num:生成的data总条数 used_npus:使用哪些NPU model_type:使用模型类型 目前支持 qwen2 llama1 llama2 及 llama3,其中llama1、2及chat都填写llama model_name:模型地址
outdir:生成的训练data 地址 end_num:生成的data总条数 used_npus:使用哪些NPU model_type:使用模型类型 目前支持 qwen2 llama1 llama2 及 llama3,其中llama1、2及chat都填写llama model_name:模型地址
File('obs://bucket_name/obs_file.bin', 'rb') as f: file_bytes = f.read() 以二进制模式打开的文件也支持读取一行或者读取所有行,用法不变。 将字符串写入一个文件。 例如将字符串“Hello World!”写入OBS文件“obs://bucket_name/obs_file
获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表2 基础容器镜像地址 配套软件版本 镜像用途 镜像地址
tainer_work_dir}/chatglm3-6b/config.json。不同模型推理支持的max-model-len长度不同,具体差异请参见附录:基于vLLM不同模型推理支持最小卡数和最大序列说明。 --max-num-batched-tokens:prefill阶段,
_17_aarch64.manylinux2014_aarch64.whl文件:请单击下载地址下载。 ModelArts当前仅支持CANN商用版本,不支持社区版。 下载Miniconda3安装文件。 使用地址下载地址,下载Miniconda3-py39_24.5.0-0安装文件(对应python
单击右侧“重建”,重新创建训练作业,提交训练作业后等待作业完成。 等待训练作业是否变成“已完成”状态。 是,故障处理完成。 否,则联系技术支持排查节点状态。 建议与总结 环境变量NCCL_SOCKET_IFNAME用于指定通信的网卡名称。“NCCL_SOCKET_IFNAME=e
errorMessage:None reason:Service Unavailable 如果是client数太多,尤其对于5G以上文件,OBS接口不支持直接调用,需要分多个线程分段复制,目前OBS侧服务端超时时间是30S,可以通过如下设置减少进程数。 # 设置进程数 os.environ[
发起维修流程。 NT_NPU_OTHER NPU 其他 NPU其他错误。 检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 发起维修流程。 NT_NPU_ECC_COUNT NPU 显存 NPU ECC次数达到维修阈值。 NPU的HBM总的多Bit Ecc隔离地址记录达到64个。
使用ModelArts Standard自定义算法实现手写数字识别 本文为用户提供如何将本地的自定义算法通过简单的代码适配,实现在ModelArts上进行模型训练与部署的全流程指导。 场景描述 本案例用于指导用户使用PyTorch1.8实现手写数字图像识别,示例采用的数据集为MNIST官方数据集。
获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表2 基础容器镜像地址 配套软件版本 镜像用途 镜像地址
packages that were not found in your environment: flash_attn 根因:昇腾环境暂时不支持flash_attn接口 规避措施:修改dynamic_module_utils.py文件,将180-184行代码注释掉 vim /hom
签予以区分。 重新运行:可以单击“重新运行”直接在某条记录上运行该工作流。 您可以对该条工作流的所有运行记录进行筛选和对比。 筛选:该功能支持您对所有运行记录按照“运行状态”和“运行标签”进行筛选。 图2 筛选 对比:针对某条工作流的所有运行记录,按照状态、运行记录、启动时间、运行时长、参数等进行对比。
tainer_work_dir}/chatglm3-6b/config.json。不同模型推理支持的max-model-len长度不同,具体差异请参见附录:基于vLLM不同模型推理支持最小卡数和最大序列说明。 --max-num-batched-tokens:prefill阶段,
git+aria2,可以做到稳定下载不断线。 方法四:使用Git clone,官方提供了 git clone repo_url 的方式下载,但是不支持断点续传,并且clone 会下载历史版本占用磁盘空间。 在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard