检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
sh脚本的内容可以参考如下示例: #!/bin/bash ##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置
sh脚本的内容可以参考如下示例: #!/bin/bash ##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置
准备工作 准备资源 本教程案例是基于ModelArts Standard运行,需要购买ModelArts专属资源池。 准备权重 准备对应模型的权重文件。 准备代码 准备AscendCloud-3rdLLM-6.3.905-xxx.zip和AscendCloud-OPP-6.3.905-xxx
Standard模型训练流程 操作任务 子任务 说明 准备工作 准备训练代码 模型训练必备要素包括训练代码、训练框架、训练数据。 训练代码包含训练作业的启动文件或启动命令、训练依赖包等内容。 当使用预置框架创建训练作业时,训练代码的开发规范可以参考开发用于预置框架训练的代码。 当使用自定义镜像创建
未验收的图片,设置其“验收结果”。 完成验收 继续验收完成后,单击右上角“完成验收”在完成验收窗口,您可以查看本标注作业的验收情况,如抽样文件数等,同时设置如下参数,然后进行验收。只有完成验收,标注信息才会同步到标注作业的已标注页面中。 一旦标注数据完成验收,团队成员无法再修改标注信息,只有数据集创建者可修改。
item(日志关键字) 执行条件 检测成功要求 域名检测 dns 无 volcano容器的域名都解析成功(/etc/volcano下的“.host”文件中的域名解析成功) 磁盘空间-容器根目录 disk-size root 无 大于32GB 磁盘空间-/dev/shm目录 disk-size
析速度。 7 output_path /home/ma-user/work 否 advisor分析结果输出路径,包含html和xlsx两个文件。 如果您想修改参数配置,可以点开Advanced Settings选项开关,然后对参数进行新增或修改。界面参考下图。 图7 修改高级参数
静态benchmark验证 本章节介绍如何进行静态benchmark验证。 已经上传benchmark验证脚本到推理容器中。如果在步骤三:上传代码包和权重文件中已经上传过AscendCloud-LLM-x.x.x.zip并解压,无需重复执行。 进入benchmark_tools目录下,运行静态benchmark验证。
子用户在创建ModelArts的专属资源池过程中,如果需要开启自定义网络配置,需要配置VPC权限。 VPC FullAccess 可选 SFS弹性文件服务 授予子用户使用SFS服务的权限,ModelArts的专属资源池中可以挂载SFS系统作为开发环境或训练的存储。 SFS Turbo FullAccess
JupyterProcessKilled jupyter进程被killed掉了 紧急 CacheVolumeExceedQuota /cache目录文件大小超过最大限制 紧急 NotebookHealthy 实例从不健康恢复到了健康状态 重要 EVSSoldOut EVS存储售罄 紧急 表6
部署在线服务 申请扩大模型的大小配额和使用节点本地存储缓存白名单 服务部署时,默认情况下,动态加载的模型包位于临时磁盘空间,服务停止时已加载的文件会被删除,再次启动时需要重新加载。为了避免反复加载,平台允许使用资源池节点的本地存储空间来加载模型包,并在服务停止和重启时仍有效(通过哈希值保证数据一致性)
准备工作 准备资源 本教程案例是基于ModelArts Standard运行,需要购买ModelArts专属资源池。 准备权重 准备对应模型的权重文件。 准备代码 准备AscendCloud-6.3.906-xxx.zip。 准备镜像 准备推理模型适用的容器镜像。 准备Notebook
peft版本升级到0.12.0 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
peft版本升级到0.12.0 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
sft(指令微调) √ √ 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
baichuan2-13b 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
sft(指令微调) √ √ 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
baichuan2-13b 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
、minicpm、qwen-vl、internvl2、qwen2-vl、llava-onevision。 OUTPUT_NAME:输出结果文件名称, 默认llava。 ASCEND_RT_VISIBLE_DEVICES:表示支持多个模型服务实例,同时支持模型并行,如 0,1:2,3
PyTorch Profiler 性能采集工具,在训练脚本中调用Ascend PyTorch Profiler接口,可在训练过程中采集性能数据文件,包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等。 包含在torch_npu包中。 Ascend