检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
led。 description String 模型描述信息。 execution_code String 执行代码存放的OBS地址,名称固定为“customize_service.py”。 schema_doc String 模型schema文档的下载地址。 image_address
opencompass #在benchmark_eval目录下 pip install -e . #下载对应依赖 cd ../human-eval #在benchmark_eval目录下 (可选,如果选择使用humaneval数据集) pip install -e . # 可选,如果选择使用humaneval数据集
仅支持313T、376T、400T 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表及权重文件地址 支持模型 支持模型参数量 权重文件获取地址 Llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
model parallel size)=1 PP(pipeline model parallel size)=4 1 1*节点 & 8*Ascend lora TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4
otebook组成一个2节点的分布式调试环境。 script_interpreter:可选参数,指定使用哪个python环境来执行训练任务,如果未指定,会默认使用当前的kernel。 log_url:可选参数,一个OBS地址,本地训练过程中,SDK会自动将训练的日志上传到该位置;
Train_command_path 必填,训练启动脚本,输入启动脚本地址,例如“/xxx/xxx/main.py”。仅支持shell脚本和python脚本。脚本示例可以参考train.py示例。如果是SWR容器内的地址,则填写绝对路径;如果是AI Gallery仓库内的地址,则填写相对路径。 同时,还需要在“模
参数名称。 value String 参数值。 description String 参数描述信息。 constraint constraint object 参数属性。 i18n_description i18n_description object 国际化描述。 表8 constraint
准备AscendSpeed训练代码。 准备镜像 准备训练模型适用的容器镜像。 微调训练 SFT全参微调 介绍如何进行SFT全参微调,包括训练数据处理、超参配置、创建训练任务及性能查看。 LoRA微调训练 介绍如何进行LoRA微调训练,包括训练数据处理、超参配置、创建训练任务及性能查看。 父主题: Q
example = SWRImage(swr_path = "**") # 容器镜像地址,用于模型注册节点的输入 表9 GalleryModel 属性 描述 是否必填 数据类型 subscription_id 订阅模型的订阅ID 是 str version_num 订阅模型的版本号
参数名称。 value String 参数值。 description String 参数描述信息。 constraint constraint object 参数属性。 i18n_description i18n_description object 国际化描述。 表8 constraint
模型存放路径,AI Gallery的模型仓库地址,包含模型仓库的所有文件。 “/home/ma-user/.cache/gallery/model/ur12345--gpt2” ENV_AG_DATASET_DIR 数据集存放路径,AI Gallery的数据集仓库地址,包含数据集仓库的所有文件。
服务启动失败,提示拉取镜像失败,请参考服务部署、启动、升级和修改时,拉取镜像失败如何处理? 资源不足,服务调度失败 服务启动失败,提示资源不足,服务调度失败,请参考服务部署、启动、升级和修改时,资源不足如何处理? 内存不足 服务启动失败,提示内存不足,请参考内存不足如何处理? 父主题: 服务部署
本工具支持x86和ARM的系统环境,使用前需要安装以下软件。 表2 安装软件及步骤 软件 安装步骤 mindspore-lite 安装版本:2.2.10 下载地址:https://www.mindspore.cn/lite/docs/zh-CN/r2.2/use/downloads.html 需要下
processes”或“Buildimge,False,Error response from daemon,Cannot pause container xxx”如何解决? 问题现象 在Notebook里保存镜像时报错“there are processes in 'D' status, please check
节点。还支持编辑资源标签操作。 图3 单个节点操作 在节点的搜索栏,支持通过节点的名称、节点状态、高可用冗余、批次、驱动版本、驱动状态、IP地址、资源标签等关键字搜索节点。 支持导出Standard资源池的节点信息到Excel表格中,方便查阅。勾选节点名称,在节点列表上方单击“导出
connect returned Connection refused, retrying”,则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量,该环境变量由系统自动注入,训练代码中无需设置。训练代码去除N
instance_ip_obj = os.popen("curl http://169.254.169.254/latest/meta-data/local-ipv4") instance_ip = instance_ip_obj.read()
仅支持313T、376T、400T 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表及权重文件地址 支持模型 支持模型参数量 权重文件获取地址 Llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
仅支持313T、376T、400T 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表及权重文件地址 支持模型 支持模型参数量 权重文件获取地址 Llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf