检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
资源池 创建资源池失败 Standard资源池节点故障定位 专属资源池关联SFS Turbo显示异常
对于集群训练场景,昇腾提供了集群分析工具cluster_analysis,当前主要对基于通信域的迭代内耗时分析、通信时间分析以及通信矩阵分析为主,从而定位慢卡、慢节点以及慢链路问题。 父主题: PyTorch迁移性能调优
创建网络 购买ModelArts专属资源池 购买弹性云服务器ECS 基本配置: 权限配置 专属资源池VPC打通 ECS服务器挂载SFS Turbo存储 (可选)工作空间配置 训练: 上传数据和算法至SFS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 多机多卡
仅需要修改预训练中的多机训练执行命令即可 - name: main args: - cd /mnt/sfs_turbo/llm_train/AscendSpeed; sh scripts/llama2/0_pl_sft_70b.sh
"@modelarts:shape": "bndbox", "@modelarts:feature": [[347, 186], [382, 249]]}, {"@modelarts:color":
"conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则?<eoh>\n"
仅需要修改预训练中的多机训练执行命令即可 - name: main args: - cd /mnt/sfs_turbo/llm_train/AscendSpeed; sh scripts/llama2/0_pl_lora_70b
"conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则?<eoh>\n"
要满足自定义模型规范,否则该模型无法正常使用AI Gallery工具链服务(微调大师和在线推理服务)。 当托管的是自定义镜像时,上传的模型文件要满足自定义镜像规范,否则该镜像无法正常使用AI Gallery工具链服务(微调大师和在线推理服务)。 当文件状态变成“上传成功”表示数据文件成功上传至AI
替换的目标值。 响应参数 状态码: 200 表5 响应Header参数 参数 参数类型 描述 X-Request-Id String 请求链路编号,可用于日志追踪 表6 响应Body参数 参数 参数类型 描述 update_time String 本次更新时间,仅触发服务配置升级
给子账号配置部署上线基本使用权限 管理员和开发者权限分离 使用Cloud Shell登录训练容器 限制用户使用公共资源池 给子账号配置文件夹级的SFS Turbo访问权限 父主题: Standard权限管理
注册镜像。 验证SFS权限。 在左上角的服务列表中,选择SFS服务,进入SFS管理控制台。 在SFS管理控制台,在SFS Turo中单击右上角的“创建文件系统”,如果能正常打开页面,表示当前用户具备SFS的操作权限。 验证ECS权限。 在左上角的服务列表中,选择ECS服务,进入ECS管理控制台。
准备训练模型适用的容器镜像。 准备Notebook 本案例需要创建一个Notebook,以便能够通过它访问SFS Turbo服务。随后,通过Notebook将OBS中的数据上传至SFS Turbo,并对存储在SFS Turbo中的数据执行编辑操作。 预训练 预训练 介绍如何进行预训练,包括训练数据处理、超参配置、创建训练任务及性能查看。
可用区是在同一区域下,电力、网络隔离的物理区域。可用区之间内网互通,不同可用区之间物理隔离。 随机分配:系统自动分配可用区。 指定AZ:指定资源池节点在哪个可用区域。考虑系统容灾时,推荐指定节点在同一个可用区。可设置可用区的节点数。 节点数量 选择专属资源池的节点数,选择的节点数越多,计算性能越强。
如果图片不是(1,336,336)shape,将会被resize。 --image-feature-size:图片输入解析维度大小;llava-v1.6图片输入维度与image-feature-size关系映射表见git;计算原理如下: 最小处理单元为14*14 【llava1.5】
command: ["/bin/sh", "-c"] args: - cd /mnt/sfs_turbo/llm_train/AscendSpeed; sh scripts/llama2/0_pl_pretrain_70b
如果图片不是(1,336,336)shape,将会被resize。 --image-feature-size:图片输入解析维度大小;llava-v1.6图片输入维度与image-feature-size关系映射表见git;计算原理如下: 最小处理单元为14*14 【llava1.5】
如果图片不是(1,336,336)shape,将会被resize。 --image-feature-size:图片输入解析维度大小;llava-v1.6图片输入维度与image-feature-size关系映射表见git;计算原理如下: 最小处理单元为14*14 【llava1.5】
x版本,推荐使用3.7.x版本。 如果本地安装SDK时,出现如下图中的报错,需要先安装3.1.1版本的futures依赖包,然后再重新安装SDK。 pip install futures==3.1.1 图1 安装ModelArts SDK报错信息 当pip版本>=24.1版本时,会对
project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 feature 否 String 实例类别,默认为NOTEBOOK。枚举值如下: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。