检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
也可以使用可视化工具TrainingLogParser查看loss收敛情况,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在最后一个节点上。
dataset_type:标注类型。 表21 Output 参数 参数类型 描述 name String 数据输出通道名称。 description String 数据输出通道描述信息。 local_dir String 数据输出通道映射的容器本地路径。
为自定义镜像导入使用,非自定义进行在runtime声明 outputTypes 否 Array of strings 在异步模式、视频业务场景下使用,表示输入输出类型如OBS,DIS。
不限时长:不限制作业的运行时长,AI Gallery工具链服务部署完成后将一直处于“运行中”。 指定时长:设置作业运行几小时后停止,当AI Gallery工具链服务运行时长达到指定时长时,系统将会暂停作业。时长设置不能超过计算资源的剩余额度。
├──AutoSmoothQuant # W8A8量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块 ├── autosmoothquant
基于成熟工具 git+aria2,可以做到稳定下载不断线。
基于成熟工具 git+aria2,可以做到稳定下载不断线。
基于成熟工具 git+aria2,可以做到稳定下载不断线。
基于成熟工具 git+aria2,可以做到稳定下载不断线。
├──AutoSmoothQuant # W8A8量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块 ├── autosmoothquant
- 使用场景 例如: 使用YOLOv5算法对工地的视频流裁帧后进行安全帽检测。 使用BertBase算法对用户在app上购买商品后的评论进行理解。 - CPU架构 X86/ARM,自有软件是否支持ARM。 例如:4个推理模型在ARM上运行,6个推理模型在X86上运行。
Atlas 800训练服务器HCCN Tool Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考主要介绍集群网络工具hccn_tool对外接口说明,包括配置RoCE网卡的IP、网关,配置网络检测对象IP和查询LLDP信息等。
当开发者对希望对模型进行开发和训练,AI Gallery为零基础开发者,提供无代码开发工具,快速推理、部署模型;为具备基础代码能力的开发者,AI Gallery将复杂的模型、数据及算法策略深度融合,构建了一个高效协同的模型体验环境,让开发者仅需几行代码即可调用任何模型,大幅度降低了模型开发门槛
以下是一些Function Calling的使用场景: 表1 Function Calling使用场景说明 使用场景 说明 增强能力 大模型通过Function Calling可以调用外部工具或服务,例如实时数据检索、文件处理、数据库查询等,从而扩展其能力。
├──AutoSmoothQuant # W8A8量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块 ├── autosmoothquant_ascend
可选值如下: npuDriver:NPU驱动 gpuDriver:GPU驱动 ccePlugin:CCE插件 helm:Helm模板 icAgent:ICAgent工具 description String 插件模板描述。
由于构造和运行机制的差别,整个迁移过程并非是完全平替,GPU在灵活性上有其独特的优势,而NPU上的执行目前还是依赖于算子的下发,对于NPU构造的理解是昇腾训练迁移中必备的知识,只有对于昇腾有基础理解,配合一些诊断工具,面对复杂问题时,才能进行进一步诊断与定位,进而发挥NPU的能力。
* 执行命令pip --version,确认Python通用包管理工具pip已经存在。
替换深度学习训练加速的工具或增加zero等级,可参考各个模型深度学习训练加速框架的选择,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推,重新训练如未解决则执行下一步。
具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。 父主题: 训练脚本说明