检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 export
可选项。用于指定DeepSpeed的配置文件相对或绝对路径。DeepSpeed是一个开源库,用于加速深度学习训练。通过使用DeepSpeed,可以实现如混合精度训练、ZeRO内存优化等高级特性,以提高训练效率和性能 stage sft 表示训练类型。可选择值:[pt、sf、rm、ppo]
其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。 具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。 父主题: 训练脚本说明
参数 说明 资产分类 选择“模型”。 发布方式 发布方式选择“创建新资产”。 资产标题 在AI Gallery显示的资产名称,建议按照您的实现目的设置。 来源 选择“HiLens”。 HiLens区域 设置可以使用该资产的HiLens区域,以控制台实际可选值为准。 技能名称 从HiLens技能管理中选择待分享的技能。
内存传输到另一台计算机。 RoCE:RDMA over Converged Ethernet(RoCE)是一种网络协议,允许应用通过以太网实现远程内存访问。 IB:InfiniBand (IB) 是一种高性能计算机网络通信协议,专为高性能计算和数据中心互连设计。 弹性云服务器的对应的软件配套版本
torchair_cache文件夹,避免由于缓存文件与实际推理不匹配而报错。 若要使用eagle投机,配置环境变量,使eagle投机对齐实验室版本实现。目前默认开启此模式,若不开启,目前vllm0.6.0版本与实验室版本权重无法对齐,会导致小模型精度问题。 export EAGLE_US
的情况。造成这种情况的原因可能有如下几种: 模型中存在大量的类似于Pad或者Strided_Slice等算子,其在CPU和Ascend上的实现方法存在差异(硬件结构不同),后者在运算此类算子时涉及到数组的重排,性能较差; 模型的部分算子在昇腾上不支持,或者存在Transpose操
"num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则?<eoh>\n", "Inner Thoughts": "<|Inner Thoughts|>:
"num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则?<eoh>\n", "Inner Thoughts": "<|Inner Thoughts|>:
包括predictor configs结构和transformer configs 服务配置,不设置此参数时,表示不更新。关于configs如何生成,请参见部署在线服务。 更新服务配置时,存在以下约束: 参数status指定的目标状态不允许和当前服务状态相同。 当前服务状态是dep
准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备镜像 准备训练模型适用的容器镜像。 执行训练任务(预训练/微调) 执行训练任务(推荐) 介绍如何进行预训练,包括训练数据处理、超参配置、创建训练任务及性能查看。 查看训练结果 查看日志和性能 查看训练后的日志,训练的性能结果。 父主题:
准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备镜像 准备训练模型适用的容器镜像。 执行训练任务(预训练/微调) 执行训练任务(推荐) 介绍如何进行训练,包括训练数据处理、超参配置、训练任务、性能查看。 查看训练结果 查看日志和性能 查看训练后的日志,训练的性能结果。 训练评测 训练性能测试
其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。 具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。 父主题: 训练脚本说明
、2_convert_mg_hf.sh中的具体python指令,并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文件,并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。 import moxing as mox # OBS存放数据路径 obs_data_dir=
动不满足业务要求,可通过本章节将驱动升级到指定版本。 5 (可选)配置镜像预热 Lite Cluster资源池支持镜像预热功能,镜像预热可实现将镜像提前在资源池节点上拉取好,在推理及大规模分布式训练时有效缩短镜像拉取时间。 快速配置Lite Cluster资源案例 下文提供一个快
Integer 对应时间单位的数值,比如2小时后停止,则“time_unit”填“HOURS”,“duration”填“2”。 给出MXNet实现手写数字识别项目中部署在线predictor实例: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
torchair_cache文件夹,避免由于缓存文件与实际推理不匹配而报错。 如果要使用eagle投机,配置环境变量,使eagle投机对齐实验室版本实现。目前默认开启此模式,如果不开启,目前vllm0.6.3版本与实验室版本权重无法对齐,会导致小模型精度问题。 export EAGLE_U
出于分析或审计等目的,用户可以开启ModelArts的日志记录功能。在您开启了云审计服务后,系统会记录ModelArts的相关操作,且控制台保存最近7天的操作记录。本节介绍如何在云审计服务管理控制台查看最近7天的操作记录。 对接云审计服务的配置方法请参见查看审计日志章节。 父主题: 安全
"num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则?<eoh>\n", "Inner Thoughts": "<|Inner Thoughts|>:
"num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则?<eoh>\n", "Inner Thoughts": "<|Inner Thoughts|>: