检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
8*Ascend lora gradient_accumulation_steps: 8 ZeRO-3 1*节点 & 4*Ascend 以上参数为开启NPU FlashAttention融合算子,上述参数值仅供参考,请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy
PFA算子(全量prefill阶段的flash-attention)是否使用高精度模式;默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型,必须开启此配置,否则精度会异常;其他模型不建议开启,会影响首token时延增加5%~10%。 export USE_IFA_HIGH_PRECISION_MODE=1
必须开启此参数。 --served-model-name:vllm服务后台id。 可在run_vllm.sh增加如下环境变量开启高阶配置: export DEFER_DECODE=1 # 是否使用推理与Token解码并行;默认值为1表示开启并行,取值为0表示关闭并行。开启该功能
USE_PFA_HIGH_PRECISION_MODE=1 # PFA算子是否使用高精度模式;默认值为0表示不开启。针对Qwen2-7B模型和Qwen2-57b模型,必须开启此配置,否则精度会异常;其他模型不建议开启,因为性能会有损失。 若要开启图模式,请配置以下4个环境变量,并且启动服务时不要添加enforce-eager参数。
PFA算子(全量prefill阶段的flash-attention)是否使用高精度模式;默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型,必须开启此配置,否则精度会异常;其他模型不建议开启,会影响首token时延增加5%~10%。 export USE_IFA_HIGH_PRECISION_MODE=1
在ModelArts训练平台使用的自定义镜像时,默认用户为ma-user、默认用户组为ma-group。如果在训练时调用ECS中的文件,需要修改文件权限改为ma-user可读,否则会出现Permission denied错误,因此需要在ECS中提前创建好ma-user和ma-group。 在terminal中执行以下命令:
实例运行时长,以创建时间为起点计算,即“创建时间+duration > 当前时刻”时,系统会自动停止实例。 enable Boolean 是否启用自动停止功能。 type String 自动停止类别。 timing:自动停止。 idle:空闲停止。 update_at Long 实例
功能介绍 获取指定的API与APP授权关系列表,API的认证方式必须是APP认证,管理员可以获取所有API的授权信息,普通用户只能获取自己有访问权限的服务下的API的授权信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成S
Studio左侧导航栏中,选择“模型部署”进入服务列表。 选择“我的服务”页签。 选择要调用的服务,单击操作列的“更多 > 调用”弹出调用页面。 选择是否启用内容审核,默认启用。 是,内容审核可以阻止模型推理中的输入输出中出现不合规的内容,但可能会对接口性能产生较大影响。 否,停用内容审核服务,将不会审核
为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。 开启无条件自动重启 开启无条件自动重启有2种方式:控制台设置或API接口设置。
PFA算子(全量prefill阶段的flash-attention)是否使用高精度模式;默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型,必须开启此配置,否则精度会异常;其他模型不建议开启,会影响首token时延增加5%~10%。 export USE_IFA_HIGH_PRECISION_MODE=1
关闭时,表示不复制模型镜像,可极速创建模型,更改或删除SWR源目录中的镜像会影响服务部署。 开启时,表示复制模型镜像,无法极速创建模型,SWR源目录中的镜像更改或删除不影响服务部署。 说明: 如果使用他人共享的镜像,需要开启镜像复制功能,否则会导致创建模型失败。 “健康检查” 用于指定模型的健康检
上方的“操作记录”查看创建失败的资源池。 单击“操作记录”中失败状态的报错信息。 图1 查看报错信息 解决方法 ModelArts权限管理的委托权限不足,导致创建失败? 解决方法请参见ModelArts创建委托授权。 申请的资源中包含受限购买的资源规格,导致购买失败? 当前modelarts
让不同的企业角色只能在指定工作空间下使用资源。 前提条件 已开通工作空间白名单,并配置了ModelArts基本使用权限,具体请参见配置ModelArts基本使用权限。 创建工作空间 登录ModelArts管理控制台。 在左侧导航栏中,选择“工作空间”进入工作空间列表。 单击“创建工作空间”,进入创建页面。
指导请参见创建OBS桶用于ModelArts存储数据。 确保数据存储的OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。 文件型数据从OBS目录导入操作 不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图像分类的数据集为例。
据。 购买专属资源池注意事项 使用场景需要选择ModelArts Lite。 CCE集群已完成创建。 节点数量可自定义选择使用多少节点。 开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。 k8s Cluster资源配置 若已完成集群资源购
据。 购买专属资源池注意事项 使用场景需要选择ModelArts Lite。 CCE集群已完成创建。 节点数量可自定义选择使用多少节点。 开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。 k8s Cluster资源配置 若已完成集群资源购
据。 购买专属资源池注意事项 使用场景需要选择ModelArts Lite。 CCE集群已完成创建。 节点数量可自定义选择使用多少节点。 开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。 k8s Cluster资源配置 若已完成集群资源购
在JupyterLab中使用MindInsight可视化作业 ModelArts支持在开发环境中开启MindInsight可视化工具。在开发环境中通过小数据集训练调试算法,主要目的是验证算法收敛性、检查是否有训练过程中的问题,方便用户调测。 MindInsight能可视化展现出训
USE_PFA_HIGH_PRECISION_MODE=1 # PFA算子是否使用高精度模式;默认值为0表示不开启。针对Qwen2-7B模型和Qwen2-57b模型,必须开启此配置,否则精度会异常;其他模型不建议开启,因为性能会有损失。 如果需要增加模型量化功能,启动推理服务前,先参考推理模型量化章节对模型做量化处理。