检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
务(Object Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,只有llama3-8B/70B支持该功能。 适配的CANN版本是cann_8
务(Object Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,只有llama3-8B/70B支持该功能。 适配的CANN版本是cann_8
务(Object Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格。 适配的CANN版本是cann_8.0.rc3,驱动版本是23.0.6。
图9 资源创建成功 若ModelArts弹性节点Server创建失败,可能由多种原因导致,以下给出了几种类型的可能原因进行快速排查和定位解决。 资源不足:跳转到BMS页面,查看要购买的规格是否售罄,如果该规格售罄,说明无该规格资源,需要联系客户经理获取到资源后再进行购买。 配额
1、如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考 附录:指令微调训练常见问题解决 2、训练中遇到"ImportError: This modeling file requires the following packages
不满足以上镜像规范,所制作的镜像使用可能会出现故障,请用户检查镜像规范,并参考Notebook自定义镜像故障基础排查自行排查,如未解决请联系华为技术工程师协助解决。 操作流程 准备一台Linux环境,这里以ECS为例。 在ECS中构建镜像(本文档提供了Dockflie样例文件)。 将构建的镜像推到SWR。
/home/ma-user/miniconda3 # 设置容器镜像预置环境变量 # 请务必设置 PYTHONUNBUFFERED=1, 以免日志丢失 ENV PATH=$PATH:/home/ma-user/miniconda3/bin \ PYTHONUNBUFFERED=1
/home/ma-user/miniconda3 # 设置容器镜像预置环境变量 # 请务必设置 PYTHONUNBUFFERED=1, 以免日志丢失 ENV PATH=$PATH:/home/ma-user/miniconda3/bin \ PYTHONUNBUFFERED=1
如果没有挂载任何外部存储,此时可用存储空间根据dockerBaseSize的配置来决定,可访问的存储空间比较小,因此建议通过挂载外部存储空间解决存储空间受限问题。容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,您可根据业务实际情进行选择。 4 (可选)配置驱动 当专属资
能。 1、如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考 附录:微调训练常见问题解决。 2、训练中遇到"ImportError: This modeling file requires the following packages
error_code String 调用失败时的错误码,具体请参见错误码,调用成功时无此字段。 error_solution String 调用失败时的提示解决信息,调用成功时无此字段。 表57 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。
it 重要 可能是由于DDR颗粒温度过高或过温软件预警 暂停业务,重启系统,查看散热系统,device复位 可能造成过温下电及device丢失 NPU: 存在不可纠正ECC错误 UncorrectableEccErrorWarning 重要 NPU卡出现Uncorrectable
标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。 筛选数据 在标注作业详情页面,默认展示作业中全部未标注的数据,您可
do_validation:数据扩增前是否进行数据校验。默认值为True。 Translate 图片平移,将图片整体向X轴或Y轴平移,超出原图部分舍弃,丢失部分用黑色填充。 translateXY:平移的方向,X为水平,Y为竖直。默认值为X do_validation:数据扩增前是否进行数据校验。默认值为True。
Server使用ECS服务器时不支持重装操作系统,部分区域使用裸金属服务器时也不支持重装操作系统,如果您想重装操作系统,您可通过切换操作系统的方式解决。更多信息,请参见Server使用前须知。 ModelArts Lite Server服务器重装或者切换操作系统后,对应的EVS系统盘ID发生变化,和下单时订单中的EVS
优先级。 红色为高优先级,黄色为中等优先级,绿色为低优先级。参考html进行分析调优时,请按照优先级从高到低依次进行并测试调优后性能,快速解决重点问题。 图1 html报告总览-三大模块 当前advisor的performance problem analysis中包含如下分析项。
M模型要小得多。 为每个模型提供针对性的投机模型: Eagle的模型大小及结构,与基模型的某一层完全相同,这使得它的大小远远小于其基模型。解决了对于部分原始LLM模型,找不到合适的投机模型的问题。 投机小模型训练端到端示例 本章节提供eagle小模型自行训练的能力,客户可通过本章
Notebook实例运行中,可以通过动态挂载OBS并行文件系统操作来增加数据存储路径。 停止或重启Notebook实例时,存储的内容会被保留,不丢失。 删除Notebook实例时,EVS存储会一起释放,存储的内容不保留。SFS可以重新挂载到新的Notebook,可以保留数据。 “扩展存储配置”
error_code String 调用失败时的错误码,具体请参见错误码,调用成功时无此字段。 error_solution String 调用失败时的提示解决信息,调用成功时无此字段。 父主题: 训练作业
日志和性能。 如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考 附录:训练常见问题解决。 训练中遇到"ImportError: This modeling file requires the following packages