检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
微调包含SFT和LoRA微调。数据集预处理脚本参数说明如下: --input:原始数据集的存放路径。 --output-prefix:处理后的数据集保存路径+数据集名称(例如:alpaca_gpt4_data) --tokenizer-type:tokenizer的类型,可选项有['Be
Msprobe是MindStudio Training Tools工具链下精度调试部分的工具包,主要包括精度预检、溢出检测和精度比对等功能,目前适配PyTorch和MindSpore框架。这些子工具侧重不同的训练场景,可以定位模型训练中的精度问题。 精度预检工具旨在计算单个API在整
配置通知及时提醒用户作业卡死。 检测规则 卡死检测主要是通过监控作业进程的状态和资源利用率来判定作业是否卡死。会启动一个进程来周期性地监控上述两个指标的变化情况。 进程状态:只要训练作业中存在进程IO有变化,进入下一个检测周期。如果在多个检测周期内,作业所有进程IO都没有变化,则进入资源利用率检测阶段。
要包括DataParallel(DP) 和Distributed Data Parallel (DDP)。torch_npu环境下针对DDP场景的多卡训练有提供支持,具体请参见迁移单卡脚本为多卡脚本。此外,针对deepspeed环境,昇腾有专门的适配环境deepspeed-npu
是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 查询检索参数说明 参数 是否为必选 参数类型 说明 job_type 否 String 指定作业的类型,可选的有“train”和“inference”。查询自动学习资源规格无需此参数。 engine_id 否
查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。 如图所示,表示有值,节点已开启topo文件和ranktable文件的下发。否则,联系技术支持处理。 图5 查看节点的yaml文件 父主题: Lite Cluster资源使用
IAM用户 由账号在IAM中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。 在我的凭证下,您可以查看账号ID和IAM用户ID。通常在调用API的鉴权过程中,您需要用到账号、用户和密码等信息。 区域 指云资源所在的物理位置,同一区域内可用区间内网互通,不同区域间
device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。 触发条件和下面的因素有关: 文件名越长,文件数量的上限越小。 blocksize越小,文件数量的上限越小。( blocksize,系统默认 4096B
优先使用手工进行数据复制的工作并验证 一般在镜像里不包含训练所用的数据和代码,所以在启动镜像以后需要手工把需要的文件复制进去。建议数据、代码和中间数据都放到"/cache"目录,防止正式运行时磁盘占满(请见ModelArts环境挂载目录说明)。建议linux服务器申请的时候,有足够大的内存(8G以上)以及足够大的硬盘(100G以上)。
看已完成标注的图片,或者通过右侧的“全部标签”列表,了解当前已完成的标签名称和标签数量。 同步或添加图片 在“数据标注”节点单击“实例详情”进入数据标注页面,数据标注的图片来源有两种,通过本地添加图片和同步OBS中的图片数据。 图3 添加本地图片 图4 同步OBS图片数据 添加数
昇腾迁移方案的基础上,提供了即开即用的云上集成开发环境,包含迁移所需要的算力资源和工具链,以及具体的Notebook代码运行示例和最佳实践,并对于实际的操作原理和迁移流程进行说明,包含迁移后的精度和性能验证、调试方法说明。 核心概念 推理业务昇腾迁移整体流程及工具链 图1 推理业务昇腾迁移整体路径
CANN 8.0.RC3 MindSpore Lite 2.3.0 OS arm ultralytics 8.2.70 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.909-xxx.zip软件包中的AscendCloud-CV-6
String 可选值有以下两种。 “asc”为递增排序。 “desc”为递减排序,默认为“desc”。 search_content 否 String 指定要查询的文字信息,例如参数名称。默认为空。 config_type 否 String 指定要查询的配置类型,可选值有以下两种 “custom”为查询用户自定义配置。
3指使用0-3卡执行训练任务。 训练成功标志 “***** train metrics *****”关键字打印 训练完成后,请参考查看日志和性能章节查看指令微调的日志和性能。 如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考 附录:训练常见问题解决。
行 循环处理其中的单轮对话 在单轮对话中 对user和assistant的文本进行清洗 分别encode处理后的文本,获得对应的token序列,user_ids和assistant_ids input_ids是user_ids和assistant_ids的拼接 labels与in
会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 驱动升级有两种升级方式:安全升级、强制升级。 安全升级:不影响正在运行的业务,开始升级后会先将节点进行隔离(不能再下发新的作业),待节点上的存量作业运
_id同时使用。 auth_type 否 String 授权类型。可选值有PUBLIC、PRIVATE、INTERNAL。默认值为PUBLIC。 PUBLIC:租户内部公开访问。 PRIVATE:仅创建者和主账号可访问。 INTERNAL:创建者、主账号、指定IAM子账号可访问,需要与grants参数配合使用。
制化模型开发工具。自动学习功能根据标注数据自动设计模型、自动调参、自动训练、自动压缩和部署模型。开发者无需专业的开发基础和编码能力,只需上传数据,通过自动学习界面引导和简单操作即可完成模型训练和部署。 当前自动学习支持快速创建图像分类、物体检测、预测分析、声音分类和文本分类模型的
提供简单易用、安全可靠的镜像管理功能,帮助您快速部署容器化服务。您可以通过界面、社区CLI和原生API上传、下载和管理容器镜像。 您制作的自定义镜像需要上传至SWR服务。ModelArts开发环境、训练和创建模型使用的自定义镜像需要从SWR服务管理列表获取。 图1 获取镜像列表 对象存储服务
returned Connection refused, retrying”。 原因分析 NCCL是一个提供GPU间通信原语的库,实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时,可以通过调整NCCL的环境变量尝试解决问题。 处理步骤 进入状态“运行失败”的训练作业