检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ
Ascend-vLLM介绍 Ascend-vLLM概述 vLLM是GPU平台上广受欢迎的大模型推理框架,因其高效的continuous batching和pageAttention功能而备受青睐。此外,vLLM还具备投机推理和自动前缀缓存等关键功能,使其在学术界和工业界都得到了广泛应用
更新Notebook实例 变更镜像 ModelArts允许用户在同一个Notebook实例中切换镜像,方便用户灵活调整实例的AI引擎。Notebook实例状态需在“停止”中才可以变更镜像。 请注意,变更镜像后可能会导致Notebook实例无法启动,镜像对应的Notebook实例规格不匹配
自动学习简介 自动学习功能介绍 ModelArts自动学习是帮助人们实现模型的低门槛、高灵活、零代码的定制化模型开发工具。自动学习功能根据标注数据自动设计模型、自动调参、自动训练、自动压缩和部署模型。开发者无需专业的开发基础和编码能力,只需上传数据,通过自动学习界面引导和简单操作即可完成模型训练和部署
在JupyterLab使用Git克隆代码仓 在JupyterLab中使用Git插件可以克隆GitHub开源代码仓库,快速查看及编辑内容,并提交修改后的内容。 前提条件 Notebook处于运行中状态。 打开JupyterLab的git插件 在Notebook列表中,选择一个实例,单击右侧的打开进入
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持
使用Notebook进行代码调试 背景信息 Notebook使用涉及到计费,具体收费项如下: 处于“运行中”状态的Notebook,会消耗资源,产生费用。根据您选择的资源不同,收费标准不同,价格详情请参见产品价格详情。当您不需要使用Notebook时,建议停止Notebook,避免产生不必要的费用
计费样例 计费场景一 某用户于2023/03/18 15:30:00使用一个按需计费的公共资源池进行训练,规格配置如下: 规格:CPU: 8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数:1个 用了一段时间后,于2023/03/20 10:30:00停止训练作业
Standard资源池节点故障定位 节点故障定位 对于Standard资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持
使用AI Gallery微调大师训练模型 AI Gallery支持将模型进行微调,训练后得到更优模型。 场景描述 模型微调是深度学习中的一种重要技术,它是指在预训练好的模型基础上,通过调整部分参数,使其在特定任务上达到更好的性能。 在实际应用中,预训练模型是在大规模通用数据集上训练得到的
AI Gallery简介 AI Gallery算法、镜像、模型、Workflow等AI数字资产的共享,为高校科研机构、AI应用开发商、解决方案集成商、企业级/个人开发者等群体,提供安全、开放的共享及交易环节,加速AI资产的开发与落地,保障AI开发生态链上各参与方高效地实现各自的商业价值
训练作业日志中提示“No such file or directory” 问题现象 训练作业运行失败,日志中提示“No such file or directory”。 例如:找不到训练输入的数据路径时,会提示“No such file or directory”。 例如:找不到训练启动文件时
Cluster资源池节点故障如何定位 故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节点故障指标默认会上报到
在Notebook中通过Dockerfile从0制作自定义镜像 场景说明 本案例将基于ModelArts提供的MindSpore预置镜像,并借助ModelArts命令行工具(请参考ma-cli镜像构建命令介绍),通过加载镜像构建模板并修改Dockerfile,构建出一个新镜像,最后注册后在
入门案例:快速创建一个物体检测的数据集 本节以准备训练物体检测模型的数据为例,介绍如何针对样例数据,进行数据分析、数据标注等操作,完成数据准备工作。在实际业务开发过程中,可以根据业务需求选择数据管理的一种或多种功能完成数据准备。此次操作分为以下流程: 准备工作 创建数据集 数据分析
使用SDK调测多机分布式训练作业 代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,仅需修改7和11中的 framework_type参数值即可,例如:MindSpore框架,此处framework_type
修复Standard专属资源池故障节点 Standard专属资源池支持对故障节点进行修复操作,目前提供了替换节点、高可用冗余节点、重置节点和重启节点等方式。华为云技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行,本章节同时也介绍了如何进行授权操作。 故障节点处理方式