检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本案例介绍如何从0到1制作Ascend容器镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是MindSpore,训练使用的资源是专属资源池的Ascend芯片。 约束限制 由于案例中需要下载商用版CANN,因此本案例仅面向有下载权限的渠道用户,非渠道用户建议参考其他自定义镜像制作教程。
Lite Cluster资源使用 在Lite Cluster资源池上使用Snt9B完成分布式训练任务 在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 在Lite Cluster资源池上使用Snt9B完成推理任务
运行完成后,会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数 该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中,供推理时使用。 使用的抽取脚本由vllm社区提供:
设置为允许远程接入访问这个Notebook的IP地址(例如本地PC的IP地址或者访问机器的外网IP地址,最多配置5个,用英文逗号隔开),不设置则表示无接入IP地址限制。 如果用户使用的访问机器和ModelArts服务的网络有隔离,则访问机器的外网地址需要在主流搜索引擎中搜索“IP地址查询”获取,而不是使用ipco
数据集要求 预测分析项目中需要使用到的数据集为表格数据集,数据格式支持csv格式。表格数据集的具体介绍请参见表格数据集。 将原始.xlsx格式的数据转换为.csv格式的数据的方法如下: 将原始表格数据(.xlsx)另存。单击“文件>另存为”,选择本地地址后,下拉选择“保存类型”为“CSV
AI应用来源:默认为生成的AI应用。 选择AI应用及版本:自动匹配当前使用的AI应用版本,支持选择版本。 资源池:默认公共资源池。 分流:默认为100,输入值必须是0-100之间。 计算节点规格:请根据界面显示的列表,选择可用的规格,置灰的规格表示当前环境无法使用。如果公共资源池下规
被用户标注为某个分类的所有样本中,模型正确预测为该分类的样本比率,反映模型对正样本的识别能力。 precision:精确率 被模型预测为某个分类的所有样本中,模型正确预测的样本比率,反映模型对负样本的区分能力。 accuracy:准确率 所有样本中,模型正确预测的样本比率,反映模型对样本整体的识别能力。
完成音频标注后,可以进行模型的训练。模型训练的目的是得到满足需求的声音分类模型。由于用于训练的音频,至少有2种以上的分类,每种分类的音频数不少于5个。 操作步骤 在开始训练之前,需要完成数据标注,然后再开始模型的自动训练。 在新版自动学习页面,单击项目名称进入运行总览页面,单击数据标注节点的“实例详情”进入数据标注页面,完成数据标注。
训练文本分类模型 完成数据标注后,可进行模型的训练。模型训练的目的是得到满足需求的文本分类模型。由于用于训练的文本,至少有2种以上的分类(即2种以上的标签),每种分类的文本数不少于20个。因此在单击“继续运行”按钮之前,请确保已标注的文本符合要求。 操作步骤 在新版自动学习页面,
VS Code中把本地的指定插件安装到远端或把远端插件安装到本地 在VS Code的环境中执行Ctrl+Shift+P 搜install local,按需选择即可 父主题: VS Code使用技巧
使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel
Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。 用于训练的图片,至少有1种以上的分类,每种分类的图片数不少50张。 创建数据集 数据准备完成后,需要创建相应项目支持的类型的数据集,具体操作请参考创建ModelArts数据集。
使用AppCode认证鉴权方式进行在线预测 场景描述 APPcode认证是一种简易的API调用认证方式,通过在HTTP请求头中添加参数X-Apig-AppCode来实现身份认证,无需复杂的签名过程,适合于客户端环境安全可控的场景,如内网系统之间的API调用。在ModelArts中
导入ModelArts SDK的依赖,并初始化Session,此处的ak、sk、project_id、region_name请替换成用户自己的信息 from modelarts.session import Session # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议
Cluster资源池上使用Snt9B完成分布式训练任务 场景描述 本案例介绍如何在Snt9B上进行分布式训练任务,其中Cluster资源池已经默认安装volcano调度器,训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型,详细代码和指导可参考Bert。
read_csv(ff, **param) 必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
LLM/AIGC/数字人基于Server适配NPU的训练推理指导 ModelArts提供了丰富的关于Server使用NPU进行训练推理的案例指导,涵盖了LLM大语言模型、AIGC文生图、数字人等主流应用场景。您可单击链接,即可跳转至相应文档查看详细指导。 LLM大语言模型 主流开
由于最终JSON体中需要填写的是图片文件的真实路径,也就是OBS对应的路径,所以在复制到本地做完分析和评估操作后,需要将原来的本地数据集路径映射到OBS路径,然后将新的list送入analysis接口。 如果使用的是OBS路径作为输入的data_url,则只需要替换本地路径的字符串即可。 1
在需要查看的事件左侧,单击展开该事件的详细信息。 单击需要查看的事件“操作”列的“查看事件”,可以在弹窗中查看该操作事件结构的详细信息。 更多关于云审计服务事件结构的信息,请参见《云审计服务用户指南》。 父主题: 使用CTS审计ModelArts服务
Server在日常操作与维护过程中涉及的高危操作,需要严格按照操作指导进行,否则可能会影响业务的正常运行。 高危操作风险等级说明: 高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。 中:对于可能导致安全风险及可靠性降低的高危操作。 低:高、中风险等级外的其他高危操作。 表1