检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见问题 首次使用ModelArts如何配置授权? 直接选择“新增委托”中的“普通用户”权限即可,普通用户包括用户使用ModelArts完成AI开发的所有必要功能权限,如数据的访问、训练作业的创建和管理等。一般用户选择此项即可。 如何获取访问密钥AK/SK? 如果在其他功能(
训练网络迁移总结 确保算法在GPU训练时,持续稳定可收敛。避免在迁移过程中排查可能的算法问题,并且要有好的对比标杆。如果是NPU上全新开发的网络,请参考PyTorch迁移精度调优排查溢出和精度问题。 理解GPU和NPU的构造以及运行的差别,有助于在迁移过程中分析问题并发挥NPU的
被删除,再次启动时需要重新加载。为了避免反复加载,平台允许使用资源池节点的本地存储空间来加载模型包,并在服务停止和重启时仍有效(通过哈希值保证数据一致性) 使用大模型要求用户采用自定义引擎,并开启动态加载的模式导入模型。基于此,需要执行以下操作: 如果模型超过默认配额值,需要提工
如何在ModelArts的Notebook中上传下载OBS文件? 在Notebook中可以通过调用ModelArts的Moxing接口或者SDK接口与OBS交互,将Notebook中的文件上传至OBS,或者下载OBS中的文件至Notebook中。 图1 Notebook中上传下载OBS文件
如何查看ModelArts消费详情? 在“费用中心”,您可以根据需求按照账期、产品类型等查询ModelArts的消费详情。本章节以查询“账单详情”为例指导您查看计费情况,如需了解更多的账单情况,请参见查看费用账单。 查询方法: 单击右上方的“费用中心 > 费用账单”进入费用中心详情页面,在左侧导航栏选择“账单管理
lArts的Notebook中。 建议配置。 VPC接入 VPC vpc:ports:create vpc:ports:get vpc:ports:delete vpc:subnets:get 实例能够挂载在用户的VPC下,实现多网络平面接入。 按需配置。 操作步骤 本案例场景为
【下线公告】华为云ModelArts服务旧版数据集下线公告 华为云计划于2024/10/31 00:00(北京时间)用AI开发平台ModelArts的新版数据集全面替代旧版数据集,旧版数据集正式下线。 下线范围 下线区域:华北-北京四(其他区域已下线) 受影响服务 ModelArts旧版数据集。
如何正确获取模型名称? 请使用MaaS控制台“调用”页面显示的模型名称,而非服务名称。两者可能不同,直接复制服务名称会导致调用失败。请在配置时仔细核对相关信息。 获取模型名称的操作步骤如下: 方式一:使用预置服务。 在ModelArts Studio控制台左侧导航栏,单击“模型部署”。
推理精度测试 本章节介绍如何进行推理精度测试,建议在Notebook的JupyterLab中另起一个Terminal,进行推理精度测试。若需要在生产环境中进行推理精度测试,请通过调用接口的方式进行测试。 Step1 执行精度测试 精度测试需要数据集进行测试。推荐公共数据集mmlu
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决? 问题现象 VS Code连接开发环境时报错“Bad owner or permissions on C:\Users\Administrator/
训练速度突然下降以及执行nvidia-smi卡顿如何解决? 问题现象 在高性能8卡GPU的裸金属上的训练任务突然变慢,以前1个epoch约2小时执行完成,最近1个epoch需要2天才能执行完成,并且执行“nvidia-smi”也明显变很卡顿。 原因分析 根据现象描述可能出现了nvidia-smi
推理精度测试 本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。 约束限制 确保容器可以访问公网。 当前的精度测试仅适用于语言模型精度验证
推理精度测试 本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。 约束限制 确保容器可以访问公网。 当前的精度测试仅适用于语言模型精度验证
入门案例:快速创建一个物体检测的数据集 本节以准备训练物体检测模型的数据为例,介绍如何针对样例数据,进行数据分析、数据标注等操作,完成数据准备工作。在实际业务开发过程中,可以根据业务需求选择数据管理的一种或多种功能完成数据准备。此次操作分为以下流程: 准备工作 创建数据集 数据分析
语句中的“logits”,表示根据不同网络中分类层权重的变量名,配置不同的参数。此处填写其对应的关键字。 mox.set_flag('checkpoint_exclude_patterns', 'logits') 如果使用的是MoXing内置网络,其对应的关键字需使用如下API获取
量化。 Deepseek-v2系列模型的W8A8量化需要使用llm-compressor工具。 SmoothQuant量化模型 本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x
如何关闭Mox的warmup 问题现象 训练作业mox的Tensorflow版本在运行的时候,会先执行“50steps” 4次,然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch(warmup),由于网络的参数是随机初始化的,如果一开始就采用较大的学习率会出现数值不稳定的问题,这是使用warm
GPU A系列裸金属服务器RoCE带宽不足如何解决? 问题现象 GP Ant8支持RoCE网卡, Ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90GB/s,但实际测试下来的结果只有35GB/s。 原因分析 “nv_peer_mem”是一个Linu
创建桶的区域需要与ModelArts所在的区域一致。例如:当前ModelArts在华北-北京四区域,在对象存储服务创建桶时,请选择华北-北京四。 如何查看OBS桶与ModelArts的所处区域,请参见查看OBS桶与ModelArts是否在同一区域。 请勿开启桶加密,ModelArts不支
推理精度测试 本章节介绍两个精度测评工具。如何使用opencompass工具开展语言模型的推理精度测试,数据集是ceval_gen、mmlu_gen、math_gen、gsm8k_gen、humaneval_gen;以及使用lm-eval工具开展语言模型的推理精度测试,数据集包含