检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修改lr_scheduler.py文件,把第27行:t_mul=1. 注释掉。 修改data文件夹下imagenet22k_dataset.py,把第28行:print("ERROR IMG LOADED: ", path) 注释掉。 修改data文件夹下的build.py文件,把第112行:prefix
例如,通过JupyterLab在“TensorFlow-1.8”的环境中安装Shapely。 打开一个Notebook实例,进入到Launcher界面。 在“Notebook”区域下,选择“TensorFlow-1.8”,新建一个ipynb文件。 在新建的Notobook中,在代码输入栏输入如下命令。
的进程退出码,判断训练作业是否结束。 通过task name判断的哪个节点是worker。下发的训练作业是一个volcano job,里边会有两个task:一个是ps、一个是worker。两个task的启动命令不同,会自动生成超参--task_name,ps的--task_name=ps,worker的
哪里可以了解Atlas800训练服务器硬件相关内容 场景描述 本文提供Atlas800训练服务器硬件相关指南,包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+Sn
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
# 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。
在代码目录下提供安装文件 如果使用“我的算法”创建训练作业,则在创建算法时,可以把相关文件放置在配置的“代码目录”下,算法的“启动方式”必须选择“预置框架”。 如果使用“自定义算法”创建训练作业,则可以把相关文件放置在配置的“代码目录”下,“启动方式”必须选择“预置框架”。 需要在
确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 软件配套版本 表1 获取软件 分类 名称 获取路径 插件代码包 AscendCloud-6.3.907软件包中的AscendCloud-AIGC-6.3.907-xxx
CLI配置工具包(云服务器) 如果是在ModelArts Lite等云服务器安装Gallery CLI配置工具,则参考本节将工具包下载至云服务器。 登录AI Gallery,单击右上角“我的Gallery”进入我的Gallery页面。 左侧菜单栏选择“我的资源 > 云服务器”,单击专属资源池页签进入云服务详情页面。
自动学习项目中,如何进行增量训练? 在自动学习项目中,每训练一次,将自动产生一个训练版本。当前一次的训练结果不满意时(如对训练精度不满意),您可以适当增加高质量的数据,或者增减标签,然后再次进行训练。 增量训练目前仅支持“图像分类”、“物体检测”、“声音分类”类型的自动学习项目。
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象 在Vnt1 GPU裸金属服务器(Ubuntu18.04系统),安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc
本案例用于指导用户使用ModelArts Studio大模型即服务平台(下面简称为MaaS)的Qwen2-7B模型框架,创建并部署一个模型服务,实现对话问答。通过学习本案例,您可以快速了解如何在MaaS服务上的创建和部署模型。更多MaaS服务的使用指导请参见用户指南。 操作流程 开始使用如下样例前,请务必按准备工作指导完成必要操作。
Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通,因此保证SFS Turbo与Server服务器在同一区域即可。 当创建文件系统后,您需要使用弹性裸金属服务器来挂载该文件系统,具体步骤请参考挂载NFS协议类型文件系统到云服务器(Linux)。 为避免已挂载文件系统的云服务器重启后,挂载信息丢失,
# 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。
MindSpore引擎的分布式训练参见MindSpore官网。 训练流程简述 单机多卡数据并行训练流程介绍如下: 将模型复制到多个GPU上 将一个Batch的数据均分到每一个GPU上 各GPU上的模型进行前向传播,得到输出 主GPU(逻辑序号为0)收集各GPU的输出,汇总后计算损失 分发损失,各GPU各自反向传播梯度
确认信息无误,然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。 停止服务器为“强制关机”方式,会中断您的业务,请确保服务器上的文件已保存。 父主题: Lite Server资源管理
推理精度测试 本章节介绍如何进行推理精度测试,请在Notebook的JupyterLab中另起一个Terminal,进行推理精度测试。 Step1 配置精度测试环境 获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中,代码目录结构如下。
Notebook等线上开发工具工程化开发体验不如IDE,但是本地开发服务器等资源有限,运行和调试环境大多使用团队公共搭建的CPU或GPU服务器,并且是多人共用,这带来一定的环境搭建和维护成本。因此使用本地IDE+远程Notebook结合的方式,可以同时享受IDE工程化开发和云上资源的即开即用,优势互补,满足开发者需求。
在ModelArts中如何查看OBS目录下的所有文件? 在使用Notebook或训练作业时,需要查看目录下的所有文件,您可以通过如下方式实现: 通过OBS管理控制台进行查看。 使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件。 通过接口判断路径是否存在。在已有
NPU卡存在HBM的ECC错误,此事件上报相应错误信息 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 NPU: HCCS交换机端口故障 NpuHccsPortFault 重要 NPU的L1 1520交换机端口发生故障 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理