检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
book实例后,安装一些包后,镜像保存过程会提示超过35G大小,保存失败? 原因分析 SWR侧看到的大小是镜像压缩后的大小,解压后实际大小一般是压缩后的2.5~3倍,所以才会安装少量的包后,镜像大小超过35G。 父主题: Standard镜像相关
系统容器异常退出 问题现象 在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey
ion)和kvcache一般使用半精度浮点FP16或BF16。量化指将高比特的浮点转换为更低比特的数据类型的过程。例如int4、int8等。 模型量化分为weight-only量化,weight-activation量化和kvcache量化。 量化的一般步骤是:1、对浮点类型的权
ModelArts统一镜像列表 统一镜像列表 ModelArts提供了ARM+Ascend规格的统一镜像,包括MindSpore、PyTorch。适用于开发环境,模型训练,服务部署,请参考统一镜像列表。 表1 MindSpore 预置镜像 适配芯片 适用范围 mindspore_2
Server服务器操作系统 场景描述 Lite Server为一台弹性裸金属服务器,您可以使用BMS服务提供的切换操作系统功能,对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式: 在BMS控制台切换操作系统 使用BMS Go SDK的方式切换操作系统 使用Python封装API的方式切换操作系统
需确保当前用户具备Manifest文件所在OBS路径的权限。 Manifest文件编写规范要求较多,推荐使用OBS目录导入方式导入新数据。一般此功能常用于不同区域或不同账号下ModelArts的数据迁移,即当您已在某一区域使用ModelArts完成数据标注,发布后的数据集可从输出
动态挂载OBS并行文件系统 什么是动态挂载OBS并行文件系统 并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,详细介绍可以参见并行文件系统。 在ModelArts运行
离线训练安装包准备说明 申请的模型软件包一般依赖连通网络的环境。若用户的机器或资源池无法连通网络,并无法git clone下载代码、安装python依赖包的情况下,用户则需要找到已联网的机器(本章节以Linux系统机器为例)提前下载资源,以实现离线安装。用户可遵循以下步骤操作。 步骤一:资源下载
1.16版本失败。 原因分析 一般下载包失败时,可能有如下几个原因: pip源中不存在该包,当前默认pip源为pypi.org中的包,请在pypi.org中查看是否有对应版本的包并查看包安装限制。 下载的包与对应基础镜像架构不匹配,如arm系统下载了x86的包,python2版
原因分析 文件夹“.ssh”的权限不仅是Windows当前用户拥有,或者当前用户权限不足,故修改权限即可。 解决方案 找到.ssh文件夹。一般位于“C:\Users”,例如“C:\Users\xxx”。 “C:\Users”目录下的文件名必须和Windows登录用户名完全一致。 右键单击
离线训练安装包准备说明 在华为公有云平台,申请的资源一般要求连通网络。因此用户在准备环境时可以运行 scripts/install.sh 直接下载安装资源,或通过 Dockerfile 下载安装资源并构建一个新的镜像。 若用户的机器或资源池无法连通网络,并无法git clone下
PYTHONPATH=${MA_JOB_DIR}:${PYTHONPATH} 您选择的启动文件将会被系统自动以python命令直接启动,因此请确保镜像中的Python命令为您预期的Python环境。注意到系统自动注入的PATH环境变量,您可以参考下述命令确认训练作业最终使用的Python版本:
run”,商用版是权限受控,仅华为工程师和渠道用户有权限下载,下载地址请见固件驱动包下载链接。 arch cat /etc/os-release 图5 查看机器操作系统版本及架构 下文均以适配EulerOS 2.0(SP10)和aarch64架构的包为例来进行讲解。 安装固件和驱动包。
户的权限管理,各个云服务都提供了一些预置的“系统策略”供用户直接使用。如果预置的策略不能满足您的细粒度权限控制要求,则可以通过“自定义策略”来进行精细控制。 表1列出了ModelArts的所有预置系统策略。 表1 ModelArts系统策略 策略名称 描述 类型 ModelArts
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。 原因分析
64卡),需要等空闲64卡这个任务才能运行,64卡的任务后面跟着1卡的。即使现在空出来30卡,这个1卡的任务也排不上。 如果是公共资源池,一般是由于其他用户占用资源导致。有以下方法可以尝试: 如果使用的是免费规格,可以换成收费规格,免费规格资源较少,排队概率高。 规格选择卡数尽量
获取AK/SK。该AK/SK用于后续脚本配置,做认证授权。 如果已生成过AK/SK,则可跳过此步骤,找到原来已下载的AK/SK文件,文件名一般为:credentials.csv。 如下图所示,文件包含了租户名(User Name),AK(Access Key Id),SK(Secret
提供合适的软件、操作系统、网络等配置策略,通过在硬件上的充分测试,确保其兼容性和性能最合适。 方便自定义,预置镜像已经在SWR仓库中,通过对预置镜像的扩展完成自定义镜像注册。 安全可信,基于安全加固最佳实践,访问策略、用户权限划分、开发软件漏洞扫描、操作系统安全加固等方式,确保镜像使用的安全性。
/usr/bin/sh: exec format error”。 这种报错一般是因为所用镜像系统引擎和构建镜像的系统引擎不一致引起的,例如使用的是x86的镜像却标记的是arm的系统架构。 可以通过查看模型详情看到配置的系统运行架构。基础镜像的系统架构详情可以参考推理基础镜像列表。 父主题: 模型管理
对于中小规模团队,管理员希望对ModelArts资源进行主导分配,全局控制,而对于普通开发者只需关注自己实例的生命周期控制。对于开发者账号,一般不会具有te_admin的权限,相应的权限也需要主账号进行统一配置。本章节以使用Notebook进行项目开发为例,通过自定义策略配置实现管理员和开发者分离。