检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
(可选)配置驱动 当专属资源池中的节点含有GPU/Ascend资源时,为确保GPU/Ascend资源能够正常使用,需要配置好对应的驱动。 Cluster支持两种配置驱动的方式: 方式一:购买资源池时通过自定义驱动参数进行配置 方式二:通过驱动升级功能对已有的资源池驱动版本进行升级
Snt9B Snt9C 安装CES Agent监控插件 当前账户需要给CES授权委托,请参考创建用户并授权使用云监控服务。 当前还不支持在CES界面直接一键安装监控,需要登录到服务器上执行以下命令安装配置Agent。其它region的安装请参考单台主机下安装Agent。 cd /usr/local
Step3 为用户配置ModelArts的委托访问授权 配置完IAM权限之后,需要在ModelArts页面为子账号设置ModelArts访问授权,允许ModelArts访问OBS、SWR、IEF等依赖服务。 此方式只允许主用户为子账号进行配置。因此,本示例中,管理员账号需为所有用户完成访问授权的配置。
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B
添加镜像预热配置 若需添加多个镜像,可单击此按键。 图2 预置镜像预热 图3 预置镜像选择 图4 自定义镜像预热 创建密钥所需的仓库地址、用户名、密码、可以参考对应租户的SWR登录指令。 图5 创建密钥 图6 登录指令 上图中为临时登录指令,若需长期有效登录指令,可单击图中的“如何获取长期有效指令”链接获取指导。
配置SWR组织权限 IAM用户创建后,需要管理员在组织中为用户添加授权,使IAM用户对组织内所有镜像享有读取/编辑/管理的权限。 只有具备“管理”权限的账号和IAM用户才能添加授权。 登录容器镜像服务控制台。 在左侧菜单栏选择“组织管理”,单击组织名称。 在“用户”页签下单击“添
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/model/Qwen2-72B
obsutil安装和配置 obsutil是用于访问、管理对象存储服务OBS的命令行工具,使用该工具可以对OBS进行常用的配置管理操作,如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。 操作命
选择“ASCEND”。 实例规格 选择snt9b资源。 存储配置 选择“云硬盘EVS”。 磁盘规格 按照对应的存储使用情况选择存储大小。 SSH远程开发 如果需通过VS Code远程连接Notebook实例,可打开SSH远程开发,并选择自己的密钥对。 在Notebook列表,单击“
更新服务配置 更新当前服务对象配置。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数;其它平台的Session鉴权请参考Session鉴权。 方式1:根据部署在线服务生成的服务对象进行更新服务配置 1 2 3 4 5 6 7
新镜像构建 基础镜像一般选用ubuntu 18.04的官方镜像,或者nvidia官方提供的带cuda驱动的镜像。相关镜像直接到dockerhub官网查找即可。 构建流程:安装所需的apt包、驱动,配置ma-user用户、导入conda环境、配置Notebook依赖。 推荐使用
果实例处于其他状态比如“错误”,请尝试先执行停止然后执行启动操作。待实例变为“运行中”后,再次执行远程连接。 父主题: VS Code连接开发环境失败故障处理
of strings 镜像支持的服务。枚举值如下: NOTEBOOK:镜像支持通过https协议访问Notebook。 SSH:镜像支持本地IDE通过SSH协议远程连接Notebook。 id String 待创建Notebook实例的镜像,需要指定镜像ID,ID格式为通用唯一识别码(Universally
转站,需要配置OBS的使用权限。 配置SWR使用权限。搜索SWR,勾选“SWR FullAccess”。ModelArts的自定义镜像功能依赖镜像服务SWR FullAccess权限。 (可选)配置密钥管理权限。如果需要使用ModelArts Notebook的SSH访问功能,依
VPC下创建弹性云服务器 登录弹性云服务器ECS控制台,单击右上角“购买弹性云服务器”,进入购买弹性云服务器页面,完成基本配置后单击“下一步:网络配置”,进入网络配置页面,选择1中打通的VPC,完成其他参数配置,完成高级配置并确认配置,下发购买弹性云服务器的任务。等待服务器的状态变为
信息,然后单击“知道了”。 查看并配置缺失的服务权限。 登录MaaS控制台,单击顶部提示中的“此处”,在“服务权限缺失”对话框,查看缺失的服务权限。 图8 服务权限缺失 联系管理员配置缺失的服务权限。具体操作,请参见快速添加授权。 父主题: 配置MaaS访问授权
选择左侧导航栏的“总览”,单击页面右上角的“登录指令”,在弹出的页面中单击复制登录指令。 此处生成的登录指令有效期为24小时,如果需要长期有效的登录指令,请参见获取长期有效登录指令。获取了长期有效的登录指令后,在有效期内的临时登录指令仍然可以使用。 登录指令末尾的域名为镜像仓库地址,请记录该地址,后面会使用到。
Gallery CLI配置工具指南 安装Gallery CLI配置工具 使用Gallery CLI配置工具下载文件 使用Gallery CLI配置工具上传文件 父主题: AI Gallery(新版)
自定义镜像导入配置运行时依赖无效 问题现象 通过API接口选择自定义镜像导入创建模型,配置了运行时依赖,没有正常安装pip依赖包。 原因分析 自定义镜像导入不支持配置运行时依赖,系统不会自动安装所需要的pip依赖包。 处理方法 重新构建镜像。 在构建镜像的dockerfile文件
suppressed"。 原因分析 根据SFS客户端日志分析出现问题的时间点发现,SFS盘连接的客户端个数较多,在问题的时间点并发读取数据,I/O超高;当前SFS服务端的机制是:当SFS盘的性能到上限时,就会IO排队。IO排队造成处理时间超过 1 分钟时,客户端内核会打印"rpc_check_timeout:939