检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B
储和镜像知识。 配置流程 图1 Lite Cluster资源配置流程图 表1 Cluster资源配置流程 配置顺序 配置任务 场景说明 1 配置Lite Cluster网络 购买资源池后,需要弹性公网IP并进行网络配置,配置网络后可通过公网访问集群资源。 2 配置kubectl工具
配置Lite Server软件环境 NPU服务器上配置Lite Server资源软件环境 GPU服务器上配置Lite Server资源软件环境 父主题: Lite Server资源配置
正常打开页面,表示当前用户具备SFS的操作权限。 验证ECS权限。 在左上角的服务列表中,选择ECS服务,进入ECS管理控制台。 在ECS管理控制台,单击右上角的“购买弹性云服务器”,如果能正常打开页面,表示当前用户具备ECS的操作权限。 验证VPC权限。 在左上角的服务列表中,选择VPC服务,进入VPC管理控制台。
然后单击“确定”。 SWR授权管理详情可参考授权管理。 如果给子用户的SWR授权不是SWR Admin权限,则需要继续配置SWR组织权限。 父主题: 权限配置
Standard上运行GPU单机单卡训练作业 操作流程 准备工作 购买服务资源(OBS和SWR) 配置权限 创建专属资源池(不需要打通VPC) 安装和配置OBS命令行工具 (可选)工作空间配置 模型训练 本地构建镜像及调试 上传镜像 上传数据和算法到OBS 使用Notebook进行代码调试
infiniband驱动的安装 infiniband驱动的安装 如果安装了libibverbs-dev库后仍然无法使能infiniband网卡,您可以直接安装infiniband官方驱动,以使用infiniband网卡进行分布式通信,提升训练性能。infiniband驱动需要在制作镜像时安装。 操作步骤
在镜像管理中注册和查看镜像。 按需配置。 保存镜像 SWR SWR Admin SWR Admin为SWR最大权限,用于: 开发环境运行的实例,保存成镜像。 使用自定义镜像创建开发环境Notebook实例。 按需配置。 使用SSH功能 ECS ecs:serverKeypairs:list ecs:serverKeypairs:get
在ModelArts的Notebook中如何设置VS Code远端默认安装的插件? 在VS Code的配置文件settings.json中添加remote.SSH.defaultExtensions参数,如自动安装Python和Maven插件,可配置如下。 "remote.SSH.defaultExtensions":
他服务的访问权限。本章节主要介绍对于IAM子账号使用ModelArts时,如何根据需要开通的功能配置子账号相应权限。 权限列表 子账号的权限,由主用户来控制,主用户通过IAM的权限配置功能设置用户组的权限,从而控制用户组内的子账号的权限。此处的授权列表均按照ModelArts和其他服务的系统预置策略来举例。
如何安装第三方包,安装报错的处理方法 问题现象 ModelArts如何安装自定义库函数,例如“apex”。 ModelArts训练环境安装第三方包时出现如下报错: xxx.whl is not a supported wheel on this platform 原因分析 由于安装的文件名格式不支持,导致出现“xxx
选择指定的IAM子用户,给指定的IAM子用户配置委托授权。 “委托选择” 选择“新增委托”。 “ 委托名称” 系统自动创建委托名称,用户可以手动修改。 “权限配置 ” 在服务列表右侧勾选“全选”。 勾选“我已经详细阅读并同意《ModelArts服务声明》”,单击“创建”,即可完成委托配置。 更多高级授权配置 登录M
Code安装指导如下: 图2 Windows系统下VS Code安装指导 Linux系统下,执行命令sudo dpkg -i code_1.85.2-1705561292_amd64.deb安装。 Linux系统用户,需要在非root用户进行VS Code安装。 父主题: 通过VS Code远程使用Notebook实例
AI专属资源池 > 弹性集群Cluster”,在“Lite资源池”页签中,单击某个资源池名称,进入资源池详情。 单击左侧“配置管理”,进入资源池配置管理页面。 图1 配置管理 在镜像预热中单击编辑图标,填写镜像预热信息。 表1 镜像预热参数 参数名称 说明 镜像来源 可选择“预置”或“自定义”的镜像。
配置Workflow参数 功能介绍 参数相关的配置使用Placeholder对象来表示,以占位符的形式实现用户数据运行时配置的能力,当前支持的数据类型包括:int、str、bool、float、Enum、dict、list。开发者可根据场景需要,将节点中的相关字段(如算法超参)通
(可选)工作空间配置 ModelArts支持设置子用户的细粒度权限、不同工作空间之间资源隔离。ModelArts工作空间帮您实现项目资源隔离、多项目分开结算等功能。 如果您开通了企业项目管理服务的权限,可以在创建工作空间的时候绑定企业项目ID,并在企业项目下添加用户组,为不同的用户组设置细粒度权限供组里的用户使用。
modelarts:workspace:get 创建训练作业和查看训练日志。 建议配置。 仅在严格授权模式开启后,需要显式配置左侧权限。 modelarts:workspace:getQuotas 查询工作空间配额。如果开通了工作空间功能,则需要配置此权限。 按需配置。 modelarts:tag:list 在训练作业中使用标签管理服务TMS。
b可以安装插件吗? Jupyter可以安装插件。 目前jupyter插件多数采用wheel包的形式发布,一次性完成前后端插件的安装,安装时注意使用jupyter服务依赖的环境“/modelarts/authoring/notebook-conda/bin/pip”进行安装,不要使
配置ModelArts基本使用权限 场景描述 Step1 创建用户组并加入用户 Step2 为用户配置云服务使用权限 Step3 为用户配置ModelArts的委托访问授权 Step4 测试用户权限 父主题: 典型场景配置实践