检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DockerFile构建镜像(可选) 本章节主要介绍通过DockerFile文件构建训练镜像,将训练过程中依赖包封装使用,过程中需要连接互联网git clone,请确保环境可以访问公网,详解操作如下: 进入代码包Dockerfile文件同级目录: cd /home/ma-user/ws/llm_train/LLaMAFactory
Turbo的所有权限。使用SFS服务时需要配置。 ECS弹性云服务器 弹性云服务器所有权限。使用ECS服务时需要配置。 SWR容器镜像仓库 容器镜像仓库所有权限。使用SWR服务时需要配置。同时,还需开通SWR组织权限。 VPC虚拟私有云 子用户在创建ModelArts的专属资源池过程中,
VS Code连接后长时间未操作,连接自动断开 VS Code自动升级后,导致远程连接时间过长 使用SSH连接,报错“Connection reset”如何解决? 使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决? VS Code连接开发环境时报错Missing
在ModelArts控制台的AI应用管理模块中,将模型部署为一个AI应用。 登录ModelArts控制台,单击“资产管理 > AI应用 > 创建”,开始创建AI应用。 设置创建AI应用的相应参数。此处仅介绍关键参数,设置AI应用的详细参数解释请参见从OBS中选择元模型。 根据需要自定义应用的名称和版本。
最小长度,可以根据实际需求设置。 --max-input:输入tokens最大长度,可以根据实际需求设置。 --avg-input:输入tokens长度平均值,可以根据实际需求设置。 --std-input:输入tokens长度方差,可以根据实际需求设置。 --min-outpu
基本概念 账号 用户注册时的账号,账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建IAM用户并使用他们进行日常管理工作。 IAM用户 由账号在IAM中创建的用户,是云服
图1 训练作业报错 该问题可以通过以下方法排查: 如果是首次使用ModelArts的新用户,需要登录ModelArts管理控制台,在权限管理页面完成访问授权配置,推荐使用委托授权的方式。完成访问授权配置后,再次提交作业即可。 请排查所填写的Data Path in OBS是否存在
可能原因如下: 原因1:未设置环境变量NCCL_IB_TC、NCCL_IB_GID_INDEX、NCCL_IB_TIMEOUT,因此会导致通信速度慢且不稳定,最后造成IB通信断连,偶发上述现象。 原因2:NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2.14
kubectl是Kubernetes集群的命令行工具,配置kubectl后,您可通过kubectl命令操作Kubernetes集群。本文介绍如何配置kubectl工具,操作步骤如下。 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,进入“弹性集群 Cluster”页面,选择“Lite
测试用户权限 由于权限配置需要等待15-30分钟生效,建议在配置完成后,等待30分钟,再执行如下验证操作。 使用用户组02中任意一个子用户登录ModelArts管理控制台。在登录页面,请使用“IAM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。 验证ModelArts权限。
源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169
最小长度,可以根据实际需求设置。 --max-input:输入tokens最大长度,可以根据实际需求设置。 --avg-input:输入tokens长度平均值,可以根据实际需求设置。 --std-input:输入tokens长度方差,可以根据实际需求设置。 --min-outpu
最小长度,可以根据实际需求设置。 --max-input:输入tokens最大长度,可以根据实际需求设置。 --avg-input:输入tokens长度平均值,可以根据实际需求设置。 --std-input:输入tokens长度方差,可以根据实际需求设置。 --min-outpu
资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。 专属资源池需单独创建,不与其他租户共享。 实例规格 选择实例规格,规格中描述了服务器类型、型号等信息,仅显示模型支持的资源 实例数 设置实例数。 更多选项 永久保存日志 选择是否打开“永久保存日志”开关。 开关关闭(默认关闭):表示
最小长度,可以根据实际需求设置。 --max-input:输入tokens最大长度,可以根据实际需求设置。 --avg-input:输入tokens长度平均值,可以根据实际需求设置。 --std-input:输入tokens长度方差,可以根据实际需求设置。 --min-outpu
进行分布式训练? 如何查询自定义镜像的cuda和cudnn版本? Moxing安装文件如何获取? 如何使用soft NMS方法降低目标框堆叠度 多节点训练TensorFlow框架ps节点作为server会一直挂着,ModelArts是怎么判定训练任务结束?如何知道是哪个节点是worker呢?
在ModelArts控制台的AI应用模块中,将模型部署为一个AI应用。 登录ModelArts控制台,单击“资产管理 > AI应用 > 创建”,开始创建AI应用。 设置创建AI应用的相应参数。此处仅介绍关键参数,设置AI应用的详细参数解释请参见从OBS中选择元模型。 根据需要自定义应用的名称和版本。
在ModelArts控制台的AI应用模块中,将模型部署为一个AI应用。 登录ModelArts控制台,单击“资产管理 > AI应用 > 创建”,开始创建AI应用。 设置创建AI应用的相应参数。此处仅介绍关键参数,设置AI应用的详细参数解释请参见从OBS中选择元模型。 根据需要自定义应用的名称和版本。
最小长度,可以根据实际需求设置。 --max-input:输入tokens最大长度,可以根据实际需求设置。 --avg-input:输入tokens长度平均值,可以根据实际需求设置。 --std-input:输入tokens长度方差,可以根据实际需求设置。 --min-outpu
创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 训练环境中不同规格资源“/cache”目录的大小 训练作业的“/cache”目录是否安全? 训练作业一直在等待中(排队)? 创建训练作业时,超参目录为什么有的是/work有的是/ma-user? 在ModelArts创建分布式训练时如何设置NCCL环境变量?