检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
FlashAttention融合算子,上述参数值仅供参考,请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。 具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。 父主题: 训练脚本说明
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败故障处理
检查您的账号是否有该OBS桶的访问权限 如果在使用Notebook时,需要访问其他账号的OBS桶,请查看您的账号是否有该OBS桶的访问权限。如没有权限,请参见在Notebook中,如何访问其他账号的OBS桶?。 检查委托授权 请前往权限管理,查看是否具有OBS访问授权。如果没有,请参考配置访问授权(全局配置)。
"C:/Users/xx/test1/xxx.pem": invalid format”如何解决? 问题现象 原因分析 密钥文件内容不正确或格式不正确。 解决方法 请使用正确的密钥文件进行远程访问,如果本地没有正确的密钥文件或文件已损坏,可以尝试: 登录控制台,搜索“数据加密服务 DEW”,选择“密钥对管理 >
请参见权限策略。 在IAM控制台创建用户组并授权。 在IAM控制台创建用户组之后,将步骤1中创建的自定义策略授权给该用户组。 创建用户并加入用户组。 在IAM控制台创建用户,并将其加入3中创建的用户组。 用户登录并验证权限。 新创建的用户登录控制台,切换至授权区域,验证权限: 在
将yaml文件中的per_device_train_batch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考各个模型深度学习训练加速框架的选择,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Deepspeed-ZeR
请参见权限策略。 在IAM控制台创建用户组并授权。 在IAM控制台创建用户组之后,将步骤1中创建的自定义策略授权给该用户组。 创建用户并加入用户组。 在IAM控制台创建用户,并将其加入3中创建的用户组。 用户登录并验证权限。 新创建的用户登录控制台,切换至授权区域,验证权限: 在
指定。 /home/ma-user/modelarts 否 空文件夹,建议用户主要用这个目录。 /cache 否 裸机规格支持,挂载宿主机NVMe的硬盘。 /dev/shm 否 用于PyTorch引擎加速。 /usr/local/nvidia 是 宿主机的nvidia库。 父主题:
Gallery算法、镜像、模型、Workflow等AI数字资产的共享,为高校科研机构、AI应用开发商、解决方案集成商、企业级/个人开发者等群体,提供安全、开放的共享及交易环节,加速AI资产的开发与落地,保障AI开发生态链上各参与方高效地实现各自的商业价值。 资产集市介绍 AI Gallery中,“资产集市”支持Not
M)应用的开发而设计。它巧妙地结合了后端即服务(Backend as Service)和LLMOps的理念,提供了一套易用的界面和API,加速了开发者构建可扩展的生成式AI应用的过程。 操作步骤 在Dify界面右上角单击用户头像,选择“设置”。 在“设置”页面左侧,选择“模型供应商”页签,找到“
Cloud,VPC)为裸金属服务器构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户云中资源的安全性,简化用户的网络部署。您可以在VPC中定义安全组、VPN、IP地址段、带宽等网络特性。用户可以通过VPC方便地管理、配置内部网络,进行安全、快捷的网络变更。同时,用户可以自定义安全组内与组间的访问规则,加强裸金属服务器的安全保护。
而定。 对于获取用户Token接口,您可以从接口的请求部分看到所需的请求参数及参数说明。将消息体加入后的请求如下所示,加粗的斜体字段需要根据实际值填写,其中user_name为用户名,domain_name为用户所属的账号名,user_password为用户登录密码,cn-nor
新的密钥对。 修改远程连接的可访问IP地址后, 原来已经建立的链接依然有效, 当链接关闭后失效;新打开建立的链接只允许当前设置的IP进行访问。 此处的IP地址,请填写外网IP地址。如果用户使用的访问机器和华为云ModelArts服务的网络有隔离,则访问机器的外网地址需要在主流搜索
息头,从而通过身份认证。 AK(Access Key ID):访问密钥ID。与私有访问密钥关联的唯一标识符;访问密钥ID和私有访问密钥一起使用,对请求进行加密签名。 SK(Secret Access Key):与访问密钥ID结合使用的密钥,对请求进行加密签名,可标识发送方,并防止请求被修改。
作业列表显示作业资源利用率情况 此处的作业资源利用率只涉及GPU和NPU资源。作业worker-0实例的GPU/NPU平均利用率计算方法:将作业worker-0实例的各个GPU/NPU加速卡每个时间点的利用率汇总取平均值。 如何提高训练作业资源利用率 适当增大batch_size:较大的batch_si
FTP服务上传和下载文件。 SSH 22 远程连接Linux弹性云服务器。 Telnet 23 使用Telnet协议访问网站。 SMTP 25 SMTP服务器所开放的端口,用于发送邮件。 基于安全考虑,TCP 25端口出方向默认被封禁,申请解封请参考TCP 25端口出方向无法访问时怎么办?。 HTTP
“access_key”和“secret_key”获取方式如下: 登录管理控制台,可单击控制台右上角的账户名,在菜单栏中单击“我的凭证”,进入“我的凭证”页面。 在“我的凭证 > 访问密钥”中,单击“新增访问密钥”。 在“新增访问密钥”弹窗中,填写该密钥的描述说明,单击“确定”。根据提示
创建镜像组织 步骤三 在宿主机上传镜像到SWR 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中复制临时登录指令,即可完成登录。 图2 复制登录指令 登录指令输入之后,使用下列示例命令。 docker tag sdxl-train:0
通过容器名称进入容器中。默认使用ma-user用户执行后续命令。 docker exec -it ${container_name} bash 上传代码和权重到宿主机时使用的是root用户,此处需要执行如下命令统一文件属主为ma-user用户。 #统一文件属主为ma-user用户 sudo chown -R
读取文件报错,如何正确读取文件 问题现象 创建训练作业如何读取“json”和“npy”文件。 训练作业如何使用cv2库读取文件。 如何在MXNet环境下使用torch包。 训练作业读取文件,出现如下报错: NotFoundError (see above for traceback):