检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间。这种共享访问的数据有诸多好处,它可以保证不同服务器上访问数据的一致性,减少不同服务器上分别保留数据带来的数据冗余等。另外以 AI
告警规则所属的企业项目。只有拥有该企业项目权限的用户才可以查看和管理该告警规则。创建企业项目请参考:创建企业项目。 标签 标签由键值对组成,用于标识云资源,可对云资源进行分类和搜索。建议在TMS中创建预定义标签。创建预定义标签请参考:创建预定义标签。 如您的组织已经设定云监控的相关标签
排查思路 可能原因 处理措施 文件系统和挂载的服务器不在同一个可用区 在与服务器相同的可用区新建一个文件系统,将另一可用区的文件系统数据迁移至新文件系统后,再将新文件系统挂载至服务器。 使用场景与文件系统类型不匹配 结合业务场景,参考文件系统类型,选择正确的文件系统类型。 并发数过高或过低
字段 说明 挂载地址 挂载对象,即要挂载的文件系统的挂载地址。设置为root用户挂载NFS协议类型SFS Turbo文件系统到Linux云服务器中mount命令中的挂载地址。 /local_path 挂载点,即云服务器上创建的挂载文件系统的目录。设置为root用户挂载NFS协议类型SFS
Turbo文件系统 操作场景 当用户认为文件系统的容量不足时,用户可以通过执行扩容操作来增加文件系统的容量。 约束与限制 SFS Turbo文件系统支持在线扩容,扩容过程中挂载文件系统可能失败,正在挂载使用的连接会感知30秒左右的IO延迟(最长可能为3分钟),建议业务低峰期扩容。注意扩容时文件系统必须处于运行中状态。
障之前的模型和优化器的状态继续训练。原生Pytorch系框架在保存checkpoint时均直接持久化到存储系统,耗时与模型大小、存储的IO性能等密切相关,往往需要几分钟到几十分钟不等,为了保证训练状态的一致性,保存checkpoint时训练必须暂停,保存时间影响了训练过程的整体效
https://{Endpoint}/v3/projects”,其中{Endpoint}为IAM的终端节点,可以从地区和终端节点获取。接口的认证鉴权请参见认证鉴权。 响应示例如下,其中projects下的“id”即为项目ID。 { "projects": [ {
查看连接DNS服务的终端节点创建完成后返回的节点IP。 在用户本地数据中心的DNS服务器配置相应的DNS转发规则,将解析SFS Turbo域名的请求转发到连接DNS服务的终端节点。 不同操作系统中配置DNS转发规则的方法不同,具体操作请参考对应DNS软件的操作指导。 本步骤以Unix操作系统,常见的DNS软件Bind为例介绍:
chown:修改文件或目录的所有者 - chgrp:修改文件或目录的所属组 - ln:创建硬链接 - link:创建硬链接 - unlink:删除硬链接 本地挂载路径(即挂载点根目录)的atime、ctime和mtime属性是当前时间,每次查询根目录属性返回的都是服务端当时时间的值。 操作步骤