检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过邮箱、手机或者虚拟MFA进行验证,输入对应的验证码。如果没有开启敏感操作保护,请跳过该步骤。 单击“立即下载”,浏览器自动下载访问密钥。 为防止访问密钥泄露,建议您将其保存到安全的位置。 父主题: 附录
checkpoint秒级同步保存,避免训练任务长时间阻塞,异步保存阶段,主节点持久化过程中,内存中写入了相同检查点的备节点会持续监控主节点的保存结果。保存失败之后,备节点会接管主节点的持久化操作,代替主节点将检查点持久化下去,保证可靠性。 图1 保存checkpoint流程 加速加载checkpoint
状态码: 200 表3 响应Body参数 参数 参数类型 描述 url String ldap服务器的url base_dn String 数据库中的域 user_dn String 用户区别名 filter_condition String 过滤条件。保留字段,暂不支持 backup_url
ldaps://{ip_address}:{port_number},例如ldap://192.168.xx.xx:60000 base_dn 否 String 数据库中的域 user_dn 否 String 用户区别名 password 否 String ldap认证密码 vpc_id 否 String
配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限使用状态,请提交工单联系技术支持人员进行配置。
查询SFS Turbo审计事件 操作场景 用户进入云审计服务创建管理类追踪器后,系统开始记录云服务资源的操作。云审计服务管理控制台会保存最近7天的操作记录。 本节介绍如何在云审计服务管理控制台查看或导出最近7天的操作记录: 在新版事件列表查看审计事件 在旧版事件列表查看审计事件 使用限制
ldaps://{ip_address}:{port_number},例如ldap://192.168.xx.xx:60000 base_dn 是 String 数据库中的域 user_dn 否 String 用户区别名 password 否 String ldap认证密码 vpc_id 否 String
件不会被再次导出,即使OBS桶里已经将导出的对象删掉了,也不会再导出该文件。 从SFS Turbo导出的对象,在OBS对象的自定义元数据里保存了一些SFS Turbo的元数据信息,名称以x-obs-meta-sfsturbo-st-开头。 不支持超长路径,可导出文件路径的最大长度为1023个字符。
审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪器后,CTS可记录SFS
常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS
Attached Storage,NAS),可为云上多个弹性云服务器(Elastic Cloud Server,ECS),容器(Cloud Container Engine,CCE&Cloud Container Instance,CCI),裸金属服务器(Bare Metal Server,BMS)提供共享访问。
rs文件。 在root账号下添加普通用户账号,下图以添加普通用户Mike为例。 图2 添加用户 编辑完成后,单击“Esc”,并输入:wq,保存文件并退出。 执行chmod 440 /etc/sudoers命令恢复sudoers文件权限为只读权限。 切换到普通用户Mike登录弹性云服务器。
Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心
高性能弹性文件服务(Scalable File Service Turbo,SFS Turbo)提供按需扩展的高性能文件存储,支持同时为多个弹性云服务器(Elastic Cloud Server, ECS)提供文件共享服务。高性能弹性文件服务提供标准的文件访问协议NFS(仅支持NFSv3),用户可以将现有应用和工具与高性能弹性文件服务无缝集成。
File Service Turbo,SFS Turbo)提供按需扩展的高性能文件存储(NAS),可为云上多个弹性云服务器(Elastic Cloud Server,ECS)、容器(CCE&CCI)、裸金属服务器(BMS)提供共享访问。如图1所示。 图1 访问高性能弹性文件服务 与传统
SFS Turbo文件系统创建成功。如果“状态”为“创建失败”,请查看SFS Turbo创建失败处理。 在SFS Turbo文件系统列表中保存好共享路径中的挂载地址,用于挂载SFS Turbo文件系统。 步骤二:挂载SFS Turbo文件系统 当创建SFS Turbo文件系统成功后,您需要使用云服务器来挂载该SFS
格式如下: nameserver 100.125.1.250 nameserver 100.125.17.29 单击“Esc”,并输入:wq,保存退出。 执行以下命令,查看IP地址是否写入成功。 cat /etc/resolv.conf 执行以下命令,验证文件系统域名是否可以解析到IP地址。
已经跟不上计算能力,企业希望存储系统能提供高吞吐的数据访问能力,充分发挥 GPU/NPU 的计算性能,包括训练数据的读取,以及为了容错做的检查点(以下简称Checkpoint)保存和加载。训练数据的读取要尽量读得快,减少计算对 I/O 的等待,而 Checkpoint主要要求高吞吐、减少训练中断的时间。 文件接口方式的数据共享访问:由于
internal:/。 挂载地址如图1所示。 说明: x是数字或字母。 由于挂载地址名称较长,需要拉宽该栏以便完整显示。 vers 文件系统版本,目前只支持NFSv3。取值:3。 timeo NFS客户端重传请求前的等待时间(单位为0.1秒)。建议值:600。 noresvport 指定NF
与其他云服务的关系 功能 相关服务 位置 云服务器和文件系统归属于同一项目下,用于挂载共享路径实现数据共享。 弹性云服务器(Elastic Cloud Server,ECS) 挂载NFS文件系统到云服务器(Linux) 云容器引擎提供高度可扩展的、高性能的企业级Kubernetes集群