检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
除.nfs文件如果报错,类似如下场景: 图1 删除.nfs文件报错 图中情况则表明有程序仍然在使用该文件,可以使用lsof命令来查看进程号。 图2 查看进程号 如果确认该进程可以结束,可以直接执行kill -9 [进程号]来结束该进程,之后再进行删除文件的命令。 父主题: 其他类
SFS容量型API说明 查询API版本 文件共享 共享访问规则 配额管理 扩容缩容 共享标签 可用区
生命周期管理 创建文件系统 查询文件系统详细信息 删除文件系统 获取文件系统列表 扩容文件系统 父主题: SFS Turbo API说明
等动作。训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。要查看训练作业实时情况,您可以前往训练作业列表,查看训练作业的基本情况。 父主题: 训练
Date 是 String 请求消息时间 Authorization 是 String 请求签名信息 Host 是 String 表明主机地址。如filesystem.sfs3.cn-north-4.myhuaweicloud.com。 表3 请求Body参数 参数 是否必选 参数类型
共享访问规则 添加共享访问规则 删除共享访问规则 查询共享访问规则 父主题: SFS容量型API说明
SFS Authorization 是 String 签名信息 Date 是 String 请求时间 Host 是 String 表明主机地址。如sfs3.cn-north-4.myhuaweicloud.com。 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型
源不会立即停止服务,资源进入宽限期。您需支付按需资源在宽限期内产生的费用,相关费用可在“管理控制台 > 费用中心 > 总览”的“欠费金额”查看,华为云将在您充值时自动扣取欠费金额。 如果您在宽限期内仍未支付欠款,那么就会进入保留期,资源状态变为“已冻结”,您将无法对处于保留期的通用文件系统资源执行任何操作,SFS
ad_kb”,以优化大文件顺序读场景的性能。在小文件读取场景中将该值调整过大,可能会导致预读浪费,进而浪费带宽。 解决方法 执行以下命令,查看当前文件系统的预读参数值。 cat /sys/class/bdi/$(mountpoint -d 挂载点)/read_ahead_kb 例如:
在续费管理页面开通自动续费 登录管理控制台。 单击“控制台”页面上方“费用”,在下拉菜单中选择“续费管理”。 进入“续费管理”页面。 自定义查询条件。 可在“自动续费项”页签查询已经开通自动续费的资源。 可对“手动续费项”、“到期转按需项”、“到期不续费项”页签的资源开通自动续费。 图3 续费管理 为包年/包月资源开通自动续费。
has not enough ips 子网可用IP不足 请使用合法的参数重试。 400 SFS.TURBO.0030 Ecs resource not enough ECS资源不足,该规格在选择的AZ售罄 请更换可用区重试。 400 SFS.TURBO.0031 cache type not
根据界面提示,配置归属企业项目和标签。 图4 高级配置 表4 配置规则信息 参数 参数说明 归属企业项目 告警规则所属的企业项目。只有拥有该企业项目权限的用户才可以查看和管理该告警规则。创建企业项目请参考:创建企业项目。 标签 标签由键值对组成,用于标识云资源,可对云资源进行分类和搜索。建议在TMS中创建
"Effect": "Allow", "Action": [ "ecs:servers:delete" ] } ] } SFS自定义策略样例(以通用文件系统为例)
500MB/s/TiB 1000MB/s/TiB HPC缓存型文件系统 标准型、标准型-增强版、性能型、性能型-增强版类型的SFS Turbo文件系统,请使用“查询目录资源使用情况”接口。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化
String 要创加密文件系统,该字段传KMS服务专业版密钥的ID。 dedicated_flavor 否 String 创专属文件系统,要创建的虚拟机的规格。 dedicated_storage_id 否 String 创专属文件系统,要指定一个专属分布式存储的ID。 expand_type