检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置ModelArts和SFS Turbo间网络直通。 创建委托授权ModelArts云服务使用SFS Turbo。 配置ModelArts网络关联SFS Turbo。 配置SFS Turbo和OBS联动。 配置SFS Turbo数据自动导出到OBS桶。 配置SFS Turbo数据淘汰策略。 4 训练
模型,为您定制适合超大规模数据迁移的方案。 OMS方式 OMS是一种云上的对象数据迁移服务,具有安全、高效等优势。数据迁移时,采用HTTPS数据加密通道,确保数据的传输安全。在重复迁移过程中,只迁移有变动或新增的对象,降低成本。 图1 OMS方式迁移数据示意图 创建OBS桶 登录OBS控制台,创建桶用于存放迁移数据。
ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据:准备AI训练需要的算法及数据集,如Swin-Transformer算法,及ImageNet21K数据集。 说明: 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。
Flink对接OBS 概述 Flink是一个分布式的数据处理引擎,用于处理有界和无界流式数据。Flink定义了文件系统抽象,OBS服务实现了Flink的文件系统抽象,使得OBS可以作为flink StateBackend和数据读写的载体。 注意事项 flink-obs-fs-hadoop目前仅支持OBS并行文件系统。
Logstash对接OBS 概述 Logstash能够从多个来源采集数据、转换数据并将数据发送到存储系统中,具体请参见Logstash。本文用于描述Logstash如何对接使用OBS。 注意事项 请使用较新版本的logstash,例如≥7.10.2的版本,避免使用较老版本的logstash。
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
Druid对接OBS 概述 Druid专为需要快速数据查询与摄入的工作流程而设计,在即时数据可见性、即席查询、运营分析以及高并发等方面表现非常出色。 通过HDFS接口对接OBS,使用OBS提供的OBSA-HDFS工具,无需重新编译druid,将OBS配置为deep storage。
默认取值: 无 signature str 参数解释: 表单中的signature。示例如下: g0jQr4v9VWd1Q2FOFDG6LGfV9Cw= 默认取值: 无 代码样例 此用例用于生成带授权信息的表单上传参数policy和signature。 1 2 3 4
目录分享 如果您想将一个文件夹分享给其他人,同时希望能够指定有效期,OBS Browser+提供文件夹分享和授权码登录的功能,轻松为你完成数据分享。 首先,您登录OBS Browser+后,选择您要分享的目录右键或者单击操作栏的分享按钮。 然后,选择分享链接的有效期,并输入提取码
设在桶上,所有人可以获取该桶内对象列表、桶内多段任务、桶的元数据、桶的多版本。 设在对象上,所有人可以获取该对象内容和元数据。 ObsClient.enums.AclPublicRead 公共读写 设在桶上,所有人可以获取该桶内对象列表、桶内多段任务、桶的元数据、上传对象删除对象、初始化段任务、上传段、合并段、拷贝段、取消多段上传任务。
Spark对接OBS 概述 Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 注意事项 为了减少日志输出,在/opt/spark-2.3.3/conf/log4j.properties文件中增加配置:
Flume对接OBS 概述 Flume是一个分布式的、可靠的和高可用的服务,用于收集、聚合以及移动大量日志数据,具体请参见Apache Flume。OBS在大数据场景中可以替代Hadoop系统中的HDFS服务。 注意事项 多sink写同一文件 OBS和HDFS在一致性保证上是有差
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
获取上传进度(Java SDK) 功能说明 获取指定对象的上传进度。 您可以通过PutObjectRequest.setProgressListener设置数据传输接口来获取上传的进度。 开发过程中,您有任何问题可以在github上提交issue,或者在华为云对象存储服务论坛中发帖求助。 接口约束
空间。每个对象都存放在一个桶中。例如,如果名为“picture.jpg”的对象存放在“photo”桶中,则可使用URL(http://photo.obs.cn-north-4.myhuaweicloud.com/picture.jpg)对该对象进行寻址。 对象 对象在OBS中是最
操作流程 大数据场景下使用OBS实现存算分离的操作流程如图1所示。 图1 操作流程 配置的核心是完成大数据平台与OBS对接,实现OBS作为大数据的统一数据湖存储。本文档提供三种主流大数据平台的对接指导,详情请参见支持的大数据平台简介。 (可选)OBS除了可以与主流大数据平台对接外,
区域和可用区 什么是区域、可用区? 我们用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用
境外数据传输回国场景下的丢包和网络稳定性问题 在数据跨境传输场景下,由于您所在的网络环境可能处在运营商网络边缘节点,向运营商网络请求成功率比较低,所以可能会出现丢包和网络稳定性问题。 建议您先使用跨区域复制或者云连接 CC将数据传输回国,然后再从国内访问和下载数据。 父主题: 产品咨询
您可以在创桶的时候选择将桶中数据冗余存储在多个可用区,以获得更高的数据可靠性。OBS采用Erasure Code(EC,纠删码)算法做数据冗余,不是以副本的形式存储。 支持的区域请参见功能总览。 × √ 数据回源 您可以利用数据回源功能,实现向OBS请求数据不存在时,通过回源规则自动从源站获取对应数据。
如果只需要下载对象的其中一部分数据,可以使用范围下载,下载指定范围的数据。如果指定的下载范围是0~1000,则返回第0到第1000个字节的数据,包括第1000个,共1001字节的数据,即[0, 1000]。如果指定的范围无效,则返回整个对象的数据。以下代码展示了如何进行范围下载: