检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
我如何选择将数据存储在哪个区域? 选择区域时,您需要考虑以下几个因素: 地理位置 一般情况下,建议就近选择靠近您或者您的目标用户的区域,这样可以减少网络时延,提高访问速度。不过,在基础设施、BGP网络品质、资源的操作与配置等方面,中国大陆各个区域间区别不大,如果您或者您的目标用户
模型,为您定制适合超大规模数据迁移的方案。 OMS方式 OMS是一种云上的对象数据迁移服务,具有安全、高效等优势。数据迁移时,采用HTTPS数据加密通道,确保数据的传输安全。在重复迁移过程中,只迁移有变动或新增的对象,降低成本。 图1 OMS方式迁移数据示意图 创建OBS桶 登录OBS控制台,创建桶用于存放迁移数据。
大数据场景下使用OBS实现存算分离 大数据场景下使用OBS实现存算分离方案概述 操作流程 对接大数据平台 对接大数据组件 迁移HDFS数据至OBS
上传数据至OBS并预热到SFS Turbo中 上传数据至OBS 下载ImageNet21K数据集,并上传ImageNet21K数据集至OBS,详细操作指导请参考上传数据至OBS。 OBS针对不同场景提供了多种数据上云方案,您可根据数据量、耗时、费用等需求选择适合的方案上传数据至OBS,更多内容请参考数据上云方案。
热点文件需要频繁访问数据的业务场景,例如:大数据、移动应用、热点视频、社交图片等场景。 OBS低频访问存储适用于不频繁访问(少于每月一次访问)但在需要时也要求快速访问数据的业务场景,例如:文件同步/共享、企业备份等场景。与标准存储相比,低频访问存储有相同的数据持久性、吞吐量以及访
碎片管理 背景信息 对象存储服务采用分块上传的模式上传数据,在下列情况下(但不仅限于此)通常会导致数据上传失败而产生垃圾数据,因此需要清理这些碎片数据来释放空间。 网络条件较差,与OBS 对象存储的服务器之间的连接经常断开。 上传过程中,人为中断上传任务。 设备故障。 突然断电等特殊情况。
为什么会有碎片产生? 桶中不完整的数据称之为碎片,通常是由于数据上传失败而产生的。 OBS采用分段上传的模式上传数据,在下列情况下(但不仅限于此)通常会导致数据上传失败而产生碎片。 网络条件较差,与OBS的服务器之间的连接经常断开。 上传过程中,人为中断上传任务。 设备故障。 突然断电等特殊情况。
等。 总览页在查询数据时,可能会出现多个数据不一致的情况,具体说明如下所示。 数据不一致的情况说明 标准存储量+低频访问存储量+归档存储量不等于总存储量,可能的原因有: 数据来源不一致:总存储量数据来源于OBS实时数据,标准存储量、低频访问存储量、归档存储量数据均来源于云监控CES(OBS上报至CES的数据)。
后台工程师能否导出我存储在OBS中的数据? 后台工程师无法导出用户数据。 访问桶或对象时,如果桶或对象未公开,只有桶或对象的拥有者才能够访问,访问时需要提供访问密钥(AK/SK)。 父主题: 数据安全、迁移和备份
配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前
者服务端返回5XX错误时,SDK会进行指数退避重试。 ObsClient.putObject接口,当数据源是非FileInputStream的其他InputStream时,由于数据流不能回读,当发生IO异常时,SDK不会进行重试,需要上层应用程序自行重试。 ObsClient.g
OBS中的数据可以让其他用户访问吗? 可以。 对于桶,可以通过桶ACL和桶策略授予其他用户桶的读取权限,其他用户即可访问该桶。 对于对象,可以通过对象ACL,对象策略和桶策略来授予其他用户对象的读取权限,或者设置对象分享功能,其他用户即可访问该对象。 父主题: 产品咨询
快速获取数据的业务场景。 低频访问存储:适用于不频繁访问(平均一年少于12次),但需要快速获取数据的业务场景。 归档存储:适用于很少访问(平均一年一次),且对数据获取速率要求不高的业务场景。 桶策略 您可以为桶配置私有、公共读、或公共读写策略。 多AZ 开启多AZ后,数据冗余存储
常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS
ge下载整个多段上传对象的某部分数据。 合并完成的多段上传数据可以通过已有的删除对象接口,删除整个多段上传对象的所有分段数据,删除后不可恢复。 合并完成的多段上传数据不记录整个对象的MD5作为Etag,在下载多段数据或List桶内对象看到的多段数据其Etag的生成方式为:MD5(
预置模板参数说明 Data+已下线,如果需要使用数据处理服务,可使用数据工坊 DWR。 详情请参见数据工坊 DWR。 本小节提供Data+各类函数模板及自定义函数的参数配置说明。 当前支持的函数模板如下: 不同区域支持的预置模板数量不同,请以控制台实际支持的模板为准。 表1 Data+函数模板
Hadoop系统提供了分布式存储、计算和资源调度引擎,用于大规模数据处理和分析。OBS服务实现了Hadoop的HDFS协议,在大数据场景中可以替代Hadoop系统中的HDFS服务,实现Spark、MapReduce、Hive等大数据生态与OBS服务的对接,为大数据计算提供“数据湖”存储。 HDFS协议:Hado
Flink对接OBS 概述 Flink是一个分布式的数据处理引擎,用于处理有界和无界流式数据。Flink定义了文件系统抽象,OBS服务实现了Flink的文件系统抽象,使得OBS可以作为flink StateBackend和数据读写的载体。 注意事项 flink-obs-fs-hadoop目前仅支持OBS并行文件系统。
Druid对接OBS 概述 Druid专为需要快速数据查询与摄入的工作流程而设计,在即时数据可见性、即席查询、运营分析以及高并发等方面表现非常出色。 通过HDFS接口对接OBS,使用OBS提供的OBSA-HDFS工具,无需重新编译druid,将OBS配置为deep storage。
Spark对接OBS 概述 Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 注意事项 为了减少日志输出,在/opt/spark-2.3.3/conf/log4j.properties文件中增加配置: