检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
Druid专为需要快速数据查询与摄入的工作流程而设计,在即时数据可见性、即席查询、运营分析以及高并发等方面表现非常出色。 通过HDFS接口对接OBS,使用OBS提供的OBSA-HDFS工具,无需重新编译druid,将OBS配置为deep storage。 对接步骤 配置Druid。 修改配置:
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私
增加hadoop-huaweicloud的jar包。 在CDH集群各节点执行以下命令,命令请根据hadoop-huaweicloud的jar包名字及实际CDH版本进行适配使用。 执行如下命令,将OBSA-HDFS工具的jar包放到/opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1
OBS的文件夹与文件系统的文件夹是否一样? 不一样。 OBS并没有文件系统中的文件和文件夹概念。为了使用户更方便进行管理数据,OBS提供了一种方式模拟文件夹。实际上在OBS内部是通过在对象的名称中增加“/”,将该对象在OBS管理控制台上模拟成一个文件夹的形式展现。 父主题: 产品咨询
Flink对接OBS 概述 Flink是一个分布式的数据处理引擎,用于处理有界和无界流式数据。Flink定义了文件系统抽象,OBS服务实现了Flink的文件系统抽象,使得OBS可以作为flink StateBackend和数据读写的载体。 注意事项 flink-obs-fs-hadoop目前仅支持OBS并行文件系统。
Spark对接OBS 概述 Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 注意事项 为了减少日志输出,在/opt/spark-2.3.3/conf/log4j.properties文件中增加配置:
OBS存储资源包使用超量后是否会限制对桶的写入 不会限制。 OBS桶具有“无限容量”,超出存储资源包部分会自动转为按需计费,或者您可以升配资源包、继续叠加购买资源包。叠加购买资源包的方法,请参考资源包叠加购买。 升配资源包的方法,请参考资源包升配。 父主题: 计费相关
华为云MRS对接OBS 对接步骤 配置存算分离集群。 详细操作,请参见使用委托方式配置存算分离集群。 使用存算分离集群。 详细操作,请参见使用存算分离集群。 父主题: 对接大数据平台
Hive对接OBS 概述 Hive是一个数据仓库工具,可以对存储在分布式存储中的大规模数据进行数据提取、转化和加载,它提供了丰富的SQL查询方式来进行数据分析。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 对接步骤 以Hive 2.3.3为例。 下载apache-hive-2
Flume对接OBS 概述 Flume是一个分布式的、可靠的和高可用的服务,用于收集、聚合以及移动大量日志数据,具体请参见Apache Flume。OBS在大数据场景中可以替代Hadoop系统中的HDFS服务。 注意事项 多sink写同一文件 OBS和HDFS在一致性保证上是有差
开发过程中,您有任何问题可以在github上提交issue,或者在华为云对象存储服务论坛中发帖求助。接口参考文档的“上传对象”章节详细介绍了参数和使用方法。 文件上传使用本地文件作为对象的数据源。以下代码展示了如何进行文件上传: // 创建ObsClient实例 var obsClient = new
您必须是桶拥有者或拥有上传对象的权限,才能上传对象。建议使用IAM或桶策略进行授权,如果使用IAM则需授予obs:object:PutObject权限,如果使用桶策略则需授予PutObject权限。相关授权方式介绍可参见OBS权限控制概述,配置方式详见使用IAM自定义策略、配置对象策略。 OBS
配置ModelArts和SFS Turbo间网络直通 创建委托授权ModelArts云服务使用SFS Turbo 使用IAM管理员账号登录IAM控制台。 在IAM控制台的左侧导航窗格中选择“权限管理 > 权限”,单击右上角的“创建自定义策略”,进入自定义策略配置页面。 输入“策略
支持的大数据组件简介 在华为云大数据存算分离方案中,OBS除了可以与大数据平台对接外,还可以直接与开源的大数据组件对接。 当前支持的大数据组件如下: Hadoop Hive Spark Flume DataX Druid Flink logstash 父主题: 对接大数据组件
您必须是桶拥有者或拥有上传对象的权限,才能上传对象。建议使用IAM或桶策略进行授权,如果使用IAM则需授予obs:object:PutObject权限,如果使用桶策略则需授予PutObject权限。相关授权方式介绍可参见OBS权限控制概述,配置方式详见使用IAM自定义策略、配置对象策略。 OBS
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。
Hortonworks HDP对接OBS 部署视图 安装版本 硬件:1master+3core(配置:8U32G,操作系统:CentOS 7.5) 软件:Ambari:2.7.1.0,HDP:3.0.1.0 部署视图 更新OBSA-HDFS工具 下载与hadoop版本配套的OBSA-HDFS工具:下载地址。
求助。接口参考文档详细介绍了每个接口的参数和使用方法。 基于表单上传是使用HTML表单形式上传对象到指定桶中,对象最大不能超过5GB。 您可以通过ObsClient.createPostSignature生成基于表单上传的请求参数。使用代码模拟表单上传的完整代码示例,参见Post
支持的大数据平台简介 华为云大数据存算分离方案中,OBS支持与多种大数据平台对接,包括华为云MapReduce服务(MRS)、Cloudera CDH和Hortonworks HDP,满足用户业务的灵活诉求。 华为云MapReduce服务(MRS) 华为云MapReduce服务(