检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
e Spark、Presto、Mapreduce和Apache Hive的计算框架提供了数据抽象层,使上层的计算应用可以通过统一的客户端API和全局命名空间访问包括HDFS和OBS在内的持久化存储系统,从而实现了对计算和存储的分离。 图1 Alluxio架构 优势: 提供内存级I
jobs直接生成符合HBase内部数据格式的文件,然后把生成的StoreFiles文件加载到正在运行的集群。使用批量加载相比直接使用HBase的API会节约更多的CPU和网络资源。 ImportTSV是一个HBase的表数据加载工具。 本章节适用于MRS 3.x及之后版本。 前提条件 在
x环境中安装Kafka组件。 cp /usr/include/gssapi/* /home/omm/kerberos/include/gssapi/ pip3 install kafka-python pip3 install gssapi 安装成功后,执行以下命令配置环境变量。 source
配置并导入Flink样例工程 操作场景 Flink针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Flink工程。 针对Java和Scala不同语言的工程,其导入方式相同。 以下操作步骤以导入Java样例代码为例。操作流程如图1所示。 图1 导入样例工程流程
DataArts支持通过Spark JDBC方式和Spark API方式操作Hudi表: Spark JDBC方式使用公用资源,不用单独起Spark作业,但是不能指定执行SQL所需要的资源以及配置参数,因此建议用来做建表操作或小数据量的查询操作。 Spark API方式执行的SQL独立起Spark作业,
根据界面提示,在第一个输入框填写目录的父目录完整路径,需要与当前存在的目录完全匹配。例如“/tmp”。 在第二个输入框输入正则表达式,支持标准正则表达式。例如要筛选父目录中所有的文件或子目录,输入“([\s\S]*?)”。例如要筛选命名规则为字母数字组合的文件,如file1可输入“file\d*”。
关依赖包,具体操作可参考配置并导入样例工程。 图2 导入Kafka样例程序 在示例程序“WordCountDemo”中,通过调用Kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数,关键代码片段如下: ... static Properties getStreamsConfig()
由SQLContext及其子类可以方便的创建SparkSQL中的基本数据集DataFrame,DataFrame向上提供多种多样的编程接口,向下兼容多种不同的数据源,例如Parquet、JSON、Hive数据、Database、HBase等,这些数据源都可以使用统一的语法来读取。
客户端直接面向用户,可通过Java API或HBase Shell访问服务端,对HBase的表进行读写操作。本文中的HBase客户端特指从装有HBase服务的MRS Manager上下载的HBase client安装包,里面包含通过Java API访问HBase的样例代码。 父主题:
Hudi表初始化 初始化导入存量数据通常由Spark作业来完成,由于初始化数据量通常较大,因此推荐使用API方式给充足资源来完成。 对于批量初始化后需要接Flink或Spark流作业实时写入的场景,一般建议通过对上有消息进行过滤,从一个指定的时间范围开始消费来控制数据的重复接入量
表即可。 select count(*) from ${table_name}_rt; 实时视图读取(Spark dataSource API为例):和cow表一样,请参考cow表相关操作。 增量视图读取(hive为例): set hive.input.format=org.apache
表即可。 select count(*) from ${table_name}_rt; 实时视图读取(Spark dataSource API为例):和cow表一样,请参考cow表相关操作。 增量视图读取(hive为例): set hive.input.format=org.apache
样例工程位置 描述 kafka-examples 单线程生产数据,相关样例请参考使用Producer API向安全Topic生产消息。 单线程消费数据,相关样例请参考使用Consumer API订阅安全Topic并消费。 多线程生产数据,相关样例请参考使用多线程Producer发送消息。
样例工程位置 描述 kafka-examples 单线程生产数据,相关样例请参考使用Producer API向安全Topic生产消息。 单线程消费数据,相关样例请参考使用Consumer API订阅安全Topic并消费。 多线程生产数据,相关样例请参考使用多线程Producer发送消息。
配置Hive自读自写SQL防御规则 操作场景 Hive支持对自读自写的SQL语句进行拦截。如果一条SQL语句中查询的表、分区或目录与插入的表、分区或目录一致,且以覆盖的方式插入查询的结果数据,便可判定存在自读自写的场景,用户可以在SQL防御界面通过添加规则ID为“dynamic_0004”的防御规则开启该拦截功能。
LakeFormation概述 LakeFormation是企业级一站式湖仓构建服务,提供元数据统一管理的可视化界面及API,兼容Hive元数据模型以及Ranger权限模型,支持无缝对接多种计算引擎及大数据云服务,使客户便捷高效地构建数据湖和运营相关业务,加速释放业务数据价值。
根据界面提示,在第一个输入框填写HBase表所在的命名空间,需要与当前存在的命名空间完全匹配。例如“default”。 在第二个输入框输入正则表达式,支持标准正则表达式。例如要筛选命名空间中所有的表,输入“([\s\S]*?)”。例如要筛选命名规则为字母数字组合的表,如tb1可输入“tb\d*”。
start to put data in opentsdb, the url is https://node-ana-corejnWt:4242/api/put/?sync&sync_timeout=60000 2019-06-27 14:05:23,680 INFO [main] examples
start to put data in opentsdb, the url is https://node-ana-corejnWt:4242/api/put/?sync&sync_timeout=60000 2019-06-27 14:05:23,680 INFO [main] examples
导入并配置Flink样例工程 操作场景 Flink针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Flink工程。 针对Java和Scala不同语言的工程,其导入方式相同。 以下操作步骤以导入Java样例代码为例。操作流程如图1所示。 图1 导入样例工程流程