检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导出Doris查询结果集 本章节主要介绍如何使用SELECT INTO OUTFILE命令,将Doris查询结果集使用指定的文件格式导出到指定的存储系统中。 导出命令不会检查文件及文件路径是否存在、是否会自动创建路径、或是否会覆盖已存在文件,由远端存储系统的语义决定。 如果在导出
HDFS Colocation 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
配置Hive通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,即可在Hive客户端创建Location为OBS路径的表。 建表时指定Location为OBS路径 使用安装客户端用户登录客户端安装节点。 执行如下命令初始化环境变量。 source
添加ClickHouse数据源 ClickHouse数据源中同一个Schema(或Database)下不能存在名字内容相同但大小写格式不同的Table,例如:cktable(小写)、CKTABLE(大写)和CKtable(大小写混合),该内容的Table只能有一个,否则HetuE
foreachPartition接口使用 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,将要插入的数据的rowKey构造成rdd,然后通过HBaseContext的mapPartition接口将rdd并发写入HBase表中。 数据规划
MRS集群切换VPC后集群状态异常不可用 问题现象 客户MRS集群,在ECS侧将所有节点的VPC切换后集群状态异常。 所有服务不可用,其中Hive beeline报错如下: 原因分析 MRS不支持切换VPC,切换VPC后,节点的内网IP变化,但是配置文件和数据库还是原有的IP,导
foreachPartition接口使用 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,将要插入的数据的rowKey构造成rdd,然后通过HBaseContext的mapPartition接口将rdd并发写入HBase表中。 数据规划
在Flink WebUI和Linux环境中调测Flink应用 操作场景 IoTDB应用程序支持在安装了Flink客户端的Linux环境和安装了Flink WebUI的环境中运行。在程序代码完成开发后,您可以上传Jar包至准备好的环境中运行。 前提条件 集群已安装Flink组件,并且添加了FlinkServer实例。
缩容ClickHouseServer节点 MRS集群中部署了ClickHouse服务时,如果需要缩容ClickHouseServer节点,需参考本章节进行缩容前的数据检查,避免在删除节点过程中造成数据丢失。 缩容ClickHouseServer约束限制 表1 ClickHouseServer缩容约束
在Linux中调测Hive HCatalog应用 执行mvn package生成jar包,在工程目录target目录下获取,比如: hive-examples-1.0.jar。 将上一步生成的hive-examples-1.0.jar上传至运行调测环境的指定路径,例如“/opt/
配置HDFS同分布策略(Colocation) 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
配置HDFS同分布策略(Colocation) 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
创建FlinkServer作业写入数据至HBase表 本章节适用于MRS 3.1.2及之后的版本。 操作场景 FlinkServer支持对接HBase,详情如下: 支持对接维表、Sink表。 当HBase与Flink为同一集群或互信的集群,支持FlinkServer对接HBase。
Flink应用开发简介 简介 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并
在本地Windows环境中调测Spark应用 在程序代码完成开发后,您可以在Windows环境中运行应用。使用Scala或Java语言开发的应用程序在IDEA端的运行步骤是一样的。 Windows环境中目前只提供通过JDBC访问Spark SQL的程序样例代码的运行,其他样例代码暂不提供。
FlinkIoTDBSource样例程序 功能简介 IoTDB与Flink的集成。此模块包含了iotdb source,通过flink job将时序数据从IoTDB读取出来并且打印。 代码样例 该示例演示了Flink job 如何从IoTDB server读取时序数据的场景: Flink使用IoTDBSource从
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
配置Flume加密传输 操作场景 该操作指导安装工程师在集群安装完成后,设置Flume服务(Flume角色)的服务端和客户端参数,使其可以正常工作。 本章节适用于MRS 3.x及之后版本。 前提条件 已成功安装集群及Flume服务。 操作步骤 分别生成Flume角色服务端和客户端的证书和信任列表。
MapReduce访问多组件样例程序开发思路 场景说明 该样例以MapReduce访问HDFS、HBase、Hive为例,介绍如何编写MapReduce作业访问多个服务组件。帮助用户理解认证、配置加载等关键使用方式。 该样例逻辑过程如下。 以HDFS文本文件为输入数据 log1.txt:数据输入文件
准备连接Hive集群配置文件 准备集群认证用户信息 对于开启Kerberos认证的MRS集群,需提前准备具有相关组件操作权限的用户用于程序认证。 以下Hive权限配置示例供参考,在实际业务场景中可根据业务需求灵活调整。 登录FusionInsight Manager。 选择“集群