检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
connection.timeout.ms 连接ZooKeeper的超时时间。单位:毫秒。 45000 ZooKeeper连接超时时间,这个时间决定了zkclient中初次连接建立过程时允许消耗的时间,超过该时间,zkclient会主动断开。 zookeeper.session.timeout
table => '[table_name]'); 参数描述 表1 参数描述 参数 描述 table_name 需要查询的表名,支持database.tablename格式。 示例 call show_hoodie_properties(table => "hudi_table5");
Datasource表优化 操作场景 将datasource表的分区消息存储到Metastore中,并在Metastore中对分区消息进行处理。 优化datasource表,支持对表中分区执行增加、删除和修改等语法,从而增加与Hive的兼容性。 支持在查询语句中,把分区裁剪并下压
Datasource表优化 操作场景 将datasource表的分区消息存储到Metastore中,并在Metastore中对分区消息进行处理。 优化datasource表,支持对表中分区执行增加、删除和修改等语法,从而增加与Hive的兼容性。 支持在查询语句中,把分区裁剪并下压
这两种方式都是作用在HBase的列簇上,可以同时使用,也可以单独使用。 前提条件 已安装HBase客户端。例如,客户端安装目录为“/opt/client”。 如果集群开启了Kerberos认证,操作的用户还需要具备对应的操作权限。即创建表时需要具备对应的namespace或更高级别的创建(C)或者管理(A)权限
这两种方式都是作用在HBase的列簇上,可以同时使用,也可以单独使用。 前提条件 已安装HBase客户端。例如,客户端安装目录为“/opt/client”。 如果集群开启了Kerberos认证,操作的用户还需要具备对应的操作权限。即创建表时需要具备对应的namespace或更高级别的创建(C)或者管理(A)权限
Hue常见问题 使用Hive输入use database语句失效 使用Hue WebUI访问HDFS文件失败 在Hue页面上传大文件失败 Hue WebUI中Oozie编辑器的时区设置问题 访问Hue原生页面时间长,文件浏览器报错Read timed out 父主题: 使用Hue(MRS
Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records 父主题: Spark2x常见问题
k/conf”目录下。如果是在集群外节点安装的客户端,需要将得到的文件复制到该节点的“/etc/”目录下。 MRS 3.x及之后版本,安全模式下需要将客户端安装节点的业务IP以及Manager的浮动ip追加到“/opt/Bigdata/client/Flink/flink/conf/flink-conf
Table Information Database: default
Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records 父主题: Spark常见问题
当后端单Sink性能不足、需要高可靠性保证或者异构输出时可以使用Sink Group来将指定的Channel和多个Sink对接,从而满足相应的使用场景。目前Flume提供了两种Sink Processor用于对Sink Group中的Sink进行管理:Load Balancing和Failover。 Failover:表示在Sink
FlinkSQL Connector开发规范 FlinkSQL ClickHouse表开发规则 FlinkSQL ClickHouse表开发建议 FlinkSQL Doris数据表开发规则 FlinkSQL Kafka表开发规则 FlinkSQL Kafka表开发建议 FlinkSQL
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
fyntp.sh --ntp_server_ip ntp.myhuaweicloud.com --force_sync_time 如果停止了集群,在更换NTP服务器后需要重新启动集群。 执行强制同步时间命令后,集群节点大约需要5分钟完成时间同步。 父主题: 管理MRS集群
上传用户文件 单击,单击Upload。 选择一个操作。 “Files”:表示上传用户文件到当前用户。 “Zip/Tgz/Bz2 file”:表示上传了一个压缩文件,在弹出框单击“Select ZIP, TGZ or BZ2 files”选择需要上传的压缩文件。系统会自动在HDFS中对文件解
SparkSQL读取ORC表报错 问题现象 Hive创建ORC存储格式的表,用SparkSQL读取该表时报错: 原因分析 该问题为一个开源社区问题:https://issues.apache.org/jira/browse/HIVE-11102,使用开源的hive 1.2.1版本包就有可能触发此问题。
配置流式读取Spark Driver执行结果 配置场景 在执行查询语句时,返回结果有可能会很大(10万数量以上),此时很容易导致JDBCServer OOM(Out of Memory)。因此,提供数据汇聚功能特性,在基本不牺牲性能的情况下尽力避免OOM。 配置描述 提供两种不同
Flink Stream SQL Join应用开发思路 假定某个Flink业务1每秒就会收到1条消息记录,消息记录某个用户的基本信息,包括名字、性别、年龄。另有一个Flink业务2会不定时收到1条消息记录,消息记录该用户的名字、职业信息。 基于某些业务要求,开发的Flink应用程
from fruit; -- 10.0 approx_distinct(x) → bigint 描述:该函数返回类型为bigint,它提供了count(distinct x)的近似计数。如果所有输入都是null值,则返回0。 此函数所有可能的值相对于正确的值的误差服从近似正态分布,其标准差为2