检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Spark的配置文件“spark-defaults.conf”中,设置“spark.sql.autoBroadcastJoinThreshold”的值。 spark.sql.autoBroadcastJoinThreshold = <size> 利用Hive CLI命令,设置阈值。在运行Join操作时,提前运行下面语句:
配置Spark SQL开启Adaptive Execution特性 配置场景 Spark SQL Adaptive Execution特性用于使Spark SQL在运行过程中,根据中间结果优化后续执行流程,提高整体执行效率。当前已实现的特性如下: 自动设置shuffle partition数
); SELECT * FROM KafkaSource; 不能同时设置“topic-pattern”和“topic”配置项 topic-pattern:主题模式,用于source表,可使用正则表达式的主题名称。 【示例】以下source表将订阅所有以“test-topic-”开头,单个数字结尾的主题消息:
从零开始使用Spark SQL Spark提供类似SQL的Spark SQL语言操作结构化数据,本章节提供从零开始使用Spark SQL,创建一个名称为src_data的表,然后在src_data表中每行写入一条数据,最后将数据存储在“mrs_20160907”集群中。再使用SQL语句查询sr
配置Spark SQL开启Adaptive Execution特性 配置场景 Spark SQL Adaptive Execution特性用于使Spark SQL在运行过程中,根据中间结果优化后续执行流程,提高整体执行效率。当前已实现的特性如下: 自动设置shuffle partition数。
FlinkSQL行级过滤 本章节适用于MRS 3.3.1及以后版本。 使用场景 使用FlinkSQL时支持设置行级别过滤条件,可以使指定用户只能访问授权过的行,隐藏未授权的行数据。 前提条件 集群已启用Kerberos认证(安全模式),已安装Ranger、Hive、Flink等服务且服务运行正常。
window_start, window_end FlinkSQL支持设置Source的并发 本章节适用于MRS 3.3.0及以后版本。 FlinkSQL支持通过使用参数“source.parallelism”设置Source算子的并发数,解决下游算子的并发数引起的一些问题,例
个SFTP服务器操作数据,单击“添加”可增加多行SFTP服务器的配置信息。 表1 连接参数 参数名 说明 示例 名称 SFTP服务器连接的名称。 sftpName Sftp服务器的IP SFTP服务器的IP地址。 10.16.0.1 Sftp服务器端口 SFTP服务器的端口号。 22
Manager,选择“集群 > SQL防御”,打开SQL防御页面。 参考添加MRS SQL防御规则添加针对ClickHouse的SQL防御规则。 ClickHouse SQL引擎支持的各类型SQL防御规则可参考MRS SQL防御规则。 例如添加一条规则ID为“static_0008”,SQL语句执行C
个SFTP服务器操作数据,单击“添加”可增加多行SFTP服务器的配置信息。 表1 连接参数 参数名 说明 示例 名称 SFTP服务器连接的名称。 sftpName Sftp服务器的IP SFTP服务器的IP地址。 10.16.0.1 Sftp服务器端口 SFTP服务器的端口号。 22
单击“Open”登录云服务器。 如果首次登录云服务器,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“是”将证书保存到本地注册表中。 建立到云服务器的SSH连接后,根据提示输入用户名和密码登录弹性云服务器。 用户名、密码分别是root和创建集群时设置的密码。 本地使用Linux操作系统
PARTITIONS [catalog_name.][db_name.]table_name [PARTITION (partitionSpecs)]; 描述 用于列出指定的所有分区。 示例 SHOW PARTITIONS test PARTITION(hr = '12', ds =
FlinkSQL Kafka表开发建议 Kafka作为source表时应设置限流 本章节适用于MRS 3.3.0及以后版本。 防止上限超过流量峰值,导致作业异常带来不稳定因素。因此建议设置限流,限流上限应该为业务上线压测的峰值。 【示例】 #如下参数作用在每个并行度 'scan.records-per-second
into语句写同一张Gauss for MySQL时建议过滤回撤数据 当有多个Flink作业写同一张MySQL表时,其中一个Flink作业发送回撤数据(-D、-U)到目标表删除整行数据,再插入本次更新的数据,导致其他作业写入的字段全部丢失。 优化前SQL: create table source-A(
Hive SQL扩展语法说明 Hive SQL支持Hive-3.1.0版本中的所有特性,详情请参见https://cwiki.apache.org/confluence/display/hive/languagemanual。 MRS系统提供的扩展Hive语句如表1所示。 表1 扩展Hive语句
个SFTP服务器操作数据,单击“添加”可增加多行SFTP服务器的配置信息。 表1 连接参数 参数名 说明 示例 名称 SFTP服务器连接的名称。 sftpName Sftp服务器的IP SFTP服务器的IP地址。 10.16.0.1 Sftp服务器端口 SFTP服务器的端口号。 22
ClickHouse客户端执行SQL查询时报内存不足如何处理? 问题现象 ClickHouse会限制group by使用的内存量,在使用ClickHouse客户端执行SQL查询时报如下错误: Progress: 1.83 billion rows, 85.31 GB (68.80
r支持配置多个FTP服务器操作数据,单击“添加”可增加多行FTP服务器的配置信息。 表1 连接参数 参数名 说明 示例 FTP服务器的IP FTP服务器的IP地址。 ftpName FTP服务器端口 FTP服务器的端口号。 22 FTP用户名 访问FTP服务器的用户名。 root
Spark SQL程序 场景说明 Java样例代码 Scala样例代码 父主题: 开发Spark应用
Hive SQL扩展语法说明 Hive SQL支持Hive-3.1.0版本中的所有特性,详情请参见https://cwiki.apache.org/confluence/display/hive/languagemanual。 系统提供的扩展Hive语句如表1所示。 表1 扩展Hive语句