检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
显示一条语句的逻辑的或者分布式的执行计划,也可以用于校验一条SQL语句,或者是分析IO。 参数TYPE DISTRIBUTED用于显示分片后的计划(fragmented plan)。每一个fragment都会被一个或者多个节点执行。Fragments separation表示数据
的hash分桶,如图1所示。 图1 小文件合并 操作步骤 要启动小文件优化,在Spark客户端的“spark-defaults.conf”配置文件中进行设置。 表1 参数介绍 参数 描述 默认值 spark.sql.files.maxPartitionBytes 在读取文件时,将单个分区打包的最大字节数。
的hash分桶,如图1所示。 图1 小文件合并 操作步骤 要启动小文件优化,在Spark客户端的“spark-defaults.conf”配置文件中进行设置。 表1 参数介绍 参数 描述 默认值 spark.sql.files.maxPartitionBytes 在读取文件时,将单个分区打包的最大字节数。
examples.KafkaWordCount。 当Streaming DataFrame/Dataset中有新的可用数据时,outputMode用于配置写入Streaming接收器的数据。 object KafkaWordCount { def main(args: Array[String]):
开发Impala用户自定义函数 当Impala的内置函数不能满足需要时,可以通过编写用户自定义函数UDF(User-Defined Functions)插入自己的处理代码并在查询中使用它们。 按实现方式,UDF有如下分类: 普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。
开发Impala用户自定义函数 当Impala的内置函数不能满足需要时,可以通过编写用户自定义函数UDF(User-Defined Functions)插入自己的处理代码并在查询中使用它们。 按实现方式,UDF有如下分类: 普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。
consume.mode = INCREMENTAL;,但该参数仅限于增量视图查询,不能用于Hudi表的其他类型查询,和其他表的查询。 恢复配置可设置set hoodie.hudicow.consume.mode = SNAPSHOT;或任意值。 父主题: Hudi读操作
字段没有更新,在该关联中仅用到了B表的B1和B2字段,对于B表,每个记录更新只更新B3字段,B1和B2不更新,因此当B表更新,可以忽略更新后的数据。 select A.A1,B.B1,B.B2 from A join B on A.P1=B.P1 为解决如上问题可通过使用hint单独为左表(duplicate
FlinkServer支持审计日志。 Hadoop 升级到3.3.1版本。 HetuEngine HetuEngine支持物化视图及自动刷新。 HetuEngine支持配置IoTDB数据源。 Hudi 升级到0.11.0版本。 IoTDB 新增组件,一体化收集、存储、管理与分析物联网时序数据的服务。 集群管理
提交作业时系统提示当前用户在Manager不存在如何处理? 问: 安全集群在提交作业时,未进行IAM用户同步,会出现“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”的错误提示。 答: 在提交作业之前,用户需要先在集群详情页的
MapReduce与其他组件的关系 MapReduce和HDFS的关系 HDFS是Hadoop分布式文件系统,具有高容错和高吞吐量的特性,可以部署在价格低廉的硬件上,存储应用程序的数据,适合有超大数据集的应用程序。 MapReduce是一种编程模型,用于大数据集(大于1TB)的并行运
outputformat 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'; 查询之前指定配置项: set hive.textinput.record.delimiter='!@!'; Hive会以‘!@!’为行分隔符查询数据。 父主题:
查看Kafka服务状态: MRS Manager界面操作:登录MRS Manager,依次选择“服务管理 > Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manager界面操作:登录FusionInsight Manager,选择“集群
败。 处理步骤 在集群外客户端所在节点执行以下命令安装rng-tools工具: yum install rng-tools 执行以下命令启动rng-tools: systemctl start rngd 若还需实现当所在节点重启后,rng-tools工具自动运行,则执行以下命令:
SecurityKafkaWordCount。 当Streaming DataFrame/Dataset中有新的可用数据时,outputMode用于配置写入Streaming接收器的数据。 object SecurityKafkaWordCount { def main(args: Array[String]):
SecurityKafkaWordCount。 当Streaming DataFrame/Dataset中有新的可用数据时,outputMode用于配置写入Streaming接收器的数据。 object SecurityKafkaWordCount { def main(args: Array[String]):
Presto的coordinator进程无法正常启动 用户问题 Presto的coordinator未知原因被终止,或者Presto的coordinator进程无法正常启动。 问题现象 Presto的coordinator无法正常启动,Manager页面上显示presto coo
补丁基本信息 表1 补丁基本信息 补丁号 MRS_3.1.0_TROS_Tools_patch_20240430 发布时间 2024-07-15 解决的问题 MRS_3.1.0_TROS_Tools_patch_20240430修复问题列表: 支持Manager运维通道 支持运维巡检特性
examples.KafkaWordCount。 当Streaming DataFrame/Dataset中有新的可用数据时,outputMode用于配置写入Streaming接收器的数据。 object KafkaWordCount { def main(args: Array[String]):
磁盘容量不足导致Spark、Hive和Yarn服务不可用 用户问题 磁盘容量不足产生致命告警,Spark、Hive和Yarn服务不可用。 问题现象 用户创建的集群显示磁盘容量不足,产生致命告警,导致Spark、Hive和Yarn服务不可用。 原因分析 由于集群磁盘容量不足,会影响