检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为什么创建Hive表失败? 问题 为什么创建Hive表失败? 回答 当源表或子查询具有大数据量的Partition时,创建Hive表失败。执行查询需要很多的task,此时输出的文件数就会很多,从而导致driver OOM。 可以在创建Hive表的语句中增加distribute b
e文件直接做合并产生新的base文件,而不是写log。 分区设置操作 Hudi支持多种分区方式,如多级分区、无分区、单分区、时间日期分区。用户可以根据实际需求选择合适的分区方式,接下来将详细介绍Hudi如何配置各种分区类型。 多级分区 多级分区即指定多个字段为分区键,需要注意的配置项:
由于Kafka配置的限制,导致Spark Streaming应用运行失败 问题 使用运行的Spark Streaming任务回写Kafka时,Kafka上接收不到回写的数据,且Kafka日志报错信息如下: 2016-03-02 17:46:19,017 | INFO | [kaf
由于Kafka配置的限制,导致Spark Streaming应用运行失败 问题 使用运行的Spark Streaming任务回写Kafka时,Kafka上接收不到回写的数据,且Kafka日志报错信息如下: 2016-03-02 17:46:19,017 | INFO | [kaf
Flink常见问题 数据倾斜 当数据发生倾斜(某一部分数据量特别大),虽然没有GC(Gabage Collection,垃圾回收),但是task执行时间严重不一致。 需要重新设计key,以更小粒度的key使得task大小合理化。 修改并行度。 调用rebalance操作,使数据分区均匀。
Hudi Cleaning操作说明 Cleaning用于清理不再需要的版本数据。 Hudi使用Cleaner后台作业,不断清除不需要的旧版本数据。通过配置hoodie.cleaner.policy和hoodie.cleaner.commits.retained可以使用不同的清理策略和保存的commit数量。
used,最近最少使用)缓存来优化缓存内存。在driver中,B-Tree LRU缓存配置将有助于通过释放未被访问或未使用的表segments来释放缓存。类似地,在executor中,B-Tree LRU缓存配置将有助于释放未被访问或未使用的表blocks。具体可参考表2中的参数“carbon.max.driver
由于kafka配置的限制,导致Spark Streaming应用运行失败 问题 使用运行的Spark Streaming任务回写kafka时,kafka上接收不到回写的数据,且kafka日志报错信息如下: 2016-03-02 17:46:19,017 | INFO | [kaf
由于Kafka配置的限制,导致Spark Streaming应用运行失败 问题 使用运行的Spark Streaming任务回写Kafka时,Kafka上接收不到回写的数据,且Kafka日志报错信息如下: 2016-03-02 17:46:19,017 | INFO | [kaf
使用Spark执行Hudi样例程序(Python) 使用python写Hudi表 下面代码片段仅为演示,具体代码参见:sparknormal-examples.SparkOnHudiPythonExample.hudi_python_write_example。 插入数据: #insert
used,最近最少使用)缓存来优化缓存内存。在driver中,B-Tree LRU缓存配置将有助于通过释放未被访问或未使用的表segments来释放缓存。类似地,在executor中,B-Tree LRU缓存配置将有助于释放未被访问或未使用的表blocks。具体可参考表2中的参数“carbon.max.driver
x之前版本,单击集群名称,登录集群详情页面,选择“组件管理 > Kafka”。 若集群详情页面没有“组件管理”页签,请先完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。 MRS 3.x及后续版本,登录FusionInsight
时文件需要以Flume客户端安装用户身份保存,例如root用户。 查看任一部署Flume角色节点的“业务IP”。 登录FusionInsight Manager页面,具体请参见访问集群Manager,选择“集群 > 服务 > Flume > 实例”。查看任一部署Flume角色节点的“业务IP”。
etached配置项? 用root用户登录Clickhouse客户端所在节点。 进入客户端目录,配置环境变量。 cd /opt/客户端安装目录 source bigdata_env 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。
自定义Flink log4j日志输出级别不生效 用户问题 MRS 3.1.0集群自定义Flink log4j日志级别不生效。 问题现象 在使用MRS 3.1.0集群Flink数据分析时,将“$Flink_HOME/conf”目录下的“log4j.properties”文件中日志级别修改为INFO级别日志。
mmands.html 常用Command YARN Commands可同时供普通用户和管理员用户使用,它包含了少量普通用户可以执行的命令,比如jar、logs。而大部分只有管理员有权限使用。 用户可以通过以下命令查看YARN用法和帮助: yarn --help 用法:进入Yar
mmands.html 常用Command YARN Commands可同时供普通用户和管理员用户使用,它包含了少量普通用户可以执行的命令,比如jar、logs。而大部分只有管理员有权限使用。 用户可以通过以下命令查看YARN用法和帮助: yarn --help 用法:进入Yar
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败 问题 对接OBS ECS/BMS集群,spark-beeline登录后,指定location到OBS建表报错失败。 图1 错误信息 回答 HDFS上ssl.jceks文件权限不足,导致建表失败。 解决方法 使用omm用户登录Spark2x所在节点,执行如下命令:
sg.d1.s2)” 和“ example(root.sg.d1.s2, root.sg.d1.s2)”的结果。 带自定义输入参数的查询 用户可以在进行UDF查询的时候,向UDF传入任意数量的键值对参数。键值对中的键和值都需要被单引号或者双引号引起来。 键值对参数只能在时间序列后传入。
是十分明显。如果用户十分确定某个算子是无状态的,该算子可以不调用uid()方法分配ID。 如果用户在升级作业时新添加一个有状态的算子有什么影响? 当用户在作业中新添加一个有状态的算子时,由于该算子是新添加的,无保存的旧状态,因此无状态恢复,从0开始运行。 如果用户在升级作业时从作业中删除一个有状态的算子有什么影响?