检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Int)相同,会将数据通过Shuffle的方式重新分区;当shuffle为false的时候,则只是简单的将父RDD的多个partition合并到同一个task进行计算,shuffle为false时,如果numPartitions大于父RDD的切片数,那么分区不会重新调整。 遇到下列场景,可选择使用coalesce算子:
keytab 问题背景与现象 使用MRS流式安全集群,主要安装ZooKeeper、Storm、Kafka等。 定义拓扑访问HDFS、HBase等组件,使用客户端命令,提交Topology失败。 可能原因 提交拓扑中没有包含用户的keytab文件。 提交拓扑中包含的keytab和提交用户不一致。
参考表1。 服务器登录:选择“用户名和密码”并填写相应的用户名及密码。 单击“新建数据集”,在弹出的页面参考下图修改保存路径及文件名称,单击“确定”保存修改路径及文件名称。 图3 修改路径及名称 在“数据源”选择新建的数据集的文件名称,此处以默认文件名称“未命名-0”为例,选择“未命名-0
是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 表名 产生告警的库名.表名 对系统的影响 ClickHouse业务中若存在元数据不一致的表,则后续针对该表的insert、alter等操作可能执行失败。 可能原因
单击“操作类型”右侧的,选择“保存配置 > 确定”,再单击“搜索”。 查看搜索结果中“服务”列为与Hive、ZooKeeper相关的服务,检查近期修改的配置,表1为部分可能影响Hive连接ZooKeeper的配置。 表1 Hive连接ZooKeeper的相关配置 服务 参数名称
Int)相同,会将数据通过Shuffle的方式重新分区;当shuffle为false的时候,则只是简单的将父RDD的多个partition合并到同一个task进行计算,shuffle为false时,如果numPartitions大于父RDD的切片数,那么分区不会重新调整。 遇到下列场景,可选择使用coalesce算子:
Int)相同,会将数据通过Shuffle的方式重新分区;当shuffle为false的时候,则只是简单的将父RDD的多个partition合并到同一个task进行计算,shuffle为false时,如果numPartitions大于父RDD的切片数,那么分区不会重新调整。 遇到下列场景,可选择使用coalesce算子
当合并SummingMergeTree表的数据片段时,ClickHouse会把所有具有相同主键的行合并为一行,该行包含了被合并的行中具有数值数据类型的列的汇总值。如果主键的组合方式使得单个键值对应于大量的行,则可以显著地减少存储空间并加快数据查询的速度。 建表语法: CREATE TABLE
name:为本NettySource的名称,该NettySource必须是唯一的(并发度除外),否则,连接NettySink时会出现冲突,导致无法连接。 topic:订阅的NettySink的topic。 registerServerHandler:为注册服务器的句柄。 NettySource的并发度必须
日志 > 下载”。 在“服务”中勾选待操作集群的“ClickHouse”。 在“主机”中选择对应的主机。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
ServiceName 产生告警的服务名称。 HostName 产生告警的主机名。 ComponentType 产生告警的元素类型。 ComponentName 产生告警的元素名称。 对系统的影响 Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume
登录到impala客户端所在的节点上,source环境变量,然后执行如下命令。 impala-shell -i {impalad实例ip:port} -Q request_pool=root.default (fair-scheduler.xml与llama-site.xml文件中配置的资源池) 执行SQL查询。
出现此告警时,说明当前Loader实例设置的堆内存无法满足当前数据传输所需的堆内存,建议打开实例监控界面,在页面上调出“Loader堆内存资源状况”监控图表,观察该监控图表中“Loader使用的堆内存大小”的变化趋势,根据当前堆内存使用的大小,调整“-Xmx”的值为当前堆内存使用量的两倍(或根据实际情况进行调整)。
add:表示索引名与对应数据表的列的映射(索引列定义)。 indexspecs.covered.to.add(可选):表示索引中冗余存储的数据表的列(覆盖列定义)。 indexspecs.covered.family.to.add(可选):表示索引表冗余存储的数据表的列族(覆盖列族定义)。
大内存的90%)时,产生该告警。 直接内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 14016 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
不建议分区列选择类型为float或double的字段,因为精度问题,可能导致分区列字段的最小值、最大值所在记录无法导入。 id 分区列空值 配置对数据库列中为null值记录的处理方式。 值为“true”时,分区列的值为null的数据会被处理; 值为“false”时,分区列的值为null的数据不会被处理。 true
不建议分区列选择类型为float或double的字段,因为精度问题,可能导致分区列字段的最小值、最大值所在记录无法导入。 id 分区列空值 配置对数据库列中为null值记录的处理方式。 值为“true”时,分区列的值为null的数据会被处理; 值为“false”时,分区列的值为null的数据不会被处理。 true
producer.properties Kafka的producer端配置信息。 server.properties Kafka的服务端的配置信息。 复制解压目录下的“hosts”文件中的内容到本地hosts文件中。 在应用开发过程中,如需在本地Windows系统中调测应用程序,
用程序结果备份到HDFS的路径,<brokers>指获取元数据的Kafka地址,<topic>指读取Kafka上的topic名称,<batchTime>指Streaming分批的处理间隔。 由于Spark Streaming Kafka的依赖包在客户端的存放路径与其他依赖包不同,
短时间的过期时间,而另一个表数据变化较慢,需要较长时间的过期时间。目前Flink只有表级别的TTL(Time To Live:生存时间),为了保证Join的准确性,需要将表级别的TTL设置为较长时间的过期时间,此时状态后端中保存了大量的已经过期的数据,给状态后端造成了较大的压力。