检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
个文件中的记录总数约为130K。 默认值(60000)大约是此近似值的一半。 注意: 将此值设置的太低,将产生很多误报,并且索引查找将必须扫描比其所需的更多的文件;如果将其设置的非常高,将线性增加每个数据文件的大小(每50000个条目大约4KB)。 60000 hoodie.index
重不一致。 需要重新设计key,以更小粒度的key使得task大小合理化。 修改并行度。 优化数据结构 把数据按列存放,读取数据时就可以只扫描需要的列。 使用Hash Shuffle时,通过设置spark.shuffle.consolidateFiles为true,来合并shuf
重不一致。 需要重新设计key,以更小粒度的key使得task大小合理化。 修改并行度。 优化数据结构 把数据按列存放,读取数据时就可以只扫描需要的列。 使用Hash Shuffle时,通过设置spark.shuffle.consolidateFiles为true,来合并shuf
/s/m/h/d。 60s 否 akka.watch.threshold DeathWath失败检测阈值,较小的数值容易把正常TaskManager标记为失败,较大的值增加了失败检测的时间。 12 否 akka.tcp.timeout 发送连接TCP超时时间,如果经常发生满网络环
据分布均匀和查询吞吐均衡。 数据均匀是为了避免某些桶的数据存在倾斜影响数据均衡和查询效率。 查询吞吐利用查询SQL的分桶剪裁优化避免了全桶扫描,以提升查询性能。 分桶列的选取:优先考虑数据较为均匀且常用于查询条件的列作为分桶列。 可使用以下方法分析是否会导致数据倾斜: SELECT
mpala作为代理连接Kudu进行数据操作。 Impala与HBase间的关系 Impala表默认使用存储在HDFS上的数据文件,便于全表扫描的批量加载和查询。但是,HBase可以提供对OLTP样式组织的数据的便捷高效查询。 父主题: 组件介绍
在SQL前加explain (analyze,verbose,timing,costs,buffers)分析执行计划,发现执行时需要全表扫描。 查看索引,发现不满足最左匹配原则。 处理步骤 重建索引。 su - omm gsql -p 20051 -U omm -W password
参数介绍具体可参见Loader连接配置说明。 单击“确定”。 如果连接配置,例如IP地址、端口、访问用户等信息不正确,将导致验证连接失败无法保存。 用户可以直接单击“测试”立即检测连接是否可用。 查看连接 在Loader页面,单击“新建作业”。 单击“连接”后的下拉列表框,可以查看已创建的连接。 编辑连接 在Loader页面,单击“新建作业”。
taging目录下文件 否 MR任务日志丢失 /tmp/hadoop-yarn/staging/history/done 固定目录 周期性扫描线程定期将done_intermediate的日志文件转移到done目录 否 MR任务日志丢失 /tmp/mr-history 固定目录 存储预加载历史记录文件的路径
textFileStream(java.lang.String directory) 入参directory为HDFS目录,该方法创建一个输入流检测可兼容Hadoop文件系统的新文件,并且读取为文本文件。 void start() 启动Streaming计算。 void awaitTermination()
setBlockCacheEnabled(false); HBase不支持条件查询和Orderby等查询方法,存储按照字典排序,读取只支持Rowkey扫描 设计时应避免HBase随机查找、排序的应用场景。 业务表设计建议 预分Region,使Region分布均匀,提高并发 避免过多的热点Re
cipher.list”配置项的值 ,否则以HTTPS访问不了HDFS。单击“保存 > 确定”,保存完成后重启HDFS服务。 TLSv1协议存在安全漏洞,请谨慎使用。 登录FusionInsight Manager页面,单击“集群 > 待操作集群的名称 > 服务 > HDFS > 配置 >全部配置”,在“搜索”框里搜索“dfs
在通常的join/in/not in时候,需要在前面添加Global关键字,避免查询放大问题。 数据查询建议 建议查询指定分区 通过指定分区字段会减少底层数据库扫描的文件数量,提升查询性能,实际经验:700个分区的千列大表,需要查询一个分区中有7000万数据,其他699个分区中无数据,虽然只有一个分区
dropPartitionsInBatch.limit”控制,默认1000),会先于防御规则拦截。 熔断规则存在统计误差,例如规则running_0004,扫描数据量阈值配置10GB,但是因为判断周期和任务并发影响,可能在15GB甚至更高才进行熔断。 熔断规则存在边界效应,例如某个Job直到最后几
textFileStream(java.lang.String directory) 入参directory为HDFS目录,该方法创建一个输入流检测可兼容Hadoop文件系统的新文件,并且读取为文本文件。 void start() 启动Spark Streaming计算。 void awaitTermination()
联网的网络攻击风险可能性。 请确认绑定的弹性公网IP为可信任的公网访问IP。 开放集群22端口安全组规则 该操作会增大用户利用22端口进行漏洞攻击的风险。 针对开放的22端口进行设置安全组规则,只允许可信的IP可以访问该端口,入方向规则不推荐设置允许0.0.0.0可以访问。 删除集群或删除集群数据
cipher.list”配置项的值 ,否则以HTTPS访问不了HDFS。单击“保存 > 确定”,保存完成后重启HDFS服务。 TLSv1协议存在安全漏洞,请谨慎使用。 登录FusionInsight Manager页面,单击“集群 > 待操作集群的名称 > 服务 > HDFS > 配置 >全部配置”,在“搜索”框里搜索“dfs
textFileStream(java.lang.String directory) 入参directory为HDFS目录,该方法创建一个输入流检测可兼容Hadoop文件系统的新文件,并且读取为文本文件。 void start() 启动Spark Streaming计算。 void awaitTermination()
textFileStream(java.lang.String directory) 入参directory为HDFS目录,该方法创建一个输入流检测可兼容Hadoop文件系统的新文件,并且读取为文本文件。 void start() 启动Spark Streaming计算。 void awaitTermination()
告警ID 告警信息的ID。 告警名称 告警信息的名称。 告警级别 包含紧急、重要、次要、提示四项级别。 产生时间 产生告警的时间。 清除时间 告警检测到已清除的时间。如果未清除,则显示为“--”。 来源 集群名称。 对象 触发告警的服务、进程或模块。 是否自动清除 能够在问题修复后自动清除告警。