检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hadoop压力测试工具如何获取? 问: Hadoop压力测试工具如何获取? 答: Hadoop压力测试工具社区获取地址:https://github.com/Intel-bigdata/HiBench。 父主题: 性能优化类
【Hue WedUI】Hue(主)无法打开web网页 问题背景与现象 访问Hue(主)的WebUI界面提示如下: Service Unavailable The server is temporarily unable to service your request due to
MinHash用于估计两个集合的Jaccard相似系数。它通常用于数据挖掘,用于大规模检测近乎相同的网页。通过使用这些信息,搜索引擎有效地避免了在搜索结果中显示两个几乎相同的网页。 以下示例展示了如何使用Set Digest函数来简单估计文本之间的相似性。通过使用函数ngrams
增强有限内存下的稳定性 配置场景 当前Spark SQL执行一个查询时需要使用大量的内存,尤其是在做聚合(Aggregate)和关联(Join)操作时,此时如果内存有限的情况下就很容易出现OutOfMemoryError。有限内存下的稳定性就是确保在有限内存下依然能够正确执行相关
ClickHouse容量规划设计 为了能够更好的发挥ClickHouse分布式查询能力,在集群规划阶段需要合理设计集群数据分布存储。 当前ClickHouse能力为单机磁盘容量达到80%后会上报告警信息,磁盘容量达90%后集群会处于只读状态。 出现磁盘告警信息后需要考虑是否是容量
性能优化类 Hadoop压力测试工具如何获取? 如何提高集群Core节点的资源使用率? 如何配置MRS集群knox内存? 如何调整MRS集群manager-executor进程内存? 如何设置Spark作业执行时自动获取更多资源? spark.yarn.executor.memo
使用LZC压缩算法存储HDFS文件 配置场景 文件压缩可以减少储存文件的空间,并且提高数据从磁盘读取和网络传输的速度。HDFS有Gzip和Snappy这两种默认压缩格式。本章节为HDFS新增加的压缩格式LZC(Lempel-Ziv Compression)提供配置方法。这种压缩格
配置FlinkServer重启策略 概述 Flink支持不同的重启策略,以在发生故障时控制作业是否重启以及如何重启。若不指定重启策略,集群会使用默认的重启策略。用户也可以在提交作业时指定一个重启策略,可参考创建FlinkServer作业在作业开发界面配置(MRS 3.1.0及以后版本)。
配置HBase数据压缩格式和编码 操作场景 HBase可以通过对HFile中的data block编码,减少Key-Value中Key的重复部分,从而减少空间的使用。目前对data block的编码方式有:NONE、PREFIX、DIFF、FAST_DIFF和ROW_INDEX_
on_xxx/jobs/),其中的<hostname>没有在Windows系统的hosts文件中添加域名信息,导致DNS查找失败无法显示此网页。 解决措施: 建议用户使用FusionInsight代理去访问Spark JobHistory页面,即单击如图2中蓝框所示的Spark WebUI的链接。
on_xxx/jobs/),其中的<hostname>没有在Windows系统的hosts文件中添加域名信息,导致DNS查找失败无法显示此网页。 解决措施: 建议用户使用FusionInsight代理去访问Spark JobHistory页面,即单击如图2中蓝框所示的Spark WebUI的链接。
使用Spark小文件合并工具说明 工具介绍 在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因
WebUI页面报错“Proxy Error” 【Hue WebUI】集群未安装Hive服务时Hue原生页面无法正常显示 【Hue WedUI】Hue(主)无法打开web网页 【Ranger WebUI】新用户修改完密码后无法登录Ranger WebUI界面 【Tez WebUI】访问Tez WebUI界面报错404
管理FlinkServer作业 配置FlinkServer重启策略 配置FlinkServer作业中使用UDF 父主题: 使用Flink
配置FlinkServer作业中使用UDF 本章节适用于MRS 3.1.2及之后的版本。 用户可以自定义一些函数,用于扩展SQL以满足个性化的需求,这类函数称为UDF。用户可以在Flink WebUI界面中上传并管理UDF jar包,然后在运行作业时调用相关UDF函数。 Flink支持以下3类自定义函数,如表1。
MRS集群版本选择建议 LTS版集群支持版本升级能力,如果您需要使用版本升级能力,您可以选择购买LTS版集群。 LTS版集群具备多可用区部署能力,可以实现集群可用区级别的容灾。如果您需要MRS集群具备更高的安全性能和容灾能力,您可以选择购买LTS版集群。 LTS版集群支持HetuEngi
ClickHouse集群规划 ClickHouse集群业务规划 ClickHouse数据分布设计 ClickHouse容量规划设计 ClickHouse依赖服务设计 父主题: ClickHouse应用开发规范
MRS组件jar包版本与集群对应关系说明 MRS 3.2.0-LTS.1 表1 MRS 3.2.0-LTS.1版本集群Maven仓库的jar版本与组件的对应关系 组件 组件版本 jar版本 Flink 1.15.0 1.15.0-h0.cbu.mrs.320.r33 Hive 3
的approx_distinct(),即每个元素出现的近似次数,进而通过很小的开销去完成整个查询。 例如,只要计算每日每个用户浏览了多少次网页,就可以通过累加的方式,去计算每周、每年对应的数据,类似于通过汇总每日收入来计算每周收入。 可以将approx_distinct()与GROUPING
为了保护Web服务器的可靠性,当访问的用户连接数达到一定数量之后,对新增用户的连接进行限制。防止大量同时登录和访问,导致服务不可用,同时避免DDOS攻击。 参数修改入口:在FusionInsight Manager系统中,选择“集群 > 服务 > 服务名 > 配置”,展开“全部配置”页签。在搜索框中输入参数名称。