检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hadoop压力测试工具如何获取? 问: Hadoop压力测试工具如何获取? 答: Hadoop压力测试工具社区获取地址:https://github.com/Intel-bigdata/HiBench。 父主题: 性能优化类
【Hue WedUI】Hue(主)无法打开web网页 问题背景与现象 访问Hue(主)的WebUI界面提示如下: Service Unavailable The server is temporarily unable to service your request due to
集群在线扩缩容 大数据集群的处理能力通常可以通过增加集群的节点数来横向扩展,当集群规模不符合业务要求时,用户可以通过该功能进行集群节点规模的调整,进行扩容或者缩容;在缩容节点时,MRS会智能地选择负载最少或者迁移数据量最小节点,并且在缩容过程中,缩容节点不再接收新的任务,正在执行
MinHash用于估计两个集合的Jaccard相似系数。它通常用于数据挖掘,用于大规模检测近乎相同的网页。通过使用这些信息,搜索引擎有效地避免了在搜索结果中显示两个几乎相同的网页。 以下示例展示了如何使用Set Digest函数来简单估计文本之间的相似性。通过使用函数ngrams
在线检索MRS集群日志 MRS集群Manager支持在线检索并显示组件的日志内容,用于问题定位等其他日志查看场景,管理员可在线按照节点范围或者组件角色范围快速检视所有日志,通过关键字分析快速定位问题。 本章节操作仅支持MRS 3.x及之后的版本。 在线检索日志 登录FusionInsight
性能优化类 Hadoop压力测试工具如何获取? 如何提高集群Core节点的资源使用率? 如何配置MRS集群knox内存? 如何调整MRS集群manager-executor进程内存? 如何设置Spark作业执行时自动获取更多资源? spark.yarn.executor.memo
ClickHouse容量规划设计 为了能够更好的发挥ClickHouse分布式查询能力,在集群规划阶段需要合理设计集群数据分布存储。 当前ClickHouse能力为单机磁盘容量达到80%后会上报告警信息,磁盘容量达90%后集群会处于只读状态。 出现磁盘告警信息后需要考虑是否是容量
Manager页面上进行Impala SQL作业管理。 Spark2x 升级到3.1.1版本。 ZooKeeper 升级到3.6.3版本。 管理控制台 支持补丁在线推送及更新。 支持包周期集群中的部分节点退订。 作业提交API新增支持FlinkSQL作业类型。 支持指定资源池的弹性伸缩能力。 M
Flink作业用于提交jar程序处理流式数据。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 操作视频 本视频以在未开启Kerberos认证的MRS 3.1.0版本集群的管理控制台上,提交用于处理OBS存储的数据的Flink作业为例进行说明。
务,开启物化视图推荐能力后,系统能自动学习并推荐对业务最有价值的物化视图SQL,使HetuEngine具备自动预计算加速能力,在相关场景下在线查询效率获得倍数提升,同时有效降低系统负载压力。 前提条件 集群运行正常并至少安装一个QAS实例。 已创建用于访问HetuEngine W
0-LTS.1版本说明 发布日期 MRS 3.2.0-LTS.1 2023年4月28日 更新内容 服务模块 主要变更点 ClickHouse 升级到22.3.2.2版本。 ClickHouse支持多租户,通过CPU优先级和内存限额分配资源。 Flink 升级到1.15.0版本。 FlinkServer支持审计日志。
on_xxx/jobs/),其中的<hostname>没有在Windows系统的hosts文件中添加域名信息,导致DNS查找失败无法显示此网页。 解决措施: 建议用户使用FusionInsight代理去访问Spark JobHistory页面,即单击如图2中蓝框所示的Spark WebUI的链接。
HetuEngine SQL诊断功能介绍 HetuEngine QAS实例可对用户的SQL执行历史记录提供自动感知、自动学习、自动诊断服务,提升在线SQL运维能力,自动加速在线SQL分析任务,开启SQL诊断能力后,系统可实现如下能力: 自动感知并向集群管理员展现不同时间周期范围内的租户级、用户级的S
on_xxx/jobs/),其中的<hostname>没有在Windows系统的hosts文件中添加域名信息,导致DNS查找失败无法显示此网页。 解决措施: 建议用户使用FusionInsight代理去访问Spark JobHistory页面,即单击如图2中蓝框所示的Spark WebUI的链接。
查看MRS作业详情和日志 用户通过管理控制台可在线查看当前MRS集群内所有作业的状态详情,以及作业的详细配置信息和运行日志信息。 由于Spark SQL和Distcp作业在后台无日志,因此运行中的Spark SQL和Distcp作业不能在线查看运行日志信息。 查看作业状态 登录MRS管理控制台。
WebUI页面报错“Proxy Error” 【Hue WebUI】集群未安装Hive服务时Hue原生页面无法正常显示 【Hue WedUI】Hue(主)无法打开web网页 【Ranger WebUI】新用户修改完密码后无法登录Ranger WebUI界面 【Tez WebUI】访问Tez WebUI界面报错404
配置HDFS DiskBalancer磁盘均衡 配置场景 DiskBalancer是一个在线磁盘均衡器,旨在根据各种指标重新平衡正在运行的DataNode上的磁盘数据。工作方式与HDFS的Balancer工具类似。不同的是,HDFS Balancer工具用于DataNode节点间的数据均衡,而HDFS
息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。 Kafka结构
配置HDFS DiskBalancer磁盘均衡 配置场景 DiskBalancer是一个在线磁盘均衡器,旨在根据各种指标重新平衡正在运行的DataNode上的磁盘数据。工作方式与HDFS的Balancer工具类似。不同的是,HDFS Balancer工具用于DataNode节点间的数据均衡,而HDFS
Kafka作为一个消息发布-订阅系统,为整个大数据平台多个子系统之间数据的传递提供了高速数据流转方式。 Kafka可以实时接受来自外部的消息,并提供给在线以及离线业务进行处理。 Kafka与其他组件的具体的关系如下图所示: 图1 与其他组件关系 父主题: Kafka