检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过专线访问Manager页面方式出现503报错 问题现象 通过专线方式访问Manager界面,出现503报错:当前无法使用此页面”。 原因分析 随着任务量的增大或者任务并发较高,有可能会导致Executor内存不足,进而导致访问Manager异常。 处理步骤 通过root用户登
优化HDFS DataNode RPC的服务质量 配置场景 当客户端写入HDFS的速度大于DataNode的硬盘带宽时,硬盘带宽会被占满,导致DataNode失去响应。客户端只能通过取消或恢复通道进行规避,这会导致写入失败及不必要的通道恢复操作。 本章节适用于MRS 3.x及后续版本。
升级Master节点规格需要关机吗? 问: 在MRS集群中升级Master节点规格时需要手动关机吗? 答: 随着用户业务的增长,Core节点的扩容,CPU使用率变高,而Master节点规格已经不满足用户需求时,则需要升级Master节点规格。 MRS服务集群的Master节点规格升
配置创建临时函数的用户不需要具有ADMIN权限 操作场景 Hive开源社区版本创建临时函数需要用户具备ADMIN权限。 MRS Hive提供配置开关,默认值为“true”,即创建临时函数需要ADMIN权限,与开源社区版本保持一致。 用户可修改配置开关,实现创建临时函数不需要ADMIN权
优化HDFS DataNode RPC的服务质量 配置场景 当客户端写入HDFS的速度大于DataNode的硬盘带宽时,硬盘带宽会被占满,导致DataNode失去响应。客户端只能通过取消或恢复通道进行规避,这会导致写入失败及不必要的通道恢复操作。 本章节适用于MRS 3.x及后续版本。
为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor? 问题 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor? 回答 CarbonData块分布对于数据处理进行了如下优化: 优化数据处理并行度。 优化了读取块数据的并行性。
配置创建临时函数的用户不需要具有ADMIN权限 操作场景 Hive开源社区版本创建临时函数需要用户具备ADMIN权限。 MRS Hive提供配置开关,默认为创建临时函数需要ADMIN权限,与开源社区版本保持一致。 用户可修改配置开关,实现创建临时函数不需要ADMIN权限。当该选项
进行大数据迁移时,需要保证源端集群和目的端集群之间的网络互通,例如使用hadoop distcp命令跨集群复制数据时需要所有DataNode节点网络互通。根据不同的迁移场景需要使用不同的方式先打通两套集群之间网络连接。 客户线下数据中心迁移数据到华为云MRS集群,通过云专线服务为用户搭
为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor? 问题 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor? 回答 CarbonData块分布对于数据处理进行了如下优化: 优化数据处理并行度。 优化了读取块数据的并行性。
2:主机所设置的逻辑机架要尽量符合其所在的物理机架。 策略 3:如果一个物理机架的主机个数很少,则需要和其他的主机较少的物理机架合并为一个逻辑机架,以满足策略1。不能将两个机房的主机合并为一个逻辑机架,否则会引起性能问题。 策略 4:如果一个物理机架的主机个数很多,则需要将其分隔为多
HetuEngine域名修改后需要做什么 问题 用户修改域名后,会导致已安装的客户端配置和数据源配置失效,且新创建的集群不可用。对接不同域的数据源时,HetuEngine会自动的合并krb5.conf文件。域名修改后,kerberos认证的域名会发生变化,所以此前对接的数据源信息会失效。 回答
存储数据的时候,只会往旧的数据节点存储数据。 由于locators与特定数据节点相关,所以当集群进行扩容的时候,就需要对Colocation的locators分配进行重新规划。 2 创建一批新的locators,并重新规划数据存放方式。 旧的locators使用的是旧的数据节点,
如何切换访问MRS Manager方式? 问: MRS 3.x版本集群,用户通过专线访问MRS Manager后,如何切换到通过EIP访问? 答: 在集群“概览”页面,单击“前往Manager”后的,即可切换访问方式。 父主题: Web页面访问类
HDFS集群可能出现DataNode节点间磁盘利用率不平衡的情况,比如集群中添加新数据节点的场景。如果HDFS出现数据不平衡的状况,可能导致多种问题,比如MapReduce应用程序无法很好地利用本地计算的优势、数据节点之间无法达到更好的网络带宽使用率或节点磁盘无法利用等等。所以MRS集群管理员需要定期检查并保持DataNode数据平衡。
HDFS集群可能出现DataNode节点间磁盘利用率不平衡的情况,比如集群中添加新数据节点的场景。如果HDFS出现数据不平衡的状况,可能导致多种问题,比如MapReduce应用程序无法很好地利用本地计算的优势、数据节点之间无法达到更好的网络带宽使用率或节点磁盘无法利用等等。所以MRS集群管理员需要定期检查并保持DataNode数据平衡。
数据迁移到MRS前信息收集 由于离线大数据搬迁有一定的灵活性,迁移前需要掌握现有集群的详细信息,以能够更好的进行迁移决策。 业务信息调研 大数据平台及业务的架构图。 大数据平台和业务的数据流图(包括峰值和均值流量等)。 识别平台数据接入源、大数据平台数据流入方式(实时数据上报、批量数据抽取)、分析平台数据流向。
Native引擎是通过使用向量化的C++加速库,实现对Spark算子性能加速的一种技术方案。传统的SparkSQL是基于行式数据,通过JVM的codegen来实现查询加速的,由于JVM对生成的java代码存在各种约束,比如方法长度,参数个数等,以及行式数据对内存带宽的利用率不足,因此存在性
mArtsCC缓存,MemArtsCC会在将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用,利用MemArtsCC的本地存储,访问热点数据不必跨网络,可以提升Spark的数据读取效率。 前提条件 Guardian服务正常,且已开启存算分离,具体请参考配置Guardian服务对接OBS。
emArtsCC缓存,MemArtsCC会在将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用,利用MemArtsCC的本地存储,访问热点数据不必跨网络,可以提升Hive的数据读取效率。 前提条件 Guardian服务正常,且已开启存算分离,具体请参考配置Guardian服务对接OBS。
ArtsCC缓存,MemArtsCC会将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用,利用MemArtsCC的本地存储,访问热点数据不必跨网络,可以提升HetuEngine的数据读取效率。 前提条件 Guardian服务正常,且已开启存算分离,具体请参考配置Guardian服务对接OBS。