检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何使用PySpark连接MRS Spark? 问: 如何在ECS服务器上用PySpark连接内网开启Kerberos认证的MRS Spark集群? 答: 将Spark的“spark-defaults.conf”文件中“spark.yarn.security.credentials.hbase.enabled
使用IE浏览器在Hue中执行HQL失败 问题 遇到使用IE浏览器在Hue中访问Hive Editor并执行所有HQL失败,界面提示如下报错,如何解决并正常执行HQL? There was an error with your query. 回答 IE浏览器存在功能问题,不支持在307
IE 10&IE 11浏览器无法保存数据 问题 通过IE 10&IE 11浏览器访问Loader界面,提交数据后,会报错。 回答 现象 保存提交数据,出现类似报错:Invalid query parameter jobgroup id. cause: [jobgroup]。 原因
调整Yarn任务抢占机制 操作场景 抢占任务可精简队列中的job运行并提高资源利用率,由ResourceManager的capacity scheduler实现,其简易流程如下: 假设存在两个队列A和B。其中队列A的capacity为25%,队列B的capacity为75%。 初始状态下
Manager管理开发指南 Manager应用开发简介 Manager应用开发流程 准备Manager应用开发环境 开发Manager应用 调测Manager应用 Manager应用开发常见问题
Flume开源增强特性 Flume开源增强特性 提升传输速度。可以配置将指定的行数作为一个Event,而不仅是一行,提高了代码的执行效率以及减少写入磁盘的次数。 传输超大二进制文件。Flume根据当前内存情况,自动调整传输超大二进制文件的内存占用情况,不会导致Out of Memory
sftp-connector连接器相关作业运行失败 问题 使用sftp-connector连接器相关作业运行失败,出现如下类似报错:“获取Sftp通道失败。xxx (原因是: failed to send channel request)”。 SFTP服务出现如下报错:“subsystem
调整HetuEngine集群节点资源配置 HetuEngine默认的内存大小参数和硬盘溢出路径参数默认并非最佳,需要根据实际业务和集群的服务器配置情况调整集群节点资源配置,以获得最佳的性能效果。 调整HetuEngine集群节点资源步骤 登录FusionInsight Manager
登录Ranger WebUI界面 Ranger服务提供了集中式的权限管理框架,可以对HDFS、HBase、Hive、Yarn等组件进行细粒度的权限访问控制,并且提供了Web UI方便Ranger管理员进行操作。 Ranger用户类型 Ranger中的用户可分为Admin、User、
配置Hive表、列或数据库的用户权限 操作场景 使用Hive表或者数据库时,如果用户访问别人创建的表或数据库,需要授予对应的权限。为了实现更严格权限控制,Hive也支持列级别的权限控制。如果要访问别人创建的表上某些列,需要授予列权限。以下介绍使用Manager角色管理功能在表授权、
使用HBase过滤器Filter 功能简介 HBase Filter主要在Scan和Get过程中进行数据过滤,通过设置一些过滤条件来实现,如设置RowKey、列名或者列值的过滤条件。 代码样例 以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseExample
使用IE浏览器配置Loader作业时无法保存数据 问题 通过IE 10&IE 11浏览器访问Loader界面,提交数据后,会报错。 回答 现象 保存提交数据,出现类似报错:Invalid query parameter jobgroup id. cause: [jobgroup]。
在Hue WebUI使用文件浏览器 操作场景 用户需要使用图形化界面管理HDFS文件时,可以通过Hue完成任务。 Hue界面主要用于文件、表等数据的查看与分析,禁止通过Hue界面对操作对象进行删除等高危管理操作。如需操作,建议在确认对业务没有影响后通过各组件的相应操作方法进行处理,
访问Hue原生页面时间长,文件浏览器报错Read timed out 问题 访问Hue原生页面时页面加载时间较长,访问Hue的HDFS文件浏览器报错Read timed out,如何解决。 回答 检查HDFS服务中是否安装Httpfs实例。 否,请联系运维人员处理。 是,重启HttpFS
配置Region Transition恢复线程 操作场景 在故障环境中,由于诸如region服务器响应慢,网络不稳定,ZooKeeper节点版本不匹配等各种原因,有可能导致region长时间处于transition下。在region transition下,由于一些region不能对外提供服务
配置Region Transition恢复线程 操作场景 在故障环境中,由于诸如Region服务器响应慢,网络不稳定,ZooKeeper节点版本不匹配等各种原因,有可能导致Region长时间处于Transition下。当Region处于Transition下,由于一些Region不能对外提供服务
loader-tool工具使用示例 操作场景 loader-tool工具支持通过作业模板或参数选项的方式,对连接器或者作业进行创建、更新、查询、删除等操作。 本文将以“从SFTP服务器导入数据到HDFS”的作业为例,通过引用作业模板的方式,介绍loader-tool工具的使用方法。
配置MapReduce Job基线 操作场景 确定Job基线是调优的基础,一切调优项效果的检查,都是通过和基线数据做对比来获得。 Job基线的确定有如下三个原则: 充分利用集群资源 Reduce阶段尽量放在一轮 每个Task的执行时间要合理 操作步骤 原则一:充分利用集群资源。 Job
执行Spark任务报内存不足告警如何处理? 问题现象 执行Spark任务就会报内存不足告警,告警id:18022,可用内存会陡降到0。 处理步骤 在SQL脚本前设置executor参数,限制executor的核数和内存。 例如设置如下: set hive.execution.engine
MapReduce开源增强特性 MapReduce开源增强特性:JobHistoryServer HA特性 JobHistoryServer(JHS)是用于查看MapReduce历史任务信息的服务器,当前开源JHS只支持单实例服务。JobHistoryServer HA能够解决JHS