检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
由于MapReduce的作业日志和任务日志(聚合功能开启的情况下)都保存在HDFS上。对于计算任务量大的集群,如果不进行合理的配置对日志文件进行定期归档和删除,日志文件将占用HDFS大量内存空间,增加集群负载。 日志归档是通过Hadoop Archives功能实现的,Hadoop A
Column 该策略允许访问的HBase表对应的表的列名。 name Allow Conditions Select Group:该策略允许访问的用户组。 Select User:该策略允许访问的用户组中的用户。 Permissions:该策略允许用户使用的权限。 Select Group:testuser
2 2 1 1 1 1 2 2 对于以上结果的第一条为什么是(NULL,0)而不是(NULL,4)。 回答 在进行rollup和cube操作时,用户通常是基于维度进行分析,需要的是度量的结果,因此不会对维度进行聚合操作。 例如当前有表src(d1, d2,
Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是随着代码的增加以及原MapRe
为什么存储小文件过程中,缓存中的数据会丢失 问题 在存储小文件过程中,系统断电,缓存中的数据丢失。 回答 由于断电,当写操作完成之后,缓存中的block不会立即被写入磁盘,如果要同步地将缓存的block写入磁盘,用户需要将“客户端安装路径/HDFS/hadoop/etc/hadoop/hdfs-site
以下为Hive SQL在哪个阶段执行变慢的排查方法: HiveServer编译变慢 查看HiveServer审计日志“/var/log/Bigdata/audit/hive/hiveserver/hive-audit.log”,搜索运行的SQL,如图1的SQL为“show databas
更改NodeManager的存储目录 操作场景 Yarn NodeManager定义的存储目录不正确或Yarn的存储规划变化时,MRS集群管理员需要在Manager中修改NodeManager的存储目录,以保证Yarn正常工作。NodeManager的存储目录包含本地存放目录“yarn
on HBase表中的单行记录 操作场景 由于底层存储系统的原因,Hive并不能支持对单条表数据进行删除操作,但在Hive on HBase功能中,MRS Hive提供了对HBase表的单条数据的删除功能,通过特定的语法,Hive可以将自己的HBase表中符合条件的一条或者多条数据清除。
增大partition数,把任务切分的更小。 增大任务执行过程中的超时时间。 在客户端的“spark-defaults.conf”配置文件中配置如下参数。 表2 参数说明 参数 描述 建议值 spark.sql.shuffle.partitions shuffle操作时,shuffle数据的分块数。 4501
配置Kafka高可用和高可靠 操作场景 Kafka消息传输保障机制,可以通过配置不同的参数来保障消息传输,进而满足不同的性能和可靠性要求。本章节介绍如何配置Kafka高可用和高可靠参数。 本章节内容适用于MRS 3.x及后续版本。 对系统的影响 配置高可用、高性能的影响: 配置高可用
Kerberos服务在收到ST请求后,校验其中的TGT合法后,生成对应的应用服务的ST,再使用应用服务密钥将响应消息进行加密处理。 应用客户端收到ST响应消息后,将ST打包到发给应用服务的消息里面传输给对应的应用服务端(Application Server)。 应用服务端收到请求后,使用本端应用服务对应的密钥解析其
被授权的用户,在访问视图时,即可被限定访问对应的数据。 在普通模式下“current_user()”函数无法区别客户端提交任务的用户,因此,当前访问控制仅对安全模式下的Hive有效。 如果已经在实际业务逻辑中使用了“current_user()”函数,那么,在安全模式与普通模式互转时,需要充分评估可能的风险。
AME的错误。 回答 MRS集群因新增多session管理功能,Hive的特性“--hivevar <VAR_NAME>=<var_value>”在Spark中已不再支持,因此在spark-beeline的启动命令中使用“--hivevar”选项无效。 父主题: SQL和DataFrame
使用Hive的时候,在输入框中输入了use database的语句切换数据库,重新在输入框内输入其他语句,为什么数据库没有切换过去? 回答 在Hue上使用Hive有区别于用Hive客户端使用Hive,Hue界面上有选择数据库的按钮,当前SQL执行的数据库以界面上显示的数据库为准。
配置WebUI上显示的Lost Executor信息的个数 配置场景 Spark WebUI中“Executor”页面支持展示Lost Executor的信息,对于JDBCServer长任务来说,Executor的动态回收是常态,Lost Executor个数太多,会撑爆“Exe
配置YARN-Client和YARN-Cluster不同模式下的环境变量 配置场景 当前,在YARN-Client和YARN-Cluster模式下,两种模式的客户端存在冲突的配置,即当客户端为一种模式的配置时,会导致在另一种模式下提交任务失败。 为避免出现如上情况,添加表1中的配置项,避免两种模式下来回切换参数,提升软件易用性。
database 该策略允许访问的数据库名称。 test table 该策略允许访问的数据库对应的表名称。 table1 Hive Column 该策略允许访问的数据库对应的表的列名。 name Allow Conditions Select Group:该策略允许访问的用户组。 Select
配置HDFS token的最大存活时间 配置场景 安全模式下,HDFS中用户可以对Token的最大存活时间和Token renew的时间间隔进行灵活地设置,根据集群的具体需求合理地配置。 配置描述 参数入口: 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。
Loader常见问题 IE 10&IE 11浏览器无法保存数据 将Oracle数据库中的数据导入HDFS时各连接器的区别 父主题: 使用Loader
立应用软件的开发工具的集合。 Database pg数据库。 WebApp(Oozie) WebApp(Oozie)即Oozie server,可以用内置的Tomcat容器,也可以用外部的,记录的信息比如日志等放在pg数据库中。 Tomcat Tomcat服务器是免费的开放源代码的Web应用服务器。