检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Ranger与其他组件的关系 Ranger为组件提供基于PBAC的鉴权插件,供组件服务端运行,目前支持Ranger鉴权的组件有HDFS、Yarn、Hive、HBase、Kafka、Storm和Spark等,后续会支持更多组件。 Ranger为各组件提供了基于PBAC(Policy-Based
如何读取“__consumer_offsets”内部topic的内容 用户问题 Kafka如何将consumer消费的offset保存在内部topic“ __consumer_offsets”中? 处理步骤 以客户端安装用户,登录安装Kafka客户端的节点。 切换到Kafka客户端安装目录,例如“/opt/client”。
MRS支持什么类型的分布式存储? 问: MRS集群支持什么类型的分布式存储?有哪些版本? 答: MRS集群内使用主流的大数据Hadoop,目前支持Hadoop 3.x版本,并且随集群演进更新版本。 同时MRS也支持用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离模式。
不同版本的Hive之间是否可以兼容? Hive 3.1版本与Hive 1.2版本相比不兼容内容主要如下: 字段类型约束:Hive 3.1不支持String转成int。 UDF不兼容:Hive 3.1版本UDF内的Date类型改为Hive内置。 索引功能废弃。 驱动不兼容:Hive
如何解除网络ACL的关联子网 操作场景 用户可根据自身网络需求,解除网络ACL与子网的关联关系。 操作步骤 登录管理控制台。 在服务列表中单击“网络 > 虚拟私有云”。 在左侧导航栏单击“访问控制 > 网络ACL”。 在右侧在“网络ACL”列表区域,选择网络ACL的名称列,单击您需要修改的网络ACL名称进入详情页面。
如何查看MRS作业的日志? MRS Console页面作业管理,每一条作业支持查看日志,包含launcherJob日志和realJob日志。 launcherJob作业的日志,一般会在stderr和stdout中打印错误日志,如下图所示: realJob的日志,可以通过MRS M
如何关闭ZooKeeper的SASL认证? 问: 怎么关闭ZooKeeper SASL认证? 答: 登录FusionInsight Manager。 选择“集群 > 服务 > ZooKeeper > 配置 > 全部配置”。 在左侧导航栏选择“quorumpeer > 自定义”添加参数名称和值:zookeeper
kinit MRS集群用户 执行以下命令获取指定任务的日志信息。 yarn logs -applicationId 待查看作业的application_ID 父主题: 作业管理类
配置SparkSQL的分块个数 配置场景 SparkSQL在进行shuffle操作时默认的分块数为200。在数据量特别大的场景下,使用默认的分块数就会造成单个数据块过大。如果一个任务产生的单个shuffle数据块大于2G,该数据块在被fetch的时候还会报类似错误: Adjusted
Hive分区修剪的谓词下推增强 配置场景 在旧版本中,对Hive表的分区修剪的谓词下推,只支持列名与整数或者字符串的比较表达式的下推,在2.3版本中,增加了对null、in、and、or表达式的下推支持。 配置参数 登录FusionInsight Manager系统,选择“集群 >
基于Python的Hive样例程序 功能介绍 本章节介绍如何使用Python连接Hive执行数据分析任务。 样例代码 使用Python方式提交数据分析任务,参考样例程序中的“hive-examples/python-examples/pyCLI_sec.py”。该样例程序连接的集群的认证模
从checkpoint恢复spark应用的限制 问题 Spark应用可以从checkpoint恢复,用于从上次任务中断处继续往下执行,以保证数据不丢失。但是,在某些情况下,从checkpoint恢复应用会失败。 回答 由于checkpoint中包含了spark应用的对象序列化信息、task执行
~Z”分为四个Region。 代码样例 以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseExample”类的testMultiSplit方法中。 public void testMultiSplit() { LOG.info("Entering
通过JDBC访问Spark SQL的程序 场景说明 Java样例代码 Scala样例代码 Python样例代码 父主题: 开发Spark应用
更改NodeManager的存储目录 操作场景 Yarn NodeManager定义的存储目录不正确或Yarn的存储规划变化时,MRS集群管理员需要在Manager中修改NodeManager的存储目录,以保证Yarn正常工作。NodeManager的存储目录包含本地存放目录“yarn
配置互信MRS集群的用户权限 配置完跨Manager集群互信后,需要在互信的系统上设置访问用户的权限,这样指定的用户才能在互信系统上进行对应的业务操作。 前提条件 已完成跨集群互信配置,然后刷新两个集群的客户端。 配置互信集群的用户权限(MRS 3.x及之后版本) 登录本端系统的FusionInsight
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录 问题 系统长时间运行后,在客户端安装节点的/tmp目录下,发现残留了很多blockmgr-开头和spark-开头的目录。 图1 残留目录样例 回答 Spark任务在运行过程中,driver会
启动,只有如下日志: Presto的coordinator未真正启动即被终止了,不再打印其他日志,查看Presto的其他日志也未发现原因。 原因分析 Presto的健康检查脚本的端口检查逻辑中未做好端口的区分。 处理步骤 使用工具分别登录集群的Master节点执行如下操作。 执行如下命令编辑文件。
Manager页面新建的租户删除失败 问题现象 在FusionInsight Manager的“租户资源”页面添加租户后,删除租户时,报“删除租户角色失败”。 原因分析 在创建租户时会生成对应的角色,执行删除租户操作时会首先删除对应的角色。此时如果支持权限配置的组件状态异常,则会导致删除这个角色对应的资源权限失败。
当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor? 问题 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor? 回答 在这种场景下,CarbonData会给每个节点分配一个INSERT