检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark从Hive读取数据再写入HBase样例程序(Scala) 功能介绍 在Spark应用中,通过使用Spark调用Hive接口来操作hive表,然后把Hive表的数据经过分析后写到HBase表。 代码样例 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata
开发。可使用IDEA工具。 准备本地应用开发环境 准备工程 Oozie提供了不同场景下的样例程序,您可以导入样例工程进行程序学习。 导入并配置Oozie样例工程 根据场景开发工程 提供了Java语言的样例工程。 开发Oozie应用 编译并运行程序 指导用户将开发好的程序编译并提交运行。
WebUI上应用状态显示不一致 为什么Driver进程不能退出 网络连接超时导致FetchFailedException 当事件队列溢出时如何配置事件队列的大小 Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出 Spark执行应用时上报“Connection
订单支付成功后,集群开始进行转包周期流程,待集群转包周期成功后,集群状态更新为“运行中”。 转包周期后集群原有Task节点计费类型保持按需计费,集群在转包周期过程中已配置的弹性伸缩规则不触发新任务,请选择恰当的时间进行该操作。 父主题: 管理MRS集群
conf文件,无法获取kerberos认证所需信息,导致ApplicationMaster启动失败。 解决办法 在客户端提交任务时,在命令行中配置自定义的spark.driver.extraJavaOptions参数这样任务运行时就不会自动加载客户端路径下“spark-defaults
否,执行6。 在FusionInsight Manager界面,选择“集群 > 待操作集群的名称 > 服务 > MapReduce > 配置 > 全部配置 > JobHistoryServer > 系统”。对NodeManager 的内存参数“GC_OPTS”进行调整,并单击“保存”,单击“确定”进行重启。
configurations) throws Exception “beforeStart”方法有以下作用: 帮助用户解析SQL语句中的UDF参数。 配置UDF运行时必要的信息,即指定UDF访问原始数据时采取的策略和输出结果序列的类型。 创建资源,比如建立外部链接,打开文件等。 UDFParameters
调测Hive SpringBoot样例程序 该章节内容适用于MRS 3.3.0及之后版本。 SpringBoot样例工程的命令行形式运行 在IDEA界面左下方单击“Terminal”进入终端,执行命令mvn clean package进行编译。 当输出“BUILD SUCCESS
性能调优方式 当前版本Hudi写入操作主推Spark,因此Hudi的调优和Spark比较类似,可参考Spark Core性能调优。 推荐资源配置 mor表: 由于其本质上是写增量文件,调优可以直接根据hudi的数据大小(dataSize)进行调整。 dataSize如果只有几个G,
接将Kerberos认证的文件传进去进行认证。而在MRS 1.9版本中,此方法行不通,需要先进行Kerberos认证,并且需要获取一些别的配置信息,然后再进行URL拼接。 处理步骤 请参考官方MRS 1.9样例工程中hive-examples的认证连接,样例地址请参考开发指南。 建议与总结
Hudi性能调优 性能调优方式 当前版本Hudi写入操作主推Spark,因此Hudi的调优和Spark比较类似。 推荐资源配置 mor表: 由于其本质上是写增量文件,调优可以直接根据Hudi的数据大小(dataSize)进行调整。 dataSize如果只有几个G,推荐跑单节点运行
nfo会执行kill -3将jstack信息打印到.out日志文件里,从而导致.out日志文件过大。 处理步骤 在每个HDFS实例的节点上部署定期清理.out日志文件的定时任务。后台登录HDFS的实例节点,在crontab -e中添加每天0点清理.out日志的定时任务。 crontab
多租户模式是将JDBCServer和租户绑定,每一个租户对应一个或多个JDBCServer,而一个JDBCServer只给一个租户提供服务。不同的租户可以配置不同的YARN队列,从而达到资源隔离,且JDBCServer根据需求动态启动,可避免浪费资源。 实现方案 多租户模式的HA方案原理如图2所示。
示例: 以MapReduce访问HDFS、HBase、Hive为例,介绍如何编写MapReduce作业访问多个服务组件。帮助用户理解认证、配置加载等关键使用方式。 相关样例介绍请参见MapReduce访问多组件样例程序。 父主题: MapReduce开发指南(普通模式)
ster地址。 HMaster通过ZooKeeper随时感知各个HRegionServer的健康状况,以便进行控制管理。 HBase也可以部署多个HMaster,类似HDFS NameNode,当HMaster主节点出现故障时,HMaster备用节点会通过ZooKeeper获取主
Iceberg Iceberg原理介绍 Iceberg是一种开放的数据湖表格式,可以基于Iceberg快速地在HDFS或OBS上构建自己的数据湖存储服务。 Iceberg当前为公测阶段,若需使用需联系技术支持申请白名单开通。 当前版本Iceberg仅支持Spark引擎,如需使用其他引擎构建数据湖服务,请使用Hudi。
已执行打包Storm样例工程应用。 调整IntelliJ IDEA客户端机器时间,和Storm集群时间差不超过5分钟。 确保本地的hosts文件中配置了远程集群所有主机的主机名和业务IP映射关系。 操作步骤 修改WordCountTopology.java类,使用remoteSubmit
作请参考查看Ranger审计信息。 Security Zone 配置安全区域,Ranger管理员可将各组件的资源切分为多个区域,由不同Ranger管理员为服务的指定资源设置安全策略,以便更好的管理,具体操作可参考配置Ranger安全区信息。 Settings 查看Ranger相关
angelog丢失。针对这种情况需要保留版本数多一点,且给Flink作业合理的资源配置避免数据积压周期超过了清理周期。 基于状态后端生成changelog也是依赖于状态后端的,状态后端通常是会配置TTL时间的,不会永久保留。这种场景下更新操作是任意更新,没有一定时间周期限制。例如
HDFS集群磁盘容量不足,会影响到HDFS的数据写入。如果DataNode的剩余空间都已经给副本预留,则写入HDFS数据失败。 可能原因 告警阈值配置不合理。 HDFS集群配置的磁盘空间不足。 HDFS的业务访问量太大,超过了已有DataNode的负载能力。 处理步骤 查看阈值设置是否合理 在FusiongInsight