检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hudi的自定义配置项样例程序 HoodieDeltaStreamer 自定义排序器 父主题: 开发Spark应用
为了运行MRS产品Hive组件的SpringBoot接口样例代码,需要完成下面的操作。 该章节以在Windows环境下开发SpringBoot方式连接Hive服务的应用程序为例。 该章节内容适用于MRS 3.3.0及之后版本。 操作步骤 参考获取MRS应用开发样例工程,获取样例代码解压目录中“src
x之前版本,请单击“保存配置”在弹出窗口单击“是”。 选择“概览 > 更多 > 重启服务”,重启Hive服务,输入密码开始重启服务。 针对MRS 3.x之前版本,请在“服务状态”页签选择“更多 > 重启服务”,重启Hive服务。 安装并登录Hive客户端,具体操作请参考Hive客户端使用实践。 提交并执行Tez任务。
登录FusionInsight Manager。 选择“集群 > 服务 > Flume > 实例”,勾选Flume实例,选择“更多 > 重启实例”输入密码,单击“确定”等待实例重启成功。 服务端flume-env.sh生效后不能通过Manager界面重启整个Flume服务,否则用户自定义环境变量丢失,仅需在Manager界面重启对应实例即可。
32:21007表示kafka服务器的IP:port SSL加密配置 服务端配置。 配置“ssl.mode.enable”为“true”,如图2所示: 图2 服务端配置 客户端配置。 登录FusionInsight Manager系统,选择“集群 > 待操作集群的名称 > 服务 > Kafka
业务2的数据通过socket接收消息记录,可使用netcat命令用户输入模拟数据源。 使用Linux命令netcat -l -p <port>,启动一个简易的文本服务器。 启动应用程序连接netcat监测的port成功后,向netcat终端输入数据信息。 开发思路 启动Flink Kafka Producer应用向Kafka发送数据。
的Join结果进行Union操作,以达到消除数据倾斜的效果 配置参数 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 spark.sql.adaptive.enabled
idea\workspace.xml”文件。 找到标签“<component name="PropertiesComponent"> ” ,在内容中添加“ <property name="dynamic.classpath" value="true" />” ,如图1。 图1 修改“ .idea\workspace
test_p_1; 注意事项 默认无法对外部表(external)插入数据的,如需使用该功能,可以给数据源添加配置。 共部署情况 登录FusionInsight Manager,选择“集群 > 服务 > HetuEngine > 概览”,单击“HSConsole WebUI”的HSConsole链接进入计算实例界面。
造成过载。过载会导致应用侧读写性能下降,HBase服务侧频繁GC,严重时会导致服务实例重启等。 当前HBase具有防过载能力,可以实现拒绝超大请求、保护内部请求、记录不合理请求等功能,减少过载场景下对HBase服务的影响,保障服务稳定性。 该章节仅适用于MRS 3.3.0及之后版本。
定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 占用Zookeeper服务器资源,znode数量会在短时间内达到使用上限,影响ClickHouse服务。 可能原因 ClickHouse业务
写入作业影响可以忽略。 上述方案落地的具体步骤参考如下: Flink只负责写数据和生成Compaction计划 Flink流任务建表语句中添加如下参数,控制Flink任务写Hudi时只会生成Compaction plan 'compaction.async.enabled' = 'false'
安全认证代码、业务应用代码及其相关配置。 yarn-cluster模式中不支持在Spark工程中添加安全认证。因为需要在应用启动前已完成安全认证。所以用户需要在Spark应用之外添加安全认证代码或使用命令行进行认证。由于提供的示例代码默认提供安全认证代码,请在yarn-clust
/opt/hadoopclient 执行以下命令,配置环境变量。 source bigdata_env 执行以下命令,修改kadmin/admin密码。此操作对所有服务器生效。如果密码丢失将不可找回,请妥善保管。 kpasswd kadmin/admin 输入用户密码后(默认密码为Admin@123),设置新密码。新密码的默认复杂度要求:
避免客户端由于无限等待服务端的返回而挂起。使用方式如下: 在执行“DriverManager.getConnection”方法获取JDBC连接前,添加“DriverManager.setLoginTimeout(n)”方法来设置超时时长,其中n表示等待服务返回的超时时长,单位为秒
Scala样例代码 功能介绍 在Spark应用中,通过使用StructuredStreaming调用kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数。 代码样例 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata.spark.examples
info("Exiting testCreateTable."); } 解释 (1)创建表描述符。 (2)创建列族描述符。 (3)添加列族描述符到表描述符中。 (4)获取Admin对象,Admin提供了建表、创建列族、检查表是否存在、修改表结构和列族结构以及删除表等功能。
lustering服务来重写数据以优化Hudi数据湖文件的布局。 Clustering服务可以异步或同步运行,Clustering会添加了一种新的REPLACE操作类型,该操作类型将在Hudi元数据时间轴中标记Clustering操作。 Clustering服务基于Hudi的MV
数据存储到表counter_daily_agg中,数据源来自counter。 聚合表在明细表名后加上_{type}_agg后缀;物化视图添加 _{type}_mv后缀。 物化视图、聚合表保持与明细表同样的分区类型及ttl时间。 物化视图中的group by字段名称与明细表对应字
图2 Configure 在弹出的“Project Structure for New Projects”页面中,选择“SDKs”,单击加号添加JDK。 图3 Project Structure for New Projects 在弹出的“Select Home Directory