检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过查看Spark日志介绍了解应用运行情况,并根据日志信息调整应用程序。 父主题: 使用Spark/Spark2x
本章节仅以集群ID为1进行介绍,请以实际集群ID为准。 以客户端安装用户登录将要安装客户端的服务器。 进入安装包所在目录,执行如下命令解压软件包。
在Windows中调测Hive JDBC应用 JDBC客户端的命令行形式运行 运行样例。 依照准备Hive JDBC开发环境中导入和修改样例后,并从集群的任一Master节点的路径“/opt/client/Hive/config/hiveclient.properties”下获取“
图1 Flume使用流程 Flume模块介绍 Flume客户端/服务端由一个或多个Agent组成,而每个Agent是由Source、Channel、Sink三个模块组成,数据先进入Source然后传递到Channel,最后由Sink发送到下一个Agent或目的地(客户端外部)。
Flink开启Checkpoint样例程序(Java) 功能介绍 假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量,并做到状态严格一致性。 代码样例 快照数据 该数据在算子制作快照时用于保存到目前为止算子记录的数据条数。
ClickHouse集群配置说明 背景介绍 ClickHouse通过多分片多副本的部署架构实现了集群的高可用,每个集群定义多个分片,每个分片具有2个或2个以上副本。当某节点故障时,分片内其他主机节点上的副本可替代工作,保证服务能正常运行,提高集群的稳定性。
重启数据库服务: #停止 pg_ctl stop #启动 pg_ctl start CDL同步任务支持的数据类型及映射关系 主要介绍CDL同步任务支持的数据类型,以及源端数据库数据类型跟Spark数据类型的映射关系。
Flink作业RocksDB介绍 当启用RocksDB作为作业的状态后端时,大量的状态数据会导致RocksDB的读写性能差。
图1 Flume使用流程 Flume模块介绍 Flume客户端/服务端由一个或多个Agent组成,而每个Agent是由Source、Channel、Sink三个模块组成,数据先进入Source然后传递到Channel,最后由Sink发送到下一个Agent或目的地(客户端外部)。
“Include”策略适用于当前输入的对象,“Exclude”表示策略适用于除去当前输入内容之外的其他对象。 Description 策略描述信息。 Audit Logging 是否审计此策略。
使用TableIndexer工具生成HBase本地二级索引 场景介绍 为了快速对数据创建索引,HBase提供了可通过MapReduce功能创建索引的TableIndexer工具,该工具可实现添加、构建和删除索引。
Flink开启Checkpoint样例程序(Scala) 功能介绍 假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量,并做到状态严格一致性。 代码样例 发送数据形式。
Flink Hudi样例程序(Java) 功能介绍 通过调用Flink API读写Hudi数据。 代码样例 下面列出WriteIntoHudi和ReadFromHudi主要逻辑代码作为演示。
MapReduce统计样例代码 功能介绍 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为三个部分: 从原文件中筛选女性网民上网时间数据信息,通过类CollectionMapper继承Mapper抽象类实现。
使用Spark小文件合并工具说明 工具介绍 在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。
table tbl_a values(123,'sjk'),(234,'shen'),(111,'aaa'); (可选)在SQL防御中配置了自读自写拦截规则后,对于涉及动态分区场景默认情况下是按照nonstrict模式拦截的,如果需要按照分区精准拦截,可执行以下命令进行设置,参数介绍请参见设置
配置Hive读取Hudi表 Hudi表对应的Hive外部表介绍 Hudi源表对应一份HDFS的数据,通过Spark组件、Flink组件或者Hudi客户端,可以将Hudi表的数据映射为Hive外部表,基于该外部表,Hive可以进行实时视图查询、读优化视图查询以及增量视图查询。
'print'); INSERT INTO udfSink SELECT str, strLength FROM udfSource,lateral table(udtf(udfSource.a)) as T(str,strLength); Flink UDF重用介绍
LakeFormation概述 LakeFormation是企业级一站式湖仓构建服务,提供元数据统一管理的可视化界面及API,兼容Hive元数据模型以及Ranger权限模型,支持无缝对接多种计算引擎及大数据云服务,使客户便捷高效地构建数据湖和运营相关业务,加速释放业务数据价值。 您可以创建一个
Loader作业源连接配置说明 基本介绍 Loader作业需要从不同数据源获取数据时,应该选择对应类型的连接,每种连接在该场景中需要配置连接的属性。 本章节适用于MRS 3.x之前版本。