检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
生成的流,设置窗口类型并且定义窗口触发条件,然后在窗口数据上进行一些操作。 ConnectedStreams:将两条DataStream流连接起来并且保持原有流数据的类型,然后进行map或者flatMap操作。 JoinedStreams:在窗口上对数据进行等值join操作,jo
load("/tmp/default/cow_bugx/") // 指定读取的hudi表路径 .createTempView("mycall") // 注册为spark临时表 spark.sql("select * from mycall where `_hoodie_commit_time`>'20210308211131'")
导入并配置Flink样例工程 操作场景 Flink针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Flink工程。 针对Java和Scala不同语言的工程,其导入方式相同。 以下操作步骤以导入Java样例代码为例。操作流程如图1所示。 图1 导入样例工程流程
是否必选 参数类型 描述 map_id 否 Integer 参数解释: 数据连接关联ID值。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 connector_id 否 String 参数解释: 数据连接ID值。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 component_name
Tuple3<>(word[0], word[1], word[2]); } }); //将Stream1注册为Table1 tableEnv.registerDataStream("Table1", kafkaStream, "name
Tuple3<>(word[0], word[1], word[2]); } }); //将Stream1注册为Table1 tableEnv.registerDataStream("Table1", kafkaStream, "name
配置Container日志聚合功能 配置场景 YARN提供了Container日志聚合功能,可以将各节点Container产生的日志收集到HDFS,释放本地磁盘空间。日志收集的方式有两种: 应用完成后将Container日志一次性收集到HDFS。 应用运行过程中周期性收集Container输出的日志片段到HDFS。
义组合rowkey为列“SMS_ID”、“SMS_NAME”的取第二个字符开始的三个字符以及“SMS_SERAIL”的反转(各部分用'_'连接)。 <columns> <column index="1" type="int">SMS_ID</column>
义组合rowkey为列“SMS_ID”、“SMS_NAME”的取第二个字符开始的三个字符以及“SMS_SERAIL”的反转(各部分用'_'连接)。 <columns> <column index="1" type="int">SMS_ID</column>
CREATE TABLE 本章节主要介绍Doris创建表的SQL基本语法和使用说明。 基本语法 CREATE TABLE [IF NOT EXISTS] [database.]table ( column_definition_list, [index_definition_list]
Tuple3<>(word[0], word[1], word[2]); } }); //将Stream1注册为Table1 tableEnv.registerDataStream("Table1", kafkaStream, "name
Tuple3<>(word[0], word[1], word[2]); } }); //将Stream1注册为Table1 tableEnv.registerDataStream("Table1", kafkaStream, "name
Spark动态分区插入场景内存优化 操作场景 SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证
Flink Hudi样例程序(Java) 功能介绍 通过调用Flink API读写Hudi数据。 代码样例 下面列出WriteIntoHudi和ReadFromHudi主要逻辑代码作为演示。 完整代码参见com.huawei.bigdata.flink.examples.WriteIntoHudi和com
选择配置工具 “Agent名”选择“server”,然后选择要使用的source、channel以及sink,将其拖到右侧的操作界面中并将其连接。 采用SpoolDir Source、File Channel和HDFS Sink,如图2所示。 图2 Flume配置工具示例 双击对应
指定审计日志转储后存放的SFTP服务器,建议使用基于SSH v2的SFTP服务,否则存在安全风险。 SFTP端口 22 指定审计日志转储后存放的SFTP服务器连接端口。 保存路径 /opt/omm/oms/auditLog 指定SFTP服务器上保存审计日志的路径。 SFTP用户名 root 指定登录SFTP服务器的用户名。
HDFS HA方案介绍 HDFS HA方案背景 在Hadoop 2.0.0之前,HDFS集群中存在单点故障问题。由于每个集群只有一个NameNode,如果NameNode所在机器发生故障,将导致HDFS集群无法使用,除非NameNode重启或者在另一台机器上启动。这在两个方面影响了HDFS的整体可用性:
选择配置工具 “Agent名”选择“server”,然后选择要使用的source、channel以及sink,将其拖到右侧的操作界面中并将其连接。 采用SpoolDir Source、File Channel和HDFS Sink,如图3所示。 图3 Flume配置工具示例 双击对应
设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常? 问题 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常。 回答 创建、加载、更新表或进行其他操作时,数据会被写入HDFS。如果HDFS目录的磁盘空间配额不足,则操作失败并发生以下异常。
查询对应版本元数据 功能介绍 查询对应版本元数据。如果参数里指定集群id,则可查询集群更新过补丁之后的最新元数据。 调用方法 请参见如何调用API。 URI GET /v1.1/{project_id}/metadata/versions/{version_name} 表1 路径参数